گوگل اوایل سال جاری میلادی اعلام کرده بود که قصد دارد قابلیتهای «کاربری کامپیوتر» (computer use) را از طریق Gemini API در اختیار توسعهدهندگان قرار دهد. در تاریخ 7 نوامبر 2025، این شرکت مدل Gemini 2.5 Computer Use را منتشر کرد؛ یک مدل تخصصی جدید که بر پایه قابلیتهای درک بصری و استدلال Gemini 2.5 Pro ساخته شده و به «عاملها» (Agents) قدرت میدهد تا با رابطهای کاربری (UI) تعامل داشته باشند.
آنچه در ادامه میخوانید، ترجمه، تحلیل و بومیسازی مقالهای است که مستقیما توسط خود گوگل منتشر شده است. ما در این مقاله به بررسی عمیق مدل جدید جمنای گوگل میپردازیم و تمام جزئیات فنی و دموهای ارائهشده توسط گوگل را به زبان فارسی روان توضیح میدهیم.
عملکرد مدل جدید جمنای گوگل در چندین بنچمارک کنترل وب و موبایل (آزمونهای استاندارد برای سنجش توانایی هوش مصنوعی در کنترل کردن اپلیکیشنها)، از رقبای پیشرو خود بهتر بوده است، آن هم در حالی که زمان پاسخدهی کمتری دارد. توسعهدهندگان میتوانند از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI به این قابلیتها دسترسی داشته باشند.
اگرچه مدلهای هوش مصنوعی میتوانند از طریق APIهای ساختاریافته با نرمافزارها ارتباط برقرار کنند، بسیاری از وظایف دیجیتال همچنان نیازمند تعامل مستقیم با رابطهای کاربری گرافیکی (GUI) هستند؛ به عنوان مثال، پر کردن و ارسال فرمها.
برای تکمیل این وظایف، «عاملها» باید درست مانند انسانها در صفحات وب و اپلیکیشنها پیمایش کنند؛ یعنی با کلیک کردن، تایپ کردن و اسکرول کردن.
گام بعدی و حیاتی در ساخت عاملهای هوشمند قدرتمند و همهمنظوره؛ هدفی که مدل Gemini 2.5 Computer Use برای آن طراحی شده است، اینجام اقدامات زیر است:
- توانایی بومی برای پر کردن فرمها
- کار با عناصر تعاملی مانند منوهای کشویی و فیلترها
- فعالیت در پشت صفحات لاگین
مدل جدید جمنای گوگل، چگونه کار میکند؟
قابلیتهای اصلی مدل جدید جمنای گوگل از طریق ابزار جدید computer_use در Gemini API ارائه میشود و طوری طراحی شده است که باید در یک «حلقه» (loop) عملیاتی شود.
ورودیهای این ابزار شامل درخواست کاربر، اسکرینشات محیط و تاریخچهای از اقدامات اخیر است. همچنین در بخش ورودی میتوان مشخص کرد آیا توابعی از «لیست کامل اقدامات UI پشتیبانیشده» حذف شوند، یا اینکه توابع سفارشی اضافی برای گنجانده شدن، تعریف شوند.
توضیحات واضحتر
اگر مطلب بالا را درست متوجه نشدید، بیایید واضحتر توضیح دهیم.
بخش بالا کمی فنی است. به زبان ساده، گوگل توضیح میدهد برای استفاده از مدل جدید جمنای گوگل (Gemini 2.5 Computer Use)، توسعهدهنده باید سه چیز را به صورت همزمان به آن بدهد:
1. درخواست کاربر: یعنی به مدل گفته شود دقیقا چه هدفی دارد. (مثلا: «در این صفحه ثبتنام کن» یا «قیمت این کالا را پیدا کن»).
2. اسکرینشات محیط: یک عکس کامل از چیزی که همین لحظه روی صفحه نمایش (در مرورگر یا اپلیکیشن) دیده میشود.
3. تاریخچه اقدامات اخیر: لیستی از کارهایی که هوش مصنوعی در چند ثانیه قبل انجام داده است. (مثلا: ۱. کلیک روی فیلد نام، ۲. تایپ کردن «علی»). این کار به مدل کمک میکند بفهمد الان کجای کار است و گیج نشود.
گوگل همچنین اشاره میکند این ابزار، دو قابلیت پیشرفته هم دارد:
1. محدود کردن دسترسی (Exclude functions)
توسعهدهنده میتواند به مدل بگوید از برخی کارها استفاده نکند. مثلا: «اجازه نداری روی دکمه حذف کلیک کنی» یا «حق نداری چیزی را تایپ کنی، فقط کلیک کن».
2. اضافه کردن قابلیتهای جدید (Custom functions)
توسعهدهنده میتواند ابزارهای سفارشی خودش را به مدل اضافه کند. (مثلا: یک ابزار مخصوص به نام «دریافت کد تایید از ایمیل» تعریف کند تا مدل بتواند در صورت نیاز از آن هم استفاده کند).
فرایند تحلیل، تصمیمگیری و صدور دستور
سپس مدل جدید جمنای گوگل این ورودیها را تجزیهوتحلیل کرده و پاسخی تولید میکند. این پاسخ، معمولا یک «فراخوانی تابع» (function call) است که یکی از اقدامات رابط کاربری مانند کلیک کردن یا تایپ کردن را نمایندگی میکند. این پاسخ همچنین ممکن است حاوی درخواستی برای تایید از سوی کاربر نهایی باشد، که این تایید، برای اقدامات خاصی مانند نهایی کردن خرید، الزامی است. پس از دریافت پاسخ، کدی که در سمت کاربر (client-side) قرار دارد، اقدام مشخصشده را اجرا میکند.
چرخه ادامه مییابد…
پس از اجرای آن اقدام، یک اسکرینشات جدید از رابط کاربری گرافیکی (GUI) و همچنین URL صفحه فعلی، به عنوان «پاسخ تابع» به مدل Gemini 2.5 Computer Use بازگردانده میشود و به این ترتیب، حلقه (loop) مجددا راهاندازی میگردد. این فرآیند تکرارشونده آنقدر ادامه مییابد تا:
- وظیفه بهطور کامل انجام شود.
- یک خطا رخ دهد.
- تعامل توسط یک پاسخ ایمنی (safety response) یا تصمیم خود کاربر متوقف شود.
این مدل برای چه پلتفرمهایی بهینه شده است؟
مدل جدید جمنای گوگل در درجه اول برای مرورگرهای وب بهینهسازی شده است؛ اما پتانسیل بسیار قدرتمندی را برای وظایف کنترل رابط کاربری موبایل نیز از خود نشان میدهد.
با این حال، این مدل هنوز برای کنترل در سطح سیستمعامل دسکتاپ (مثلا کنترل مستقیم ویندوز یا مک) بهینهسازی نشده است.
مثال واقعی: قدرت مدل Gemini 2.5 Computer Use در عمل
گوگل برای نمایش تواناییهای این مدل، دمویی را منتشر کرده که در آن، یک دستور (Prompt) بسیار پیچیده به هوش مصنوعی داده میشود. این دستور نشان میدهد مدل Gemini 2.5 Computer Use چگونه مانند یک دستیار انسانی واقعی عمل میکند.
مثال اول: هوش مصنوعی بهعنوان یک عامل پردازش داده
دستور (Prompt) داده شده به مدل:
این یک دستور ساده نیست. مدل Gemini 2.5 Computer Use در این دمو نشان میدهد که میتواند:
- بین دو وبسایت مختلف جابهجا شود.
- اطلاعات را بر اساس یک شرط (ساکن کالیفرنیا) فیلتر کند.
- فرمها را پر کند.
- با تقویم و سیستم رزرواسیون کار کند.
- اطلاعاتی مانند دلیل درمان را از سایت اول «به خاطر بسپارد» و در سایت دوم از آن استفاده کند.
مثال دوم: هوش مصنوعی بهعنوان یک سازماندهنده بصری
این مثال دوم، جنبهی کاملا متفاوتی از تواناییهای این مدل را نشان میدهد:
دستور (Prompt) داده شده به مدل:
لطفا به سایت sticky-note-jam.web.app برو و مطمئن شو همهی یادداشتها در بخشهای صحیح خود قرار دارند. اگر در جای درست نیستند، آنها را در جای درست بکش و رها کن (Drag and Drop)».
این مثال حتی از قبلی هم جالبتر است! مثال اول بر «تایپ کردن»، «کپی کردن» و «ناوبری بین صفحات» متمرکز بود؛ اما این مثال، توانایی «درک بصری و فضایی» را نشان میدهد. این دمو نشان میدهد مدل Gemini 2.5 Computer Use فقط یک ربات پرکننده فرم نیست؛ بلکه میتواند با عناصر بصری رابط کاربری، مانند یک انسان تعامل کند، آنها را بفهمد و حتی اشیاء دیجیتال را روی صفحه جابجا کند.
مشاهده دموها در عمل
مقاله اصلی گوگل برای هر یک از این مثالها، یک ویدیو دمو (نمایشی) نیز منتشر کرده است که فرایند کار و نتایج نهایی مدل Gemini 2.5 Computer Use را بهصورت بصری، بهخوبی توضیح میدهد. برای مشاهده این ویدیوهای جذاب، میتوانید در «کانال تلگرام ترفندهای هوش مصنوعی» عضو شده و با جستجوی هشتگ «Gemini_2_5_Computer_Use#» آنها را پیدا کرده و مشاهده کنید.
بررسی عملکرد مدل جدید جمنای گوگل
مدل Gemini 2.5 Computer Use عملکرد قدرتمندی را در چندین «بنچمارک کنترل وب و موبایل» (آزمونهای استاندارد) به نمایش میگذارد.
گوگل اشاره میکند جدولی که در ادامه آمده است، شامل نتایجی از سه منبع مختلف است:
۱. امتیازاتی که توسط خود رقبا گزارش شدهاند.
۲. ارزیابیهایی که توسط Browserbase (یک پلتفرم ثالث) انجام شده است.
۳. و ارزیابیهایی که خود گوگل مستقلا اجرا کرده است.
جزئیات کامل این ارزیابیها در سندی به نام «اطلاعات ارزیابی مدل Gemini 2.5 Computer Use» و همچنین در یکی از وبلاگهای رسمی «Browserbase» در دسترس عموم قرار دارد.
گوگل همچنین تاکید میکند مگر در مواردی که به صراحت خلاف آن ذکر شده باشد، تمام امتیازات نمایش داده شده در جداول، مربوط به ابزارهای «کاربری کامپیوتر» هستند که از طریق API (و نه رابط کاربری چت) در دسترس قرار گرفتهاند.

این مدل، کیفیتی پیشرو را برای «کنترل مرورگر» با کمترین زمان پاسخدهی ارائه میدهد؛ این ارزیابی بر اساس عملکردی است که در پلتفرم ارزیابی Browserbase برای Online-Mind2Web اندازهگیری شده است.
توضیح کوتاه
«Online-Mind2Web» نام یک آزمون (بنچمارک) بسیار سخت برای سنجش توانایی هوش مصنوعی در انجام کارهای واقعی در وبسایتهای مختلف است. «Browserbase harness» نیز نام پلتفرمی است که این آزمون را اجرا میکند.
به زبان ساده، گوگل میگوید:

چالش ایمنی در «مدل جدید جمنای گوگل» و راهکارهای گوگل
گوگل معتقد است تنها راه برای ساخت «عاملهای هوشمندی» (Agents) که به نفع همگان باشد، مسئولیتپذیری از همان ابتدا است. عاملهای هوش مصنوعی که کامپیوترها را کنترل میکنند، ریسکهای منحصربهفردی را به همراه دارند؛ از جمله:
- سوءاستفاده عمدی توسط کاربران.
- رفتار غیرمنتظره از سوی خود مدل.
- حملات «تزریق پرامپت» (prompt injections) و کلاهبرداریها در محیط وب.
بنابراین، پیادهسازی دقیق «حفاظهای ایمنی» (safety guardrails) در این حوزه بسیار حیاتی است.
لایههای ایمنی مدل
گوگل اعلام کرده ویژگیهای ایمنی را مستقیما در خود مدل Gemini 2.5 Computer Use آموزش داده است تا این سه ریسک کلیدی را برطرف کند. علاوه بر این، گوگل کنترلهای ایمنی را نیز در اختیار توسعهدهندگان قرار میدهد. این کنترلها به توسعهدهندگان این قدرت را میدهند که از تکمیل خودکار اقدامات بالقوه پرخطر یا مضر توسط مدل جدید جمنای گوگل جلوگیری کنند.
نمونههایی از این اقدامات پرخطر عبارتند از:
- آسیب رساندن به یکپارچگی سیستم (integrity).
- به خطر انداختن امنیت.
- دور زدن کپچاها (CAPTCHA).
- کنترل دستگاههای پزشکی
انواع کنترلها
این کنترلها عبارتند از:
سرویس ایمنی گامبهگام (Per-step safety service)
این یک سرویس ایمنی «خارج از مدل» است که در لحظه تصمیمگیری (inference-time) کار میکند. وظیفه آن، ارزیابی هر اقدامی است که مدل جدید جمنای گوگل پیشنهاد میدهد؛ پیش از آنکه آن اقدام واقعا اجرا شود.
دستورالعملهای سیستمی (System instructions)
توسعهدهندگان میتوانند به «عامل هوشمند» دستور دهند که یا از انجام برخی اقدامات پرخطر امتناع کند، یا حتما قبل از انجام آنها، از کاربر نهایی تاییدیه بگیرد.
توصیههای تکمیلی به توسعهدهندگان در مورد اقدامات ایمنی و بهترین شیوهها، در «مستندات فنی گوگل» یافت میشود؛ درحالیکه این حفاظها برای کاهش ریسک طراحی شدهاند، گوگل اکیدا از همه توسعهدهندگان میخواهد سیستمهای خود را قبل از راهاندازی، به طور کامل و دقیق آزمایش کنند.
کاربردهای «مدل جدید جمنای گوگل» توسط آزمایشکنندگان اولیه
تیمهای داخلی خود گوگل، این مدل را برای موارد استفادهای مانند تست رابط کاربری (UI testing) به مرحله تولید رساندهاند؛ (استفادهای) که میتواند فرایند توسعه نرمافزار را به طور قابلتوجهی سریعتر کند.
علاوه بر این، نسخههایی از مدل جدید جمنای گوگل در حال حاضر به پروژههایی مانند «پروژه مارینر» (Project Mariner)، «عامل تست فایربیس» (Firebase Testing Agent) و برخی از قابلیتهای «عاملمحور» (agentic) در «حالت هوش مصنوعی در جستجوی گوگل» (AI Mode in Search) قدرت میبخشند.
کاربرانی که در «برنامه دسترسی زودهنگام» گوگل (early access program) حضور داشتهاند نیز مدل جدید جمنای گوگل را برای تقویت دستیارهای شخصی، اتوماسیون گردش کار (workflow automation) و تست UI، آزمایش کردهاند و به نتایج قدرتمندی دست یافتهاند.
بازخورد آزمایشکنندگان اولیه
گوگل میگوید این کاربران به «نتایج قدرتمندی» دست یافتهاند، اما بیایید این ادعا را از زبان خود آنها بشنویم.
هیچچیز بهتر از بازخورد مستقیم شرکتها و توسعهدهندگانی نیست که واقعا مدل جدید جمنای گوگل را در محصولات و گردشکارهای روزمره خود آزمایش کردهاند. در ادامه، تجربیات و دیدگاههای آنها را مستقیما میخوانیم تا ببینیم این فناوری چگونه به آنها کمک کرده است.
Poke.com (یک دستیار هوش مصنوعی پیشفعال در iMessage، واتساپ و SMS که دارای گردشهای کاری متعدد شخص ثالث و عاملمحور (agentic) است:
Autotab میگوید:
تیم پلتفرم پرداخت گوگل، که مدل Gemini 2.5 Computer Use را بهعنوان یک مکانیزم پشتیبان برای رسیدگی به تستهای UI سرتاسری (end-to-end) شکننده پیادهسازی کرده بود؛ تستهایی که به تنهایی مسئول ۲۵ درصد از کل شکستهای تست بودند، میگوید:
نحوه شروع به کار با «مدل جدید جمنای گوگل»
گوگل اعلام کرده است مدل Gemini 2.5 Computer Use در حالت «پیشنمایش عمومی» در دسترس قرار گرفته است. توسعهدهندگان میتوانند از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI به آن دسترسی داشته باشند.
گوگل برای شروع کار سه مسیر اصلی را مشخص کرده است:
1. امتحان کردن فوری (Demo)
امکان آزمایش فوری مدل در یک «محیط دمو» (Demo Environment) فراهم شده است که توسط پلتفرم Browserbase میزبانی میشود.
2. شروع به ساخت (Building)
توسعهدهندگان میتوانند با مراجعه عمیق به «اسناد مرجع» و «مستندات فنی» گوگل، یاد بگیرند چگونه «حلقه عامل هوشمند» (agent loop) خود را بسازند. این کار هم بهصورت محلی با ابزار Playwright و هم در یک ماشین مجازی ابری (Cloud VM) با استفاده از Browserbase امکانپذیر است. (گوگل همچنین مستندات Vertex AI را برای کاربردهای سازمانی ارائه کرده است).
3. پیوستن به جامعه کاربری (Community)
گوگل از توسعهدهندگان دعوت کرده بازخوردها و نتایج کارهای خود را به اشتراک بگذارند و از این طریق به هدایت نقشهراه آینده این محصول در «انجمن توسعهدهندگان» گوگل کمک کنند.
آینده «عاملهای هوشمند» گوگل
همانطور که در این مقاله خواندیم، مدل جدید جمنای گوگل فقط یک ابزار جدید نیست؛ این مدل، دستها و چشمهای هوش مصنوعی برای تعامل مستقیم با دنیای دیجیتال ما است. این مدل، شکاف بین «تصمیمگیری» و «اجرا» را پر میکند و به هوش مصنوعی اجازه میدهد کارهای پیچیدهای را که قبلا فقط از عهده انسان برمیآمد، بهصورت خودکار انجام دهد.
اما این «عامل اجرایی» قدرتمند، بخشی از یک پازل بسیار بزرگتر در استراتژی آینده گوگل است.
گوگل چندی پیش نیز در سکوت خبری، از برنامههای خود برای مغز متفکر و مدل زبان اصلی آیندهاش، «جمنای ۳.۰ پرو»، خبر داد. آن مدل، بهعنوان یک جهش استراتژیک به سوی «هوش مصنوعی محیطی» (Ambient AI) توصیف شده و قرار است به یک موتور استدلال مشترک برای کل اکوسیستم گوگل (از اندروید تا Workspace) تبدیل شود.
اگر مدل Gemini 2.5 Computer Use را «بازوهای اجرایی» بدانیم که امروز در دسترس قرار گرفته، Gemini 3.0 Pro «مغز متفکر» و استراتژیکی است که در آینده، این بازوها و کل اکوسیستم گوگل را هدایت خواهد کرد.
برای درک کامل این تصویر بزرگ و آشنایی با جزئیات این خبر مهم، پیشنهاد میکنیم حتما مقاله دیگر ما با عنوان «غول جدید گوگل؛ جمنای 3.0 پرو» را در وبسایت مدیرسبز مطالعه کنید.
میانگین امتیاز 5 / 5. تعداد آرا: 1




