ایجنت هوش مصنوعی چیست؟

امروز قصد دارم درباره موضوعی صحبت کنم که شاید برای بسیاری از افرادی که تخصص فنی ندارند، کمی پیچیده به نظر برسد: ایجنت‌ هوش مصنوعی. اگر شما هم پیش‌زمینه فنی خاصی ندارید؛ اما از ابزارهای مختلف هوش مصنوعی استفاده می‌کنید و کنجکاو هستید بدانید ایجنت‌ هوش مصنوعی دقیقا چیست و چگونه بر زندگی روزمره ما تاثیر می‌گذارند، این مطلب برای شما نوشته شده است.

در این مقاله، مسیر یادگیری ساده و گام‌به‌گامی را دنبال می‌کنیم تا مفهوم ایجنت‌ هوش مصنوعی را به زبان ساده درک کنید. ابتدا از مفاهیم آشنا مانند چت‌بات‌ها شروع می‌کنیم؛ سپس سراغ جریان‌های کاری هوش مصنوعی می‌رویم و در نهایت با ایجنت‌ هوش مصنوعی آشنا می‌شویم. برای درک بهتر، از مثال‌هایی واقعی و ملموس استفاده می‌کنیم تا ببینید این ایجنت‌ها چطور در پس‌زمینه بسیاری از ابزارهای هوشمندی که روزانه به کار می‌بریم، فعالیت می‌کنند.

همچنین در ادامه، اصطلاحات تخصصی و گاهی ترسناک دنیای هوش مصنوعی مانند RAG یا ReAct را به زبان ساده توضیح خواهیم داد تا درک روشن‌تری از نحوه عملکرد ایجنت‌ هوش مصنوعی به دست آورید. هدف این است حتی اگر متخصص فناوری نیستید، بتوانید بفهمید چرا این ایجنت‌ها مهم‌ هستند و چگونه می‌توانند کار، یادگیری و حتی زندگی شخصی شما را متحول کنند.

مرحله اول: مدل‌های زبانی بزرگ (LLMs)

بیایید با عبارتی شروع کنیم که همه‌ ما با آن آشنا هستیم: «مدل‌های زبان بزرگ یا LLMها». چت‌بات‌های محبوب مثل ChatGPT، Google Gemini و Claude بر پایه‌ این مدل‌ها ساخته شده‌اند. این مدل‌ها در تولید و ویرایش متن بسیار عالی عمل می‌کنند.

فرض کنید یک سوال یا درخواست مطرح می‌کنید و مدل هوش مصنوعی، بر اساس داده‌هایی که در زمان آموزش یاد گرفته، پاسخ می‌دهد. برای مثال، اگر از ChatGPT بخواهید یک ایمیل مودبانه برای درخواست ملاقات بنویسد، درخواستتان به‌عنوان ورودی درنظر گرفته می‌شود و متنی که به‌عنوان ایمیل دریافت می‌کنید، خروجی مدل است؛ متنی که احتمالا از چیزی که خودتان می‌نوشتید، حرفه‌ای‌تر و مودبانه‌تر است.

محدودیت‌های مدل‌های زبانی

تا این بخش ساده و قابل‌فهم است، درست است؟ اما فرض کنید از ChatGPT بپرسید: «قرار ملاقات بعدی من کی است؟» بدون اینکه حتی پاسخ را ببینید، می‌دانید ChatGPT نمی‌تواند جواب بدهد؛ چون به تقویم شخصی شما دسترسی ندارد.

این نکته دو ویژگی مهم مدل‌های زبان بزرگ را نشان می‌دهد:

1. با اینکه این مدل‌ها روی حجم زیادی از داده‌ها آموزش دیده‌اند؛ اما به اطلاعات شخصی یا داده‌های داخلی شرکت‌ها دسترسی ندارند.
2. این مدل‌ها حالت منفعل دارند؛ یعنی منتظر پرسش شما می‌مانند و سپس پاسخ می‌دهند.

این دو ویژگی را در مراحل بعدی به‌یاد داشته باشید.

مرحله دوم: جریان‌های کاری هوش مصنوعی

حالا بیایید کمی پیشرفته‌تر شویم. تصور کنید به مدل زبانی بزرگ (LLM) می‌گوییم: «هربار درباره یک رویداد شخصی پرسیدم، ابتدا در تقویم گوگل جستجو کن و سپس پاسخ بده».

با این منطق، وقتی بپرسم: «قرار ملاقات بعدی با ایلان هاسکی کی است؟» پاسخ درست را دریافت می‌کنم؛ چون مدل ابتدا در تقویم شخصی‌مان جستجو می‌کند؛ اما مشکل اینجا است اگر سوال بعدی این باشد که: «هوا در آن روز چگونه خواهد بود؟»، مدل دوباره تلاش می‌کند در تقویم جستجو کند و پاسخ درستی نخواهد داد؛ چون تقویم اطلاعات آب و هوا را ندارد.

این نشان می‌دهد جریان‌های کاری هوش مصنوعی فقط می‌توانند مسیرهای از پیش تعریف‌شده توسط انسان‌ها را دنبال کنند. به این مسیر در اصطلاح فنی «کنترل منطق» یا control logic گفته می‌شود.

افزودن مراحل دیگر

حالا تصور کنید چند مرحله به این فرایند اضافه کنیم؛ به‌عنوان مثال مدل علاوه بر تولید متن، به اطلاعات بیرونی مثل پیش‌بینی وضعیت آب‌وهوا از طریق یک API هم دسترسی پیدا کند. بعد از آن، متن تولیدشده توسط مدل، به کمک یک سیستم تبدیل متن به صدا به‌صورت صوتی پخش شود. مثلا مدل بگوید: «پیش‌بینی هوا برای ملاقات با ایلان هاسکی آفتابی است».

با اینکه این کارها پیچیده‌تر شده‌اند؛ اما هنوز هم یک جریان کاری هوش مصنوعی است، چون تصمیم‌گیرنده نهایی یک انسان است و مدل فقط دستورات را دنبال می‌کند.

نکته حرفه‌ای که باید به‌یاد بسپارید: «اصطلاح RAG یا بازیابی تقویت‌شده تولید (Retrieval Augmented Generation) یک اصطلاح رایج است که در واقع به فرآیندی اشاره دارد که مدل‌های هوش مصنوعی قبل از پاسخگویی، جستجو می‌کنند، مثلا در تقویم یا سرویس هواشناسی؛ اما RAG در اصل نوعی جریان کاری هوش مصنوعی است».

مثال make.com

برای اینکه یک مثال واقعی از این موضوع داشته باشید، بیایید نگاهی به یک جریان کاری ساده بیندازیم که خودم با استفاده از make.com طراحی کردم:

مراحل این جریان کاری به این صورت است:

1. ابتدا لینک مقالات خبری را در یک فایل Google Sheets جمع‌آوری می‌کنم.
2. سپس از Perplexity کمک می‌گیرم تا این مقالات را خلاصه کند.
3. بعد، با استفاده از Claude و یک پرامپت اختصاصی که خودم طراحی کرده‌ام، از مدل می‌خواهم پست‌های لینکدین و اینستاگرام بنویسد.
4. در نهایت، این کل فرآیند را طوری تنظیم کرده‌ام که هر روز ساعت ۸ صبح به‌طور خودکار اجرا شود.

همان‌طور که می‌بینید، این یک جریان کاری هوش مصنوعی است، چون تمام مراحل به‌صورت خودکار و بر اساس مسیر از پیش طراحی‌شده توسط من انجام می‌شود. نکته مهم این است اگر از خروجی نهایی راضی نباشم، مثلا اگر پست لینکدین به‌اندازه‌کافی خلاقانه یا جذاب نباشد، باید دوباره به پرامپت‌ها بازگردم، آن‌ها را تغییر داده و روند را تکرار کنم.

همچنان بخش مهم کار، یعنی آزمون و خطا، توسط خود شخص انجام می‌شود؛ یعنی یک انسان که تصمیم می‌گیرد چطور از ابزارهای هوش مصنوعی بهترین نتیجه را بگیرد.

مرحله سوم: ایجنت‌ هوش مصنوعی

حالا به مهم‌ترین بخش می‌رسیم: «ایجنت‌ هوش مصنوعی». بیایید دوباره به مثال make.com نگاه کنیم. تاکنون به‌عنوان تصمیم‌گیرنده انسانی، مسیر را مشخص کرده‌ام و کارها را انجام داده‌ام. هدف این است پست‌های شبکه‌های اجتماعی بر اساس مقالات خبری ساخته شود.

برای این کار دو وظیفه دارم:

1. تفکر و استدلال درباره بهترین روش انجام کار؛ مثلا باید اول مقالات خبری را جمع‌آوری کنم، سپس خلاصه‌شان کنم و بعد پست‌ها را بنویسم.
2. انجام کارها با استفاده از ابزارها؛ مثلا لینک‌ها را در Google Sheets ثبت کنم، از Perplexity برای خلاصه‌سازی استفاده کرده و سپس با Claude متن نهایی را بنویسم.

تفاوت اصلی اینجا است به‌جای انسان، یک مدل زبانی بزرگ (‌LLM) باید تصمیم بگیرد و استدلال کند؛ به‌عبارت‌دیگر، ایجنت هوش مصنوعی باید مسئول تحلیل شرایط و انتخاب بهترین راه‌حل باشد».

قابلیت‌های ایجنت‌ هوش مصنوعی

ایجنت هوش مصنوعی باید قابلیت پاسخ به سوالات زیر را داشته باشد:

بهترین راه برای جمع‌آوری مقالات چیست؟
آیا باید هر مقاله را در Word ذخیره کنم؟
برای ثبت لینک‌ها از چه ابزاری استفاده کنم؟ ورد؟ اکسل؟ توجه داشته باشید: «با‌توجه به اینکه حساب گوگل متصل است، Google Sheets بهترین گزینه است».

نکته حرفه‌ای: «رایج‌ترین چارچوب برای ایجنت‌ هوش مصنوعی، چارچوب ReAct است که مخفف Reasoning و Acting است. همه ایجنت‌های هوش مصنوعی باید استدلال کنند و عمل نمایند.

ویژگی سوم مهم ایجنت‌ هوش مصنوعی، توانایی تکرار و بهبود است.

ایجنت هوش مصنوعی این‌کار را به‌صورت خودکار انجام می‌دهد. مثلا در مثال ما، ایجنت می‌تواند یک مدل زبان دیگر اضافه کند تا خروجی خودش را نقد کرده و بر اساس بهترین شیوه‌های لینکدین اصلاح نماید. این چرخه تکرار می‌شود تا خروجی نهایی به‌بهترین‌شکل برسد.

مثال واقعی از یک ایجنت هوش مصنوعی

اندرو، یکی از چهره‌های برجسته در هوش مصنوعی، یک وب‌سایت دمو ساخته که نشان می‌دهد ایجنت هوش مصنوعی چطور کار می‌کند. وقتی کلمه‌ای مانند «اسکی‌باز» را جستجو می‌کنید، ایجنت دیداری هوش مصنوعی ابتدا استدلال می‌کند که اسکی‌باز چگونه است: «شخصی که روی اسکی در برف با‌سرعت حرکت می‌کند».

سپس ایجنت اقدام می‌کند، یعنی در کلیپ‌های ویدیویی دنبال این فرد می‌گردد، آن کلیپ‌ها را ایندکس کرده و نمایش می‌دهد.

شاید در نگاه اول خیلی چشمگیر به‌نظر نرسد؛ اما نکته مهم اینجا است: «این‌کار را یک ایجنت هوش مصنوعی انجام می‌دهد؛ نه یک انسان». یعنی به‌جای اینکه فردی ساعت‌ها وقت بگذارد، کلیپ‌ها را یکی‌یکی تماشا کند، اسکی‌بازها را پیدا کند و دستی تگ بزند، حالا این فرایند به‌طور خودکار توسط هوش مصنوعی انجام می‌شود.

برنامه‌نویسی پشت این دمو بسیار پیچیده‌تر است؛ اما هدف این است کاربر عادی مثل من و شما یک برنامه ساده داشته باشیم که بدون نیاز به درک پشت‌صحنه، خوب کار کند.

بیایید یک بار دیگر نگاهی ساده به سه مرحله‌ای که امروز صحبت کردیم بیندازیم:

1. مرحله اول: یک ورودی می‌دهید و مدل زبان بزرگ، ساده و سرراست پاسخ می‌دهد.
2. مرحله دوم: یک ورودی می‌دهید و مدل باید مسیر از پیش تعیین‌شده‌ای را دنبال کند که شامل جستجو در ابزارهای خارجی است. نکته این است که «انسان» مسیر را برنامه‌ریزی می‌کند.
3. مرحله سوم: ایجنت هوش مصنوعی یک هدف دریافت می‌کند و مدل زبانی بزرگ (LLM) با استدلال درباره بهترین روش رسیدن به هدف عمل می‌کند، با ابزارها کار می‌کند، نتایج را می‌سنجد، اگر لازم باشد اصلاح می‌کند و خروجی نهایی را تولید می‌کند. نکته کلیدی این است مدل زبانی بزرگ تصمیم‌گیرنده نهایی در جریان کاری است.

امیدوارم این توضیحات برای شما مفید بوده باشد و دید بهتری نسبت به دنیای ایجنت‌ هوش مصنوعی پیدا کرده باشید.

هوش مصنوعی امروزه به‌طور چشمگیری بر همه جنبه‌های زندگی و کسب‌وکار تاثیر گذاشته است؛ از بهینه‌سازی فرایندها گرفته تا افزایش بهره‌وری و تصمیم‌گیری هوشمندتر. اگر در زمینه فروش فعالیت می‌کنید و می‌خواهید بدانید چگونه می‌توان از این فناوری در رشد درآمد استفاده کرد، پیشنهاد می‌کنیم مقاله «Clay AI؛ هوش مصنوعی برای فروش» را در وب‌سایت مدیرسبز مطالعه کنید.