آمازون از Nova Act رونمایی کرد: هوش مصنوعی که مرورگر وب را کنترل و اقدام مستقل میکند!

چکیده

آمازون از Nova Act رونمایی کرد: عامل هوشمند AI با قابلیت کنترل مرورگر و اقدامات مستقل! معرفی SDK و ارتباط با Alexa+. بررسی کامل در های ورت.

۱۴۰۴ چهارشنبه ۱۴ فروردين
13 بازديد

دنیای هوش مصنوعی (AI) در حال گذار از چت‌ بات‌ های پاسخگو به عامل‌ های هوشمند (AI Agents) است؛ سیستم‌ هایی که نه تنها اطلاعات را پردازش می‌کنند، بلکه می‌توانند به طور مستقل اقداماتی را در دنیای دیجیتال، به‌ویژه در مرورگر وب، برای شما انجام دهند. تصور کنید هوش مصنوعی بتواند به جای شما رستوران رزرو کند، خرید آنلاین انجام دهد یا فرم‌ های خسته‌ کننده را پر کند!

 

در همین راستا، آمازون (Amazon)، غول تجارت الکترونیک و رایانش ابری، با رونمایی از Nova Act، گام بلندی در این مسیر برداشته است. Nova Act یک عامل هوش مصنوعی عمومی (General-Purpose AI Agent) است که قادر به کنترل مرورگر وب و انجام مستقل برخی کارهای ساده می‌باشد. همزمان، آمازون کیت توسعه نرم‌افزار (SDK) Nova Act را نیز منتشر کرده تا توسعه‌ دهندگان بتوانند نمونه‌ های اولیه‌ عامل‌ های هوشمند خود را بسازند.

 

این اقدام آمازون، رقابت را در عرصه‌ی عامل‌ های هوشمند که پیش از این شاهد حضور بازیگرانی چون OpenAI و Anthropic بود، داغ‌ تر میکند و می‌تواند نویدبخش قابلیت‌ های جدیدی برای دستیار صوتی محبوب این شرکت، الکسا (Alexa)، باشد.

در این مقاله جامع از های ورت (hiwert.com)، به طور کامل به بررسی Nova Act می‌پردازیم. خواهیم دید این عامل هوشمند چیست، چگونه کار می‌کند، چه قابلیت‌ هایی دارد، توسط چه تیمی توسعه یافته، چه جایگاهی در رقابت AI دارد و چه آینده‌ ای را برای تعامل ما با وب و دستیارهای هوشمند رقم می‌زند. با ما همراه باشید!

 

 

Nova Act چیست؟ عامل هوشمند جدید آمازون برای تعامل با وب

 

Nova Act، جدیدترین دستاورد آمازون در حوزه هوش مصنوعی، یک عامل هوشمند عمومی است. برخلاف چت‌ بات‌ های سنتی که عمدتاً بر اساس ورودی متنی، پاسخی متنی تولید می‌کنند، Nova Act طراحی شده تا بتواند به طور فعال با محیط دیجیتال، به‌ ویژه مرورگر وب، تعامل داشته باشد. این عامل می‌تواند با شبیه‌سازی اقدامات یک کاربر انسانی، وظایف مشخصی را در وب‌سایت‌ها و اپلیکیشن‌های تحت وب انجام دهد. این قابلیت، گامی مهم به سوی ایجاد دستیارهای هوشمندی است که می‌توانند به طور عملی‌تر در انجام کارهای روزمره به ما کمک کنند.

 

 

توسعه‌ دهندگان Nova Act: آزمایشگاه AGI آمازون و نخبگان سابق OpenAI

 

توسعه‌ Nova Act حاصل تلاش آزمایشگاه تحقیقاتی هوش مصنوعی عمومی قوی (AGI Lab) آمازون در سانفرانسیسکو است. این آزمایشگاه که به نسبت جدید محسوب میشود، تحت هدایت مشترک دو چهره‌ شناخته‌ شده در دنیای هوش مصنوعی، دیوید لوآن (David Luan) و پیتر ابیل (Pieter Abbeel)، قرار دارد.

 

هر دوی این افراد پیش از پیوستن به آمازون در سال گذشته برای رهبری تلاش‌ های این شرکت در زمینه‌ی عامل‌ های هوشمند، سابقه‌ی فعالیت در OpenAI را داشته و همچنین استارتاپ‌ های موفق خود (Adept توسط لوآن و Covariant توسط ابیل) را تأسیس کرده بودند. حضور این نخبگان در رأس تیم توسعه، نشان‌ دهنده‌ سرمایه‌ گذاری جدی آمازون بر روی آینده‌ی عامل‌ های هوشمند و رقابت مستقیم با پیشگامانی مانند OpenAI است. منبع (Amazon unveils Nova Act, an AI agent that can control a web browser)

 

 

Nova Act چگونه کار میکند؟ (از رزرو شام تا خرید سالاد!)

قابلیت اصلی Nova Act، کنترل کردن مرورگر وب به نمایندگی از کاربر است. این عامل هوشمند می‌تواند با درک دستورات کاربر (احتمالاً به زبان طبیعی) و تحلیل محتوای صفحات وب، اقدامات زیر را انجام دهد:

 

پیمایش صفحات وب (Navigating Web Pages): حرکت بین لینک‌ ها و بخش‌ های مختلف یک وب‌ سایت.

پر کردن فرم‌ ها (Filling out Forms): وارد کردن اطلاعات لازم در فرم‌ های ثبت‌ نام، خرید یا رزرو.

انتخاب تاریخ در تقویم (Picking Dates on a Calendar): برای رزرو وقت ملاقات یا بلیط.

انجام تراکنش‌های ساده: مثال‌های ذکر شده توسط آمازون شامل سفارش سالاد از Sweetgreen یا انجام رزرو شام است.

 

اساساً، Nova Act تلاش می‌کند تا تعاملات معمول یک کاربر انسانی با رابط‌های کاربری وب (GUI) را تقلید کند تا وظایف ساده و تکراری را خودکار سازد.

 

 

کیت توسعه نرم‌ افزار (SDK) Nova Act: ابزاری برای نوآوری توسعه‌دهندگان

آمازون همزمان با معرفی Nova Act، کیت توسعه نرم‌افزار (SDK) Nova Act را نیز منتشر کرده است. این SDK به توسعه‌ دهندگان شخص ثالث اجازه می‌دهد تا:

 

  • نمونه‌های اولیه‌ی عامل‌های هوشمند بسازند: با استفاده از قدرت Nova Act، توسعه‌ دهندگان می‌توانند عامل‌های هوشمندی را برای کاربردهای خاص خود طراحی و آزمایش کنند.

 

  • ابزارهای تعامل با وب را تعریف کنند: SDK شامل ابزارهایی است که به عامل هوشمند اجازه می‌دهد تا با عناصر مختلف صفحات وب (لینک‌ها، فرم‌ها، دکمه‌ها، تقویم‌ها و ...) تعامل کند.

 

  • نقاط مداخله انسانی را مشخص کنند: دیوید لوآن تأکید کرده که SDK Nova Act به گونه‌ای طراحی شده که توسعه‌دهندگان بتوانند به طور دقیق مشخص کنند که در چه نقاطی از یک فرآیند خودکار، نیاز به تأیید یا مداخله‌ی کاربر انسانی وجود دارد. این تمرکز بر قابلیت اطمینان (Reliability) به جای خودمختاری کامل، نشان‌دهنده‌ی درک چالش‌های فعلی عامل‌های هوشمند است.

 

توسعه‌دهندگان می‌توانند از طریق وب‌سایت جدید nova.amazon.com به این SDK و همچنین اطلاعات سایر مدل‌های پایه‌ی Nova آمازون دسترسی پیدا کنند. نسخه‌ی فعلی Nova Act به عنوان یک پیش‌نمایش تحقیقاتی (Research Preview) عرضه شده است.

 

 

 

 

ادعاهای عملکرد و بنچمارک‌ ها: Nova Act در برابر رقبا (با یک علامت سوال بزرگ!)

آمازون برای نشان دادن قدرت Nova Act، نتایج برخی آزمون‌ های داخلی خود را منتشر کرده است. طبق این نتایج:

 

  • در آزمون ScreenSpot Web Text (که نحوه‌ی تعامل عامل هوشمند با متن روی صفحه را می‌سنجد)، Nova Act امتیاز 94% را کسب کرده و از عامل هوشمند OpenAI (که در گزارش CUA نامیده شده و امتیاز 88% گرفته) و مدل Claude 3.7 Sonnet از Anthropic (با امتیاز 90%) عملکرد بهتری داشته است.

 

اما نکته‌ی بسیار مهم و قابل تأمل این است که آمازون، عملکرد Nova Act را بر روی بنچمارک‌ های عمومی و شناخته‌ شده‌ تر ارزیابی عامل‌ های هوشمند، مانند WebVoyager، منتشر نکرده است. این موضوع، مقایسه‌ی مستقیم و قضاوت دقیق در مورد برتری واقعی Nova Act نسبت به رقبایش را دشوار می‌سازد و باید ادعاهای عملکرد آن را با احتیاط بیشتری در نظر گرفت.

 

 

 

ارتباط با Alexa+: آیا Nova Act قلب تپنده‌ی الکسای جدید است؟

 

یکی از هیجان‌انگیزترین جنبه‌های رونمایی از Nova Act، تأیید رسمی آمازون مبنی بر این است که این فناوری، قدرت‌بخش ویژگی‌های کلیدی ارتقاء مورد انتظار الکسا، یعنی Alexa+، خواهد بود. الکسا پلاس، نسخه‌ی بهبودیافته‌ی دستیار صوتی محبوب آمازون است که با هوش مصنوعی مولد (Generative AI) تقویت خواهد شد و انتظار می‌رود قابلیت‌های مکالمه‌ای و عملکردی بسیار پیشرفته‌تری داشته باشد.

 

عرضه‌ی نسخه‌ی پیش‌نمایش Nova Act می‌تواند نگاهی اولیه به برخی از توانایی‌هایی باشد که در Alexa+ شاهد خواهیم بود. با توجه به تأخیرهای قبلی در عرضه‌ی Alexa+ و اهمیت حیاتی آن برای آینده‌ی آمازون در رقابت هوش مصنوعی، عملکرد واقعی Nova Act و استقبال از آن می‌تواند یک نقطه‌ی عطف تعیین‌کننده ("make-or-break moment") برای این شرکت باشد.

 

 

 

پرسش‌ های متداول

 

  • Nova Act دقیقاً چه کاری میتواند انجام دهد؟ در حال حاضر (نسخه پیش‌ نمایش)، می‌تواند مرورگر وب را کنترل کرده و وظایف ساده‌ ای مانند پر کردن فرم‌ ها، انتخاب تاریخ، و انجام برخی تراکنش‌ های آنلاین مانند رزرو رستوران یا سفارش غذا را به صورت خودکار انجام دهد.

 

  • آیا استفاده از Nova Act رایگان است؟ نسخه‌ پیش‌ نمایش تحقیقاتی و SDK آن از طریق وب‌ سایت nova.amazon.com در دسترس قرار گرفته و احتمالاً در این مرحله رایگان است. برنامه‌ قیمت‌ گذاری بلندمدت آن مشخص نیست.

 

  • Nova Act چه تفاوتی با ChatGPT یا Gemini دارد؟ ChatGPT و Gemini عمدتاً چت‌ بات‌ های مبتنی بر زبان هستند (اگرچه قابلیت‌ های چندوجهی و عامل‌ محور نیز در حال توسعه دارند). تمرکز اصلی Nova Act از ابتدا بر روی اقدام و کنترل رابط‌ های کاربری وب به نمایندگی از کاربر است.

 

  • Nova Act چه ارتباطی با Alexa+ دارد؟ این فناوری، قدرت‌بخش ویژگی‌ های کلیدی نسخه‌ آینده و پیشرفته‌ الکسا (Alexa+) خواهد بود که با هوش مصنوعی مولد تقویت شده است.

 

  • AGI چیست؟ آیا Nova Act یک AGI است؟ AGI مخفف هوش مصنوعی عمومی قوی است، یعنی هوش مصنوعی با توانایی‌ های شناختی در سطح انسان. Nova Act یک AGI نیست، اما به گفته‌ توسعه‌ دهندگانش، گامی در مسیر دستیابی به AGI محسوب می‌شود.

 

 

 

Nova Act، گام بلند آمازون در دنیای عامل‌های هوشمند

 

رونمایی آمازون از Nova Act و SDK آن، ورود جدی این غول فناوری به عرصه‌ی رقابتی و آینده‌دار عامل‌های هوشمند عمومی را نشان می‌دهد. توانایی کنترل مرورگر وب و انجام اقدامات مستقل، پتانسیل عظیمی برای ساده‌سازی تعاملات آنلاین و افزایش بهره‌وری دارد. ادغام این فناوری با اکوسیستم گسترده‌ی الکسا می‌تواند مزیت قابل توجهی برای آمازون ایجاد کند. های ورت (hiwert.com)، مرجع معتبر شما برای خرید انواع کالای دیجیتال، از برندهای معتبر با بهترین قیمت.