آمازون از Nova Act رونمایی کرد: هوش مصنوعی که مرورگر وب را کنترل و اقدام مستقل میکند!
آمازون از Nova Act رونمایی کرد: عامل هوشمند AI با قابلیت کنترل مرورگر و اقدامات مستقل! معرفی SDK و ارتباط با Alexa+. بررسی کامل در های ورت.

دنیای هوش مصنوعی (AI) در حال گذار از چت بات های پاسخگو به عامل های هوشمند (AI Agents) است؛ سیستم هایی که نه تنها اطلاعات را پردازش میکنند، بلکه میتوانند به طور مستقل اقداماتی را در دنیای دیجیتال، بهویژه در مرورگر وب، برای شما انجام دهند. تصور کنید هوش مصنوعی بتواند به جای شما رستوران رزرو کند، خرید آنلاین انجام دهد یا فرم های خسته کننده را پر کند!
در همین راستا، آمازون (Amazon)، غول تجارت الکترونیک و رایانش ابری، با رونمایی از Nova Act، گام بلندی در این مسیر برداشته است. Nova Act یک عامل هوش مصنوعی عمومی (General-Purpose AI Agent) است که قادر به کنترل مرورگر وب و انجام مستقل برخی کارهای ساده میباشد. همزمان، آمازون کیت توسعه نرمافزار (SDK) Nova Act را نیز منتشر کرده تا توسعه دهندگان بتوانند نمونه های اولیه عامل های هوشمند خود را بسازند.
این اقدام آمازون، رقابت را در عرصهی عامل های هوشمند که پیش از این شاهد حضور بازیگرانی چون OpenAI و Anthropic بود، داغ تر میکند و میتواند نویدبخش قابلیت های جدیدی برای دستیار صوتی محبوب این شرکت، الکسا (Alexa)، باشد.
در این مقاله جامع از های ورت (hiwert.com)، به طور کامل به بررسی Nova Act میپردازیم. خواهیم دید این عامل هوشمند چیست، چگونه کار میکند، چه قابلیت هایی دارد، توسط چه تیمی توسعه یافته، چه جایگاهی در رقابت AI دارد و چه آینده ای را برای تعامل ما با وب و دستیارهای هوشمند رقم میزند. با ما همراه باشید!
Nova Act چیست؟ عامل هوشمند جدید آمازون برای تعامل با وب
Nova Act، جدیدترین دستاورد آمازون در حوزه هوش مصنوعی، یک عامل هوشمند عمومی است. برخلاف چت بات های سنتی که عمدتاً بر اساس ورودی متنی، پاسخی متنی تولید میکنند، Nova Act طراحی شده تا بتواند به طور فعال با محیط دیجیتال، به ویژه مرورگر وب، تعامل داشته باشد. این عامل میتواند با شبیهسازی اقدامات یک کاربر انسانی، وظایف مشخصی را در وبسایتها و اپلیکیشنهای تحت وب انجام دهد. این قابلیت، گامی مهم به سوی ایجاد دستیارهای هوشمندی است که میتوانند به طور عملیتر در انجام کارهای روزمره به ما کمک کنند.
توسعه دهندگان Nova Act: آزمایشگاه AGI آمازون و نخبگان سابق OpenAI
توسعه Nova Act حاصل تلاش آزمایشگاه تحقیقاتی هوش مصنوعی عمومی قوی (AGI Lab) آمازون در سانفرانسیسکو است. این آزمایشگاه که به نسبت جدید محسوب میشود، تحت هدایت مشترک دو چهره شناخته شده در دنیای هوش مصنوعی، دیوید لوآن (David Luan) و پیتر ابیل (Pieter Abbeel)، قرار دارد.
هر دوی این افراد پیش از پیوستن به آمازون در سال گذشته برای رهبری تلاش های این شرکت در زمینهی عامل های هوشمند، سابقهی فعالیت در OpenAI را داشته و همچنین استارتاپ های موفق خود (Adept توسط لوآن و Covariant توسط ابیل) را تأسیس کرده بودند. حضور این نخبگان در رأس تیم توسعه، نشان دهنده سرمایه گذاری جدی آمازون بر روی آیندهی عامل های هوشمند و رقابت مستقیم با پیشگامانی مانند OpenAI است. منبع (Amazon unveils Nova Act, an AI agent that can control a web browser)
Nova Act چگونه کار میکند؟ (از رزرو شام تا خرید سالاد!)
قابلیت اصلی Nova Act، کنترل کردن مرورگر وب به نمایندگی از کاربر است. این عامل هوشمند میتواند با درک دستورات کاربر (احتمالاً به زبان طبیعی) و تحلیل محتوای صفحات وب، اقدامات زیر را انجام دهد:
پیمایش صفحات وب (Navigating Web Pages): حرکت بین لینک ها و بخش های مختلف یک وب سایت.
پر کردن فرم ها (Filling out Forms): وارد کردن اطلاعات لازم در فرم های ثبت نام، خرید یا رزرو.
انتخاب تاریخ در تقویم (Picking Dates on a Calendar): برای رزرو وقت ملاقات یا بلیط.
انجام تراکنشهای ساده: مثالهای ذکر شده توسط آمازون شامل سفارش سالاد از Sweetgreen یا انجام رزرو شام است.
اساساً، Nova Act تلاش میکند تا تعاملات معمول یک کاربر انسانی با رابطهای کاربری وب (GUI) را تقلید کند تا وظایف ساده و تکراری را خودکار سازد.
کیت توسعه نرم افزار (SDK) Nova Act: ابزاری برای نوآوری توسعهدهندگان
آمازون همزمان با معرفی Nova Act، کیت توسعه نرمافزار (SDK) Nova Act را نیز منتشر کرده است. این SDK به توسعه دهندگان شخص ثالث اجازه میدهد تا:
- نمونههای اولیهی عاملهای هوشمند بسازند: با استفاده از قدرت Nova Act، توسعه دهندگان میتوانند عاملهای هوشمندی را برای کاربردهای خاص خود طراحی و آزمایش کنند.
- ابزارهای تعامل با وب را تعریف کنند: SDK شامل ابزارهایی است که به عامل هوشمند اجازه میدهد تا با عناصر مختلف صفحات وب (لینکها، فرمها، دکمهها، تقویمها و ...) تعامل کند.
- نقاط مداخله انسانی را مشخص کنند: دیوید لوآن تأکید کرده که SDK Nova Act به گونهای طراحی شده که توسعهدهندگان بتوانند به طور دقیق مشخص کنند که در چه نقاطی از یک فرآیند خودکار، نیاز به تأیید یا مداخلهی کاربر انسانی وجود دارد. این تمرکز بر قابلیت اطمینان (Reliability) به جای خودمختاری کامل، نشاندهندهی درک چالشهای فعلی عاملهای هوشمند است.
توسعهدهندگان میتوانند از طریق وبسایت جدید nova.amazon.com به این SDK و همچنین اطلاعات سایر مدلهای پایهی Nova آمازون دسترسی پیدا کنند. نسخهی فعلی Nova Act به عنوان یک پیشنمایش تحقیقاتی (Research Preview) عرضه شده است.
ادعاهای عملکرد و بنچمارک ها: Nova Act در برابر رقبا (با یک علامت سوال بزرگ!)
آمازون برای نشان دادن قدرت Nova Act، نتایج برخی آزمون های داخلی خود را منتشر کرده است. طبق این نتایج:
- در آزمون ScreenSpot Web Text (که نحوهی تعامل عامل هوشمند با متن روی صفحه را میسنجد)، Nova Act امتیاز 94% را کسب کرده و از عامل هوشمند OpenAI (که در گزارش CUA نامیده شده و امتیاز 88% گرفته) و مدل Claude 3.7 Sonnet از Anthropic (با امتیاز 90%) عملکرد بهتری داشته است.
اما نکتهی بسیار مهم و قابل تأمل این است که آمازون، عملکرد Nova Act را بر روی بنچمارک های عمومی و شناخته شده تر ارزیابی عامل های هوشمند، مانند WebVoyager، منتشر نکرده است. این موضوع، مقایسهی مستقیم و قضاوت دقیق در مورد برتری واقعی Nova Act نسبت به رقبایش را دشوار میسازد و باید ادعاهای عملکرد آن را با احتیاط بیشتری در نظر گرفت.
ارتباط با Alexa+: آیا Nova Act قلب تپندهی الکسای جدید است؟
یکی از هیجانانگیزترین جنبههای رونمایی از Nova Act، تأیید رسمی آمازون مبنی بر این است که این فناوری، قدرتبخش ویژگیهای کلیدی ارتقاء مورد انتظار الکسا، یعنی Alexa+، خواهد بود. الکسا پلاس، نسخهی بهبودیافتهی دستیار صوتی محبوب آمازون است که با هوش مصنوعی مولد (Generative AI) تقویت خواهد شد و انتظار میرود قابلیتهای مکالمهای و عملکردی بسیار پیشرفتهتری داشته باشد.
عرضهی نسخهی پیشنمایش Nova Act میتواند نگاهی اولیه به برخی از تواناییهایی باشد که در Alexa+ شاهد خواهیم بود. با توجه به تأخیرهای قبلی در عرضهی Alexa+ و اهمیت حیاتی آن برای آیندهی آمازون در رقابت هوش مصنوعی، عملکرد واقعی Nova Act و استقبال از آن میتواند یک نقطهی عطف تعیینکننده ("make-or-break moment") برای این شرکت باشد.
پرسش های متداول
- Nova Act دقیقاً چه کاری میتواند انجام دهد؟ در حال حاضر (نسخه پیش نمایش)، میتواند مرورگر وب را کنترل کرده و وظایف ساده ای مانند پر کردن فرم ها، انتخاب تاریخ، و انجام برخی تراکنش های آنلاین مانند رزرو رستوران یا سفارش غذا را به صورت خودکار انجام دهد.
- آیا استفاده از Nova Act رایگان است؟ نسخه پیش نمایش تحقیقاتی و SDK آن از طریق وب سایت nova.amazon.com در دسترس قرار گرفته و احتمالاً در این مرحله رایگان است. برنامه قیمت گذاری بلندمدت آن مشخص نیست.
- Nova Act چه تفاوتی با ChatGPT یا Gemini دارد؟ ChatGPT و Gemini عمدتاً چت بات های مبتنی بر زبان هستند (اگرچه قابلیت های چندوجهی و عامل محور نیز در حال توسعه دارند). تمرکز اصلی Nova Act از ابتدا بر روی اقدام و کنترل رابط های کاربری وب به نمایندگی از کاربر است.
- Nova Act چه ارتباطی با Alexa+ دارد؟ این فناوری، قدرتبخش ویژگی های کلیدی نسخه آینده و پیشرفته الکسا (Alexa+) خواهد بود که با هوش مصنوعی مولد تقویت شده است.
- AGI چیست؟ آیا Nova Act یک AGI است؟ AGI مخفف هوش مصنوعی عمومی قوی است، یعنی هوش مصنوعی با توانایی های شناختی در سطح انسان. Nova Act یک AGI نیست، اما به گفته توسعه دهندگانش، گامی در مسیر دستیابی به AGI محسوب میشود.
Nova Act، گام بلند آمازون در دنیای عاملهای هوشمند
رونمایی آمازون از Nova Act و SDK آن، ورود جدی این غول فناوری به عرصهی رقابتی و آیندهدار عاملهای هوشمند عمومی را نشان میدهد. توانایی کنترل مرورگر وب و انجام اقدامات مستقل، پتانسیل عظیمی برای سادهسازی تعاملات آنلاین و افزایش بهرهوری دارد. ادغام این فناوری با اکوسیستم گستردهی الکسا میتواند مزیت قابل توجهی برای آمازون ایجاد کند. های ورت (hiwert.com)، مرجع معتبر شما برای خرید انواع کالای دیجیتال، از برندهای معتبر با بهترین قیمت.