OpenAI مدل استدلال جدید o3-mini را رایگان منتشر کرد! | بررسی کامل

چکیده

OpenAI مدل o3-mini، جدیدترین مدل استدلال خود را رایگان منتشر کرد! o3-mini بر STEM تمرکز دارد. با o1 و DeepSeek رقابت می‌کند. برای بررسی و تحلیل کامل o3-mini وبلاگ های ورت را ببینید!

۱۴۰۳ شنبه ۱۳ بهمن
211 بازديد
معرفی o3-mini: رقیب DeepSeek R1 از OpenAI | تحلیل و بررسی در های ورت

در اعماق آزمایشگاه‌ های مخفی OpenAI، جایی که نوابغ هوش مصنوعی شبانه‌ روز در تلاشند تا مرزهای دانش را جابه‌ جا کنند، اتفاقی شگفت‌ انگیز در حال رخ دادن است. آن‌ها در سکوتی خبری، سلاحی جدید را خلق کرده‌اند، سلاحی که نه از جنس فولاد و باروت، بلکه از جنس کد و الگوریتم است. این سلاح مخوف، o3-mini نام دارد، آخرین شاهکار OpenAI در زمینه "استدلال" که حالا به صورت رایگان در اختیار جهانیان قرار گرفته است. اما آیا این щедрость OpenAI، هدیه‌ای بی‌چشم‌داشت به بشریت است یا نقشه‌ای زیرکانه برای تسلط بر دنیای هوش مصنوعی؟  در این مقاله، با های ورت همراه باشید تا به اعماق این ماجراجویی هیجان‌انگیز سفر کنیم و پرده از راز o3-mini برداریم!

 

OpenAI و رونمایی از o3-mini: گامی بزرگ در دسترس‌ پذیری هوش مصنوعی

 

OpenAI بار دیگر با یک اقدام جسورانه، دنیای هوش مصنوعی را شگفت‌زده کرد.همانظور که در techcrunch اشاره شده است، این شرکت o3-mini، آخرین مدل "استدلال" خود را به صورت رایگان منتشر کرده است. o3-mini جدیدترین عضو خانواده o از مدل‌های استدلال OpenAI است که در ماه دسامبر به همراه مدل قدرتمندتر o3 معرفی شده بود. انتشار o3-mini در این برهه زمانی، که OpenAI با چالش‌ های متعددی از جمله رقابت با شرکت‌های چینی مانند DeepSeek و جلب اعتماد نهادهای دولتی روبرو است، اهمیتی دوچندان پیدا می‌کند. OpenAI این مدل جدید را "قدرتمند" و "مقرون‌ به‌ صرفه" معرفی کرده و آن را گامی مهم در جهت "گسترش دسترسی به هوش مصنوعی پیشرفته" می‌داند.

 

 

 مدل‌های استدلال: fact-checking پیشرفته برای پاسخ‌ های دقیق‌ تر

 

برخلاف اکثر مدل‌های زبانی بزرگ، مدل‌های استدلال مانند o3-mini قبل از ارائه پاسخ، به طور کامل اطلاعات خود را fact-check می‌کنند. این ویژگی باعث می‌شود تا این مدل‌ها در مقایسه با مدل‌های معمولی، کمتر دچار اشتباهات رایج شوند. البته، این فرآیند fact-checking زمان‌بر است و باعث می‌شود تا مدل‌های استدلال کمی کندتر از مدل‌های معمولی باشند. اما در عوض، پاسخ‌های آن‌ها قابل اعتمادتر است، به خصوص در زمینه‌هایی مانند فیزیک که دقت و صحت اطلاعات از اهمیت بالایی برخوردار است.

 

 

o3-mini: تمرکز بر STEM با سرعت و دقت بالا

 

o3-mini به طور خاص برای حل مسائل STEM (علوم، فناوری، مهندسی و ریاضیات) بهینه‌سازی شده است. این مدل در زمینه‌های برنامه‌نویسی، ریاضی و علوم عملکردی عالی دارد. OpenAI ادعا می‌کند که o3-mini از نظر توانایی، با خانواده o1 (شامل o1 و o1-mini) برابری می‌کند، اما سریع‌تر و ارزان‌تر است. طبق ادعای OpenAI، آزمایش‌کنندگان خارجی پاسخ‌های o3-mini را بیش از نیمی از مواقع به پاسخ‌های o1-mini ترجیح داده‌اند. همچنین، o3-mini در مقایسه با o1-mini، 39 درصد کمتر "اشتباهات فاحش" در "سوالات پیچیده دنیای واقعی" مرتکب شده و پاسخ‌های "واضح‌تر"ی ارائه می‌دهد، در حالی که سرعت پاسخ‌دهی آن 24 درصد بیشتر است.

 

 

مقایسه o3-mini با o1 و DeepSeek R1: رقابت در دنیای مدل‌ های استدلال

 

o3-mini در تمام بنچمارک‌ها از مدل استدلال R1 شرکت DeepSeek پیشی نمی‌گیرد. به عنوان مثال، o3-mini در آزمون AIME 2024، که توانایی مدل‌ها در درک و پاسخ به دستورالعمل‌های پیچیده را می‌سنجد، تنها در حالت "تلاش استدلال بالا" از R1 پیشی می‌گیرد. همچنین، در آزمون برنامه‌نویسی SWE-bench Verified، o3-mini تنها 0.1 امتیاز بیشتر از R1 کسب می‌کند (باز هم در حالت "تلاش استدلال بالا"). در حالت "تلاش استدلال پایین"، o3-mini در آزمون GPQA Diamond، که سوالات سطح دکترای فیزیک، زیست‌شناسی و شیمی را شامل می‌شود، از R1 عقب می‌ماند.

با این حال، o3-mini در بسیاری از موارد، عملکردی قابل قبول با هزینه و تاخیر کم ارائه می‌دهد. OpenAI در وبلاگ خود عملکرد o3-mini را با خانواده o1 مقایسه کرده است: "با تلاش استدلال پایین، o3-mini عملکردی مشابه o1-mini دارد، در حالی که با تلاش متوسط، o3-mini عملکردی مشابه o1 دارد. o3-mini با تلاش استدلال متوسط، عملکرد o1 را در ریاضی، کدنویسی و علوم ارائه می‌دهد، در حالی که پاسخ‌های سریع‌تری ارائه می‌دهد. در همین حال، با تلاش استدلال بالا، o3-mini از o1-mini و o1 پیشی می‌گیرد."

 

 

 o3-mini: ایمن‌ تر از GPT-4o؟

 

OpenAI ادعا می‌کند که o3-mini به لطف تلاش‌های تیم قرمز (red-teaming) و روش "هم‌ترازی سنجیده" (deliberative alignment)، به اندازه یا ایمن‌تر از خانواده o1 است. روش هم‌ترازی سنجیده باعث می‌شود تا مدل‌ها در حین پاسخ‌دهی به سوالات، به سیاست‌های ایمنی OpenAI نیز "فکر" کنند. طبق ادعای OpenAI، o3-mini در "ارزیابی‌های چالش‌برانگیز ایمنی و جیلبریک" به طور قابل توجهی از GPT-4o، یکی از مدل‌های پرچم‌دار OpenAI، پیشی گرفته است.

 

 

دسترسی رایگان به o3-mini: فرصت‌ ها و چالش‌ ها

 

o3-mini از روز جمعه از طریق ChatGPT در دسترس عموم قرار گرفته است. کاربران پلن‌های پولی ChatGPT Plus و Team روزانه 150 کوئری o3-mini دریافت می‌کنند، در حالی که مشترکین ChatGPT Pro به تعداد نامحدود کوئری دسترسی خواهند داشت. o3-mini تا یک هفته دیگر برای مشتریان ChatGPT Enterprise و ChatGPT Edu نیز عرضه خواهد شد. کاربران پلن‌های پولی می‌توانند o3-mini را از منوی کشویی ChatGPT انتخاب کنند. کاربران رایگان می‌توانند از دکمه جدید "Reason" در نوار چت استفاده کنند یا از ChatGPT

بخواهند تا پاسخ خود را "دوباره تولید" کند. o3-mini همچنین از طریق API OpenAI برای توسعه‌دهندگان منتخب در دسترس خواهد بود، اما در ابتدا از تجزیه و تحلیل تصاویر پشتیبانی نخواهد کرد. توسعه‌دهندگان می‌توانند سطح "تلاش استدلال" (کم، متوسط یا زیاد) را برای o3-mini انتخاب کنند تا "سخت‌تر فکر کند" و پاسخی متناسب با نیازها و محدودیت‌های تاخیر خود دریافت کنند. قیمت o3-mini برای هر میلیون توکن ورودی کش 0.55 دلار و برای هر میلیون توکن خروجی 4.40 دلار است که 63 درصد ارزان‌تر از o1-mini است. این قیمت با قیمت مدل استدلال R1 شرکت DeepSeek، که 0.14 دلار برای هر میلیون توکن ورودی کش و 2.19 دلار برای هر میلیون توکن خروجی است، رقابت می‌کند.

 

 

های ورت: پیشگام در ارائه جدیدترین اخبار و تحلیل‌های دنیای تکنولوژی

در های ورت، ما متعهد هستیم که جدیدترین اخبار، تحلیل‌ها و بررسی‌های تخصصی دنیای تکنولوژی را به شما ارائه دهیم. ما با دقت و وسواس، تحولات دنیای هوش مصنوعی را رصد می‌کنیم و شما را در جریان آخرین پیشرفت‌ها و چالش‌های این حوزه قرار می‌دهیم. با های ورت همراه باشید تا از هیچ اتفاقی در دنیای پرشتاب تکنولوژی بی‌خبر نمانید! ما در های ورت، نه تنها اخبار را به اطلاع شما می‌رسانیم، بلکه با تحلیل‌های عمیق و بی‌طرفانه، به شما کمک می‌کنیم تا درک بهتری از پیچیدگی‌های دنیای تکنولوژی داشته باشید.