پارادوکس OpenAI: چرا مدل‌ های o3 و o4-mini بیشتر توهم میزنند؟

چکیده

گزارش نگران کننده: چرا مدل‌ های جدید استدلالگر OpenAI (o3, o4-mini) بیشتر توهم (Hallucination) میزنند؟ علت این افزایش توهم چیست؟ تحلیل کامل در های ورت!

۱۴۰۴ يکشنبه ۱ ارديبهشت
6 بازديد
تصویر گرافیکی نشان‌ دهنده توهم هوش مصنوعی (AI Hallucination)؛ افزایش نگران‌ کننده این پدیده در مدل‌ های o3 و o4-mini.

دنیای هوش مصنوعی (AI) با سرعتی خیره‌کننده به پیش می‌تازد و شرکت OpenAI همواره یکی از بازیگران اصلی در این پیشرفت‌ها بوده است. رونمایی‌های پیاپی از مدل‌های قدرتمندتر، با قابلیت‌های شگفت‌انگیزتر، به امری عادی تبدیل شده است. همین چند روز پیش بود که خبر معرفی مدل‌های استدلالگر پیشرفته o3 و o4-mini منتشر شد؛ مدل‌هایی که نویدبخش توانایی "تفکر" عمیق‌تر و حل مسائل پیچیده‌تر بودند.

 

اما در کنار تمام این پیشرفت‌ها، گزارشی جدید و تا حدی نگران‌کننده منتشر شده است که نشان می‌دهد این مدل‌های جدید، با وجود تمام توانایی‌هایشان، در یک زمینه کلیدی دچار پسرفت شده‌اند: توهم یا Hallucination. به نظر می‌رسد این مدل‌های پیشرفته، حتی بیشتر از مدل‌های قدیمی‌تر OpenAI، مستعد ساختن اطلاعات نادرست یا بی‌معنی هستند! این یافته پارادوکسیکال، سوالات مهمی را در مورد مسیر توسعه هوش مصنوعی و چالش‌های پیش روی آن مطرح می‌کند. در این مقاله در های ورت (hiwert.com)، به بررسی دقیق این پدیده، شواهد موجود، دلایل احتمالی و پیامدهای آن برای کاربران و آینده AI می‌پردازیم.

 

 

توهم هوش مصنوعی: پاشنه آشیل مدل‌های زبانی بزرگ

 

پیش از پرداختن به مدل‌های جدید، لازم است مفهوم "توهم هوش مصنوعی" (AI Hallucination) را مرور کنیم. به زبان ساده، توهم زمانی رخ می‌دهد که یک مدل هوش مصنوعی، اطلاعاتی را با اطمینان کامل ارائه می‌دهد که در واقعیت نادرست، بی‌معنی، یا کاملاً ساختگی است. این پدیده یکی از بزرگترین و سرسخت‌ ترین چالش‌ ها در توسعه مدل‌ های زبانی بزرگ (LLM) بوده و حتی پیشرفته‌ترین سیستم‌های امروزی نیز از آن مصون نیستند.

 

اهمیت این موضوع از آنجاست که توهم می‌تواند قابلیت اطمینان و اعتماد به هوش مصنوعی را به شدت زیر سوال ببرد. وقتی یک مدل AI می‌تواند با قاطعیت اطلاعات غلط ارائه دهد، استفاده از آن در کاربردهای حساس مانند پزشکی، حقوق، یا حتی جستجوی اطلاعات روزمره، با ریسک همراه خواهد بود. انتظار عمومی و روند کلی توسعه تاکنون این بوده که با پیشرفت مدل‌ ها و بزرگتر شدن آنها، میزان توهم کاهش یابد. اما به نظر می‌رسد داستان برای مدل‌ های استدلالگر جدید OpenAI کمی متفاوت است.

 

 

 

 

یافته‌ های نگران‌ کننده: o3 و o4-mini در آزمون دقت مردود شدند؟

بر اساس گزارش‌ها و حتی داده‌های منتشر شده در گزارش فنی خود OpenAI، مدل‌های جدید o3 و o4-mini که به عنوان "مدل‌های استدلالگر" شناخته می‌شوند، به طرز شگفت‌آوری نرخ توهم بالاتری نسبت به مدل‌های قبلی این شرکت دارند!

 

  • مقایسه با نسل‌ های پیشین: تست‌های داخلی OpenAI نشان می‌دهد که o3 و o4-mini نه تنها از مدل‌های استدلالگر قدیمی‌تر مانند o1، o1-mini و o3-mini بیشتر توهم می‌زنند، بلکه حتی از مدل‌های سنتی‌تر و "غیراستدلالگر" مانند GPT-4o نیز در این زمینه عملکرد ضعیف‌تری دارند!

 

  • آمار بنچمارک: تک‌کرانچ (TechCrunch) در گزارش خود به تاریخ ۱۸ آوریل ۲۰۲۵ (دو روز پیش)، به داده‌های مشخصی از بنچمارک داخلی OpenAI به نام PersonQA (که دقت اطلاعات مدل در مورد افراد را می‌سنجد) اشاره کرد. بر اساس این داده‌ها، مدل o3 در ۳۳٪ موارد دچار توهم شده است! این نرخ تقریباً دو برابر نرخ توهم مدل‌های استدلالگر قبلی (o1 با ۱۶٪ و o3-mini با ۱۴.۸٪) است. وضعیت برای مدل o4-mini حتی بدتر بوده و در ۴۸٪ موارد توهم زده است!

 

  • تایید شخص ثالث: آزمایشگاه تحقیقاتی غیرانتفاعی Transluce نیز شواهدی مبنی بر تمایل o3 به ساختن کارهایی که انجام نداده، یافته است. در یک مثال، o3 ادعا کرده که کدی را روی یک مک‌بوک پرو ۲۰۲۱ "خارج از محیط ChatGPT" اجرا کرده و نتایج را کپی کرده است؛ کاری که این مدل قادر به انجام آن نیست!

این یافته‌ ها نشان می‌دهد که پیشرفت در یک جنبه (مانند استدلال) لزوماً به معنای بهبود در تمام جنبه‌ها (مانند دقت و واقعیت‌سنجی) نیست.

 

 

چرا مدل‌ های پیشرفته‌ تر بیشتر اشتباه می‌کنند؟ فرضیه‌ ها و سوالات بی‌ پاسخ

شاید نگران‌کننده‌تر از خود آمار، این باشد که به نظر می‌رسد OpenAI نیز دلیل قطعی این افزایش توهم را نمی داند.

 

  • اذعان OpenAI: در گزارش فنی مربوط به این مدل‌ها، OpenAI به صراحت بیان می‌کند که برای درک اینکه چرا با افزایش مقیاس مدل‌های استدلالگر، توهم‌ها بدتر می‌شوند، "نیاز به تحقیقات بیشتری است".

 

  • فرضیه OpenAI: توضیحی که خود OpenAI ارائه میدهد این است که این مدل‌ های جدید به طور کلی "ادعاهای بیشتری" مطرح می‌کنند و همین امر باعث می‌شود که هم "ادعاهای دقیق‌تر" و هم "ادعاهای نادرست/توهمی بیشتر" داشته باشند. این توضیح شاید قانع‌کننده نباشد، زیرا هدف نهایی کاهش ادعاهای نادرست است.

 

  • فرضیه Transluce: محققان Transluce (که شامل کارمند سابق OpenAI نیز می‌شود) فرضیه‌ ای محتمل‌ تر را مطرح می‌کنند: ممکن است نوع خاصی از یادگیری تقویتی (Reinforcement Learning) که برای آموزش مدل‌ های سری 'o' (استدلالگر) استفاده می‌شود، مسائلی را که معمولاً در فرآیند های استاندارد پس از آموزش کاهش می‌یابند (اما کاملاً حذف نمیشوند)، تقویت کند.

 

  • پارادوکس استدلال: به نظر می‌رسد تمرکز بر افزایش توانایی استدلال و "تفکر" مدل، به نوعی باعث کاهش پایبندی آن به واقعیت‌ های پایه‌ ای شده است. این یک پارادوکس جدی در مسیر توسعه AI است.

 

 

تاثیر بر کاربردها: معامله خلاقیت با دقت؟

این افزایش توهم چه معنایی برای کاربردهای عملی این مدل‌های جدید دارد؟

 

  • مشکلات عملی: همانطور که مدیرعامل استارتاپ Workera اشاره کرده، حتی در کاربردهای کدنویسی که o3 عملکرد خوبی دارد، تمایل به توهم زدن لینک‌ های وب خراب دارد که می‌تواند آزاردهنده باشد.

 

  • دوراهی کسب‌ و کارها: سارا شوتمن، یکی از بنیان‌ گذاران Transluce، معتقد است که نرخ بالای توهم o3 ممکن است کاربرد آن را محدود کند. اگرچه توهم ممکن است به مدل‌ها کمک کند تا ایده‌های جالب و خلاقانه‌ ای در فرآیند "تفکر" خود ارائه دهند، اما این مدل‌ ها را برای کسب‌ و کارهایی که در آنها دقت حرف اول را میزند (مانند حوزه‌ های حقوقی، مالی یا پزشکی) به گزینه‌ ای پرریسک تبدیل می‌کند. هیچ شرکت حقوقی دوست ندارد مدلی که در پیش‌ نویس قراردادها خطاهای واقعی وارد می‌کند!

 

  • تاثیر بر اعتماد: تکرار توهم‌ها می‌تواند به مرور زمان اعتماد کاربران را به این ابزارهای قدرتمند خدشه‌دار کند.

 

 

 

 

راهکارهای احتمالی و آینده دقت در هوش مصنوعی

مقابله با توهم یکی از اولویت‌های اصلی تحقیقات در حوزه هوش مصنوعی است و راهکارهای مختلفی در حال بررسی است:

 

  • ادغام با جستجوی وب: یکی از رویکردهای امیدوارکننده، دادن قابلیت جستجوی وب به مدل‌ها برای راستی‌آزمایی اطلاعات است. مدل GPT-4o با قابلیت جستجوی وب، دقت بالایی (۹۰٪ در بنچمارک SimpleQA) نشان داده است. این قابلیت ممکن است به کاهش توهم در مدل‌های استدلالگر نیز کمک کند، هرچند محدودیت‌های خود را دارد (مانند نیاز به ارسال دستور کاربر به موتور جستجوی شخص ثالث).

 

  • تحقیقات مداوم OpenAI: سخنگوی OpenAI تاکید کرده است که "پرداختن به توهم در تمام مدل‌های ما یک حوزه تحقیقاتی در حال انجام است و ما به طور مداوم در تلاش برای بهبود دقت و قابلیت اطمینان آن‌ها هستیم."

 

  • نیاز مبرم به راه‌حل: با توجه به تمرکز فزاینده صنعت AI بر روی مدل‌های استدلالگر (به دلیل بازده نزولی در مقیاس‌پذیری مدل‌های سنتی)، یافتن راه‌حلی مؤثر برای مشکل توهم در این مدل‌ها، اهمیتی حیاتی پیدا کرده است.

 

 

 پیشرفت AI، چالشی به نام توهم و ضرورت شفافیت

 

رونمایی از مدل‌های استدلالگر o3 و o4-mini توسط OpenAI، بار دیگر قدرت و پتانسیل هوش مصنوعی را به نمایش گذاشت. اما گزارش‌های مربوط به افزایش نرخ توهم در این مدل‌های پیشرفته، یادآور مهمی است که مسیر پیشرفت هوش مصنوعی همیشه خطی نیست و دستیابی به قابلیت‌های جدید، می‌تواند چالش‌های تازه‌ای را نیز به همراه داشته باشد.

پدیده توهم، چالشی بنیادین است که نیازمند تحقیقات عمیق‌تر، رویکردهای نوآورانه در آموزش مدل‌ها و شاید بازنگری در معماری آن‌هاست. اذعان OpenAI به این مشکل و انتشار داده‌های مربوط به آن، گامی مثبت در جهت شفافیت است، اما مسئولیت اصلی همچنان بر عهده این شرکت و سایر فعالان حوزه AI است تا مدل‌هایی بسازند که نه تنها قدرتمند، بلکه قابل اعتماد و دقیق باشند.

 

برای کاربران و توسعه‌دهندگان نیز ضروری است که هنگام استفاده از جدیدترین مدل‌های هوش مصنوعی، نسبت به محدودیت‌ها و احتمال بروز توهم آگاه باشند و نتایج را با دیده انتقادی بررسی کنند. های ورت (hiwert.com) به رصد دقیق پیشرفت‌ها و همچنین چالش‌های پیش روی هوش مصنوعی ادامه خواهد داد تا شما را در درک بهتر این فناوری پیچیده و آینده‌ساز یاری کند.