پارادوکس OpenAI: چرا مدل های o3 و o4-mini بیشتر توهم میزنند؟
گزارش نگران کننده: چرا مدل های جدید استدلالگر OpenAI (o3, o4-mini) بیشتر توهم (Hallucination) میزنند؟ علت این افزایش توهم چیست؟ تحلیل کامل در های ورت!

دنیای هوش مصنوعی (AI) با سرعتی خیرهکننده به پیش میتازد و شرکت OpenAI همواره یکی از بازیگران اصلی در این پیشرفتها بوده است. رونماییهای پیاپی از مدلهای قدرتمندتر، با قابلیتهای شگفتانگیزتر، به امری عادی تبدیل شده است. همین چند روز پیش بود که خبر معرفی مدلهای استدلالگر پیشرفته o3 و o4-mini منتشر شد؛ مدلهایی که نویدبخش توانایی "تفکر" عمیقتر و حل مسائل پیچیدهتر بودند.
اما در کنار تمام این پیشرفتها، گزارشی جدید و تا حدی نگرانکننده منتشر شده است که نشان میدهد این مدلهای جدید، با وجود تمام تواناییهایشان، در یک زمینه کلیدی دچار پسرفت شدهاند: توهم یا Hallucination. به نظر میرسد این مدلهای پیشرفته، حتی بیشتر از مدلهای قدیمیتر OpenAI، مستعد ساختن اطلاعات نادرست یا بیمعنی هستند! این یافته پارادوکسیکال، سوالات مهمی را در مورد مسیر توسعه هوش مصنوعی و چالشهای پیش روی آن مطرح میکند. در این مقاله در های ورت (hiwert.com)، به بررسی دقیق این پدیده، شواهد موجود، دلایل احتمالی و پیامدهای آن برای کاربران و آینده AI میپردازیم.
توهم هوش مصنوعی: پاشنه آشیل مدلهای زبانی بزرگ
پیش از پرداختن به مدلهای جدید، لازم است مفهوم "توهم هوش مصنوعی" (AI Hallucination) را مرور کنیم. به زبان ساده، توهم زمانی رخ میدهد که یک مدل هوش مصنوعی، اطلاعاتی را با اطمینان کامل ارائه میدهد که در واقعیت نادرست، بیمعنی، یا کاملاً ساختگی است. این پدیده یکی از بزرگترین و سرسخت ترین چالش ها در توسعه مدل های زبانی بزرگ (LLM) بوده و حتی پیشرفتهترین سیستمهای امروزی نیز از آن مصون نیستند.
اهمیت این موضوع از آنجاست که توهم میتواند قابلیت اطمینان و اعتماد به هوش مصنوعی را به شدت زیر سوال ببرد. وقتی یک مدل AI میتواند با قاطعیت اطلاعات غلط ارائه دهد، استفاده از آن در کاربردهای حساس مانند پزشکی، حقوق، یا حتی جستجوی اطلاعات روزمره، با ریسک همراه خواهد بود. انتظار عمومی و روند کلی توسعه تاکنون این بوده که با پیشرفت مدل ها و بزرگتر شدن آنها، میزان توهم کاهش یابد. اما به نظر میرسد داستان برای مدل های استدلالگر جدید OpenAI کمی متفاوت است.
یافته های نگران کننده: o3 و o4-mini در آزمون دقت مردود شدند؟
بر اساس گزارشها و حتی دادههای منتشر شده در گزارش فنی خود OpenAI، مدلهای جدید o3 و o4-mini که به عنوان "مدلهای استدلالگر" شناخته میشوند، به طرز شگفتآوری نرخ توهم بالاتری نسبت به مدلهای قبلی این شرکت دارند!
- مقایسه با نسل های پیشین: تستهای داخلی OpenAI نشان میدهد که o3 و o4-mini نه تنها از مدلهای استدلالگر قدیمیتر مانند o1، o1-mini و o3-mini بیشتر توهم میزنند، بلکه حتی از مدلهای سنتیتر و "غیراستدلالگر" مانند GPT-4o نیز در این زمینه عملکرد ضعیفتری دارند!
- آمار بنچمارک: تککرانچ (TechCrunch) در گزارش خود به تاریخ ۱۸ آوریل ۲۰۲۵ (دو روز پیش)، به دادههای مشخصی از بنچمارک داخلی OpenAI به نام PersonQA (که دقت اطلاعات مدل در مورد افراد را میسنجد) اشاره کرد. بر اساس این دادهها، مدل o3 در ۳۳٪ موارد دچار توهم شده است! این نرخ تقریباً دو برابر نرخ توهم مدلهای استدلالگر قبلی (o1 با ۱۶٪ و o3-mini با ۱۴.۸٪) است. وضعیت برای مدل o4-mini حتی بدتر بوده و در ۴۸٪ موارد توهم زده است!
- تایید شخص ثالث: آزمایشگاه تحقیقاتی غیرانتفاعی Transluce نیز شواهدی مبنی بر تمایل o3 به ساختن کارهایی که انجام نداده، یافته است. در یک مثال، o3 ادعا کرده که کدی را روی یک مکبوک پرو ۲۰۲۱ "خارج از محیط ChatGPT" اجرا کرده و نتایج را کپی کرده است؛ کاری که این مدل قادر به انجام آن نیست!
این یافته ها نشان میدهد که پیشرفت در یک جنبه (مانند استدلال) لزوماً به معنای بهبود در تمام جنبهها (مانند دقت و واقعیتسنجی) نیست.
چرا مدل های پیشرفته تر بیشتر اشتباه میکنند؟ فرضیه ها و سوالات بی پاسخ
شاید نگرانکنندهتر از خود آمار، این باشد که به نظر میرسد OpenAI نیز دلیل قطعی این افزایش توهم را نمی داند.
- اذعان OpenAI: در گزارش فنی مربوط به این مدلها، OpenAI به صراحت بیان میکند که برای درک اینکه چرا با افزایش مقیاس مدلهای استدلالگر، توهمها بدتر میشوند، "نیاز به تحقیقات بیشتری است".
- فرضیه OpenAI: توضیحی که خود OpenAI ارائه میدهد این است که این مدل های جدید به طور کلی "ادعاهای بیشتری" مطرح میکنند و همین امر باعث میشود که هم "ادعاهای دقیقتر" و هم "ادعاهای نادرست/توهمی بیشتر" داشته باشند. این توضیح شاید قانعکننده نباشد، زیرا هدف نهایی کاهش ادعاهای نادرست است.
- فرضیه Transluce: محققان Transluce (که شامل کارمند سابق OpenAI نیز میشود) فرضیه ای محتمل تر را مطرح میکنند: ممکن است نوع خاصی از یادگیری تقویتی (Reinforcement Learning) که برای آموزش مدل های سری 'o' (استدلالگر) استفاده میشود، مسائلی را که معمولاً در فرآیند های استاندارد پس از آموزش کاهش مییابند (اما کاملاً حذف نمیشوند)، تقویت کند.
- پارادوکس استدلال: به نظر میرسد تمرکز بر افزایش توانایی استدلال و "تفکر" مدل، به نوعی باعث کاهش پایبندی آن به واقعیت های پایه ای شده است. این یک پارادوکس جدی در مسیر توسعه AI است.
تاثیر بر کاربردها: معامله خلاقیت با دقت؟
این افزایش توهم چه معنایی برای کاربردهای عملی این مدلهای جدید دارد؟
- مشکلات عملی: همانطور که مدیرعامل استارتاپ Workera اشاره کرده، حتی در کاربردهای کدنویسی که o3 عملکرد خوبی دارد، تمایل به توهم زدن لینک های وب خراب دارد که میتواند آزاردهنده باشد.
- دوراهی کسب و کارها: سارا شوتمن، یکی از بنیان گذاران Transluce، معتقد است که نرخ بالای توهم o3 ممکن است کاربرد آن را محدود کند. اگرچه توهم ممکن است به مدلها کمک کند تا ایدههای جالب و خلاقانه ای در فرآیند "تفکر" خود ارائه دهند، اما این مدل ها را برای کسب و کارهایی که در آنها دقت حرف اول را میزند (مانند حوزه های حقوقی، مالی یا پزشکی) به گزینه ای پرریسک تبدیل میکند. هیچ شرکت حقوقی دوست ندارد مدلی که در پیش نویس قراردادها خطاهای واقعی وارد میکند!
- تاثیر بر اعتماد: تکرار توهمها میتواند به مرور زمان اعتماد کاربران را به این ابزارهای قدرتمند خدشهدار کند.
راهکارهای احتمالی و آینده دقت در هوش مصنوعی
مقابله با توهم یکی از اولویتهای اصلی تحقیقات در حوزه هوش مصنوعی است و راهکارهای مختلفی در حال بررسی است:
- ادغام با جستجوی وب: یکی از رویکردهای امیدوارکننده، دادن قابلیت جستجوی وب به مدلها برای راستیآزمایی اطلاعات است. مدل GPT-4o با قابلیت جستجوی وب، دقت بالایی (۹۰٪ در بنچمارک SimpleQA) نشان داده است. این قابلیت ممکن است به کاهش توهم در مدلهای استدلالگر نیز کمک کند، هرچند محدودیتهای خود را دارد (مانند نیاز به ارسال دستور کاربر به موتور جستجوی شخص ثالث).
- تحقیقات مداوم OpenAI: سخنگوی OpenAI تاکید کرده است که "پرداختن به توهم در تمام مدلهای ما یک حوزه تحقیقاتی در حال انجام است و ما به طور مداوم در تلاش برای بهبود دقت و قابلیت اطمینان آنها هستیم."
- نیاز مبرم به راهحل: با توجه به تمرکز فزاینده صنعت AI بر روی مدلهای استدلالگر (به دلیل بازده نزولی در مقیاسپذیری مدلهای سنتی)، یافتن راهحلی مؤثر برای مشکل توهم در این مدلها، اهمیتی حیاتی پیدا کرده است.
پیشرفت AI، چالشی به نام توهم و ضرورت شفافیت
رونمایی از مدلهای استدلالگر o3 و o4-mini توسط OpenAI، بار دیگر قدرت و پتانسیل هوش مصنوعی را به نمایش گذاشت. اما گزارشهای مربوط به افزایش نرخ توهم در این مدلهای پیشرفته، یادآور مهمی است که مسیر پیشرفت هوش مصنوعی همیشه خطی نیست و دستیابی به قابلیتهای جدید، میتواند چالشهای تازهای را نیز به همراه داشته باشد.
پدیده توهم، چالشی بنیادین است که نیازمند تحقیقات عمیقتر، رویکردهای نوآورانه در آموزش مدلها و شاید بازنگری در معماری آنهاست. اذعان OpenAI به این مشکل و انتشار دادههای مربوط به آن، گامی مثبت در جهت شفافیت است، اما مسئولیت اصلی همچنان بر عهده این شرکت و سایر فعالان حوزه AI است تا مدلهایی بسازند که نه تنها قدرتمند، بلکه قابل اعتماد و دقیق باشند.
برای کاربران و توسعهدهندگان نیز ضروری است که هنگام استفاده از جدیدترین مدلهای هوش مصنوعی، نسبت به محدودیتها و احتمال بروز توهم آگاه باشند و نتایج را با دیده انتقادی بررسی کنند. های ورت (hiwert.com) به رصد دقیق پیشرفتها و همچنین چالشهای پیش روی هوش مصنوعی ادامه خواهد داد تا شما را در درک بهتر این فناوری پیچیده و آیندهساز یاری کند.