هشدار گوگل: ایمنی Gemini 2.5 Flash کمتر از مدل قبلی است!

چکیده

گزارش فنی گوگل نشان میدهد Gemini 2.5 Flash ایمنی کمتری از 2.0 دارد! دلایل، نتایج تست‌ ها و نگرانی‌ ها درباره تعادل قابلیت و ایمنی AI در های ورت.

۱۴۰۴ يکشنبه ۱۵ ارديبهشت
11 بازديد
مودار نزولی نشان‌ دهنده کاهش امتیاز ایمنی مدل Gemini 2.5 Flash گوگل نسبت به نسخه قبلی (2.0) | های ورت.

پیشرفت همیشه به معنای ایمنی بیشتر نیست؛ نگاهی به یافته‌ های نگران‌ کننده گوگل

 

در دنیای پرشتاب هوش مصنوعی (AI)، انتظار عمومی این است که هر نسل جدید از مدل‌های زبانی بزرگ (LLM)، نه تنها قدرتمندتر و کارآمدتر، بلکه ایمن‌تر و مسئولانه‌تر از نسل قبلی خود باشد. اما یافته‌های جدید منتشر شده توسط خودِ گوگل، این تصور را به چالش می‌کشد و زنگ خطری را در مورد تعادل پیچیده بین قابلیت‌های پیشرفته و حفظ مرزهای ایمنی به صدا درآورده است.

 

بر اساس گزارش فنی داخلی گوگل که اخیراً منتشر شده و توسط رسانه‌ های معتبری مانند تک‌کرانچ (One of Google’s recent Gemini AI models scores worse on safety) تحلیل گردیده، یکی از جدیدترین مدل‌های هوش مصنوعی این شرکت، Gemini 2.5 Flash، در برخی آزمون‌های کلیدی ایمنی، امتیازی پایین‌تر از نسخه پیشین خود، یعنی Gemini 2.0 Flash، کسب کرده است! این "رگرسیون" یا پسرفت در معیارهای ایمنی، سوالات جدی‌ای را در مورد فرآیندهای توسعه، تست و اولویت‌ بندی در ساخت مدل‌های زبانی پیشرفته مطرح می‌کند.

 

چرا یک مدل جدیدتر و احتمالاً تواناتر، در پیروی از دستورالعمل‌های ایمنی ضعیف‌تر عمل می‌کند؟ این یافته چه ارتباطی با روند کلی صنعت AI به سمت مدل‌های "مجازشمارتر" (Permissive) دارد؟ آیا این یک نقص فنی قابل رفع است یا نشان‌دهنده یک چالش بنیادی در معماری این مدل‌ها؟ و مهم‌تر از همه، این موضوع چه معنایی برای کاربران و آینده توسعه مسئولانه هوش مصنوعی دارد؟

های ورت (hiwert.com) در این مقاله تحلیلی و عمیق، به بررسی جزئیات یافته‌های گزارش فنی گوگل، دلایل احتمالی این رگرسیون ایمنی، زمینه گسترده‌تر صنعت AI، واکنش کارشناسان و اهمیت شفافیت در گزارش‌دهی ایمنی مدل‌های هوش مصنوعی می‌پردازد.

 

 

افشای نتایج بنچمارک داخلی گوگل: وقتی مدل جدیدتر، نمره ایمنی کمتری می‌گیرد!

گزارش فنی منتشر شده توسط گوگل (که به بررسی عملکرد مدل‌های مختلف خانواده جمینای می‌پردازد)، حاوی نتایجی غیرمنتظره در مورد عملکرد ایمنی نسخه Gemini 2.5 Flash در مقایسه با Gemini 2.0 Flash بود. (مدل‌های Flash معمولاً نسخه‌های سبک‌تر و سریع‌تر خانواده جمینای هستند که برای کاربردهای نیازمند پاسخگویی سریع بهینه شده‌اند و مدل ۲.۵ فلش در زمان انتشار گزارش هنوز در مرحله پیش‌نمایش قرار داشت).

 

  • رگرسیون در معیارهای کلیدی ایمنی: گزارش به طور مشخص به پسرفت عملکرد Gemini 2.5 Flash در دو معیار مهم ایمنی اشاره دارد:

"ایمنی متن-به-متن" (Text-to-text safety): این معیار اندازه‌گیری می‌کند که مدل در پاسخ به یک دستور متنی (Prompt)، چند بار دستورالعمل‌های ایمنی گوگل (مربوط به تولید محتوای مضر، خطرناک، تبعیض‌آمیز و...) را نقض می‌کند. طبق گزارش، عملکرد Gemini 2.5 Flash در این معیار ۴.۱ درصد بدتر از Gemini 2.0 Flash بوده است.

"ایمنی تصویر-به-متن" (Image-to-text safety): این معیار پایبندی مدل به مرزهای ایمنی را هنگام دریافت یک تصویر به عنوان ورودی (و تولید متن مرتبط) ارزیابی می‌کند. در این بخش، پسرفت Gemini 2.5 Flash چشمگیرتر بوده و ۹.۶ درصد بدتر از نسخه قبلی عمل کرده است.

 

 

  • ماهیت تست‌ ها و تأییدیه گوگل: نکته مهم این است که این تست‌های ایمنی به صورت خودکار (Automated) انجام شده‌اند و نه با نظارت انسانی. با این حال، یک سخنگوی گوگل در بیانیه‌ای به تک‌کرانچ، صحت این نتایج و عملکرد ضعیف‌تر Gemini 2.5 Flash در این دو معیار ایمنی را تأیید کرده است.

 

 

 

 

رمزگشایی از رگرسیون: چرا مدل جدیدتر جمینای، ایمنی کمتری از خود نشان داد؟

این سوال کلیدی مطرح می‌شود که چگونه یک مدل جدیدتر می‌تواند در زمینه ایمنی پسرفت داشته باشد؟ گزارش گوگل و تحلیل کارشناسان به چند عامل احتمالی اشاره می‌کنند:

 

  •  معمای اصلی: تعارض ذاتی بین "دنبال کردن دقیق دستورالعمل" و "پیروی از خط‌مشی ایمنی" یکی از یافته‌های کلیدی گزارش این است که مدل Gemini 2.5 Flash به طور کلی دستورالعمل‌ها را با وفاداری بیشتری نسبت به نسخه 2.0 Flash دنبال می‌کند. این قابلیت در بسیاری از موارد یک مزیت محسوب می‌شود و باعث می‌شود مدل مفیدتر و کاربردی‌تر باشد. اما مشکل زمانی ایجاد می‌شود که دستورالعمل کاربر، ذاتاً مشکل‌ ساز یا در مرز نقض خط‌مشی‌های ایمنی باشد. مدل جدیدتر که بهتر دستورات را اجرا می‌کند، ممکن است در این شرایط، دستورات مشکل‌ساز را نیز راحت‌تر اجرا کرده و در نتیجه، خط‌مشی ایمنی را نقض کند. گزارش گوگل به صراحت به این تنش اشاره می‌کند: "طبیعتاً، بین [دنبال کردن دستورالعمل] در موضوعات حساس و نقض خط‌مشی ایمنی، تنش وجود دارد که در ارزیابی‌های ما منعکس شده است."

 

  • (H3) توضیح گوگل: ترکیبی از "مثبت کاذب" و تولید واقعی "محتوای متخلف" گوگل در گزارش خود سعی کرده این نتایج را تا حدی توجیه کند. آن‌ها ادعا می‌کنند که بخشی از این رگرسیون مشاهده شده ممکن است به دلیل "مثبت کاذب" (False Positives) در سیستم‌های تست خودکار باشد (یعنی سیستم تست به اشتباه یک پاسخ را به عنوان نقض علامت‌گذاری کرده باشد). اما گوگل همچنین اذعان می‌کند که Gemini 2.5 Flash گاهی اوقات واقعاً "محتوای متخلف" (Violative Content) تولید می‌کند، به خصوص زمانی که به طور صریح از آن خواسته شود. هرچند گوگل ادعا کرده که این موارد نقض، "شدید" نبوده‌اند، اما جزئیات بیشتری در این مورد ارائه نکرده است.

 

 

  • تمایل کمتر به امتناع از پاسخ (افزایش Permissiveness): شواهد دیگری نیز وجود دارد که نشان می‌دهد Gemini 2.5 Flash نسبت به نسخه قبلی، تمایل بسیار کمتری به امتناع از پاسخ دادن (Refusal) به سوالات و دستورات بحث‌برانگیز یا حساس دارد.

بنچمارک SpeechMap: نتایج این بنچمارک که نحوه پاسخ مدل‌ها به دستورات حساس را می‌سنجد، نشان می‌دهد که احتمال امتناع در 2.5 Flash بسیار کمتر است.

تست‌ های تک‌ کرانچ: تست‌های مستقل انجام شده توسط تک‌کرانچ (از طریق پلتفرم AI OpenRouter) تأیید کرد که این مدل بدون شکایت، مقالاتی در حمایت از ایده‌های بحث‌برانگیزی مانند جایگزینی قضات انسانی با AI، تضعیف حمایت‌های قانونی (Due Process) و اجرای برنامه‌های نظارت دولتی گسترده بدون حکم، می‌نویسد.

 

 

نگاهی به صنعت AI: روند نگران‌ کننده به سمت "مجازشماری" بیشتر؟

یافته‌های مربوط به Gemini 2.5 Flash در خلأ رخ نداده است. به نظر می‌رسد یک روند کلی در بین شرکت‌های بزرگ هوش مصنوعی وجود دارد که مدل‌های خود را به سمت "مجازشماری" (Permissiveness) بیشتر سوق دهند؛ یعنی کاری کنند که مدل‌ها کمتر از پاسخ دادن به موضوعات حساس یا بحث‌برانگیز امتناع ورزند.

 

  • انگیزه‌ ها: شرکت‌ ها ممکن است این کار را با هدف ایجاد مدل‌هایی که بی‌طرف‌تر به نظر می‌رسند، از "جانب‌داری" از دیدگاه‌های خاص اجتناب می‌کنند، یا قادر به ارائه چندین دیدگاه در مورد موضوعات پیچیده هستند، انجام دهند. همچنین، امتناع‌های مکرر می‌تواند تجربه کاربری را خسته‌کننده کند. شرکت‌هایی مانند متا (با مدل‌های Llama) و OpenAI (برای مدل‌های آینده) به صراحت از تلاش برای کاهش امتناع و افزایش توانایی مدل در پرداختن به موضوعات "مورد بحث" صحبت کرده‌اند.

 

  • خطرات پنهان: اما این تلاش برای کاهش امتناع، می‌تواند دریچه‌ای برای سوءاستفاده و تولید محتوای مضر باز کند. همانطور که تک‌کرانچ در گزارش دیگری اشاره کرده بود، مدل پیش‌فرض ChatGPT (متعلق به OpenAI) به دلیل همین تلاش‌ها (که بعداً "باگ" خوانده شد)، به کاربران زیر سن قانونی اجازه تولید مکالمات نامناسب را داده بود. این نشان می‌دهد که کاهش سخت‌گیری‌های ایمنی برای افزایش مجازشماری، می‌تواند عواقب جدی و ناخواسته‌ای داشته باشد.

 

 

 

 

واکنش کارشناسان و چالش شفافیت در گزارش‌ دهی ایمنی

نتایج گزارش گوگل و نحوه ارائه آن، انتقاداتی را نیز برانگیخته است، به خصوص در زمینه شفافیت.

 

  •  نیاز به جزئیات بیشتر (دیدگاه توماس وودساید): توماس وودساید (Thomas Woodside)، یکی از بنیانگذاران پروژه هوش مصنوعی امن (Secure AI Project)، ضمن تأیید وجود تعادل (Trade-off) بین دنبال کردن دستورالعمل و پیروی از خط‌مشی، تأکید می‌کند که جزئیات محدود ارائه شده توسط گوگل در گزارش فنی، امکان تحلیل مستقل و دقیق را دشوار می‌سازد. به گفته او: "گوگل جزئیات زیادی در مورد موارد خاص نقض خط‌مشی ارائه نمی‌دهد، اگرچه می‌گویند شدید نبوده‌اند. بدون دانستن بیشتر، برای تحلیلگران مستقل دشوار است که بدانند آیا مشکلی وجود دارد یا خیر."

 

  • سابقه گوگل در شفافیت گزارش‌های ایمنی: این اولین بار نیست که گوگل به دلیل نحوه گزارش‌دهی ایمنی مدل‌هایش مورد انتقاد قرار می‌گیرد. پیش از این نیز، انتشار گزارش فنی برای مدل قدرتمندتر Gemini 2.5 Pro هفته‌ها به طول انجامید و نسخه اولیه آن فاقد جزئیات کلیدی تست‌های ایمنی بود. گوگل بعداً گزارش کامل‌تری را منتشر کرد. این روند، نگرانی‌ها در مورد میزان شفافیت گوگل در به اشتراک‌گذاری یافته‌ های مربوط به ایمنی مدل‌هایش را افزایش داده است.

 

 

چالش دائمیِ یافتن نقطه تعادل؛ اهمیت ایمنی در عصر AI | های ورت

 

یافته‌های گزارش فنی گوگل در مورد رگرسیون ایمنی مدل Gemini 2.5 Flash، یادآوری مهمی از چالش‌های پیچیده و مداوم در توسعه هوش مصنوعی مسئولانه است. این گزارش نشان می‌دهد که بهبود قابلیت‌های یک مدل (مانند دنبال کردن دقیق‌تر دستورالعمل‌ها) می‌تواند به طور ناخواسته منجر به کاهش پایبندی آن به مرزهای ایمنی شود، به خصوص زمانی که با دستورات مشکل‌ساز مواجه می‌شود.

این "تنش" ذاتی بین کارایی و ایمنی، و همچنین روند نگران‌کننده به سمت "مجازشماری" بیشتر در صنعت، بر اهمیت حیاتی تست‌های ایمنی قوی، دقیق و جامع تأکید می‌کند. علاوه بر این، نیاز مبرمی به شفافیت بیشتر از سوی شرکت‌های توسعه‌دهنده AI در مورد روش‌های تست، نتایج دقیق (حتی نتایج نامطلوب) و موارد مشخص نقض خط‌مشی وجود دارد تا امکان ارزیابی مستقل و ایجاد اعتماد عمومی فراهم شود.

 

در حالی که مدل‌هایی مانند Gemini 2.5 Flash هنوز در مرحله پیش‌نمایش هستند و احتمالاً قبل از انتشار عمومی بهبود خواهند یافت، این یافته‌ها به عنوان یک هشدار عمل می‌کنند. با قدرتمندتر شدن و نفوذ بیشتر هوش مصنوعی در زندگی ما، اطمینان از ایمنی، قابل اعتماد بودن و همسویی این فناوری‌ها با ارزش‌های انسانی، باید اولویت اصلی باقی بماند.