هوش مصنوعی Gemini: وبگردی آسان‌ تر برای نابینایان و کم‌ شنوایان

چکیده

کشف کنید چگونه هوش مصنوعی Gemini گوگل با ویژگی‌ هایی چون توصیف تصویر تعاملی و زیرنویس بیانی، وبگردی را برای افراد نابینا و کم‌ شنوا متحول کرده است. نوآوری‌ های اندروید و کروم را در های‌ ورت (hiwert.com) بخوانید.

۱۴۰۴ يکشنبه ۲۹ ارديبهشت
7 بازديد
تجربه وبگردی بهتر برای نابینایان با هوش مصنوعی Gemini گوگل و قابلیت توصیف تصویر TalkBack.

انقلاب Gemini: هوش مصنوعی گوگل چگونه وبگردی را برای نابینایان و کم‌ شنوایان دگرگون میکند؟

شکستن موانع دیجیتال با قدرت هوش مصنوعی

 

اینترنت به بخش جدایی‌ناپذیری از زندگی روزمره ما تبدیل شده است؛ ابزاری قدرتمند برای کسب اطلاعات، ارتباطات، خرید و سرگرمی. اما برای میلیون‌ها نفر از افراد دارای معلولیت‌های بینایی و شنوایی، تجربه وبگردی می‌تواند با چالش‌ ها و موانع متعددی همراه باشد. خوشبختانه، پیشرفت‌های شگرف در حوزه هوش مصنوعی (AI) دریچه‌های جدیدی را به سوی دنیای دیجیتال دسترس‌پذیرتر گشوده است. گوگل، به عنوان یکی از پیشگامان این عرصه، با بهره‌گیری از توانمندی‌های مدل پیشرفته هوش مصنوعی خود، Gemini، مجموعه‌ای از به‌روزرسانی‌های نوآورانه را در محصولات اندروید و کروم ارائه کرده است که نویدبخش تجربه‌ای روان‌ تر و غنی‌تر برای کاربران نابینا، کم‌بینا و کم‌شنوا است. این نوآوری‌ها که همزمان با روز جهانی آگاهی از دسترسی‌پذیری (GAAD) معرفی شده‌اند، نشان‌دهنده تعهد گوگل به ساختن جهانی دیجیتال فراگیرتر هستند. در این مقاله از های‌ورت (hiwert.com)، به بررسی عمیق این ویژگی‌های جدید می‌پردازیم و می‌بینیم که چگونه هوش مصنوعی Gemini در حال دگرگون کردن نحوه تعامل این کاربران با دنیای وب است.

 

 

 

Gemini و TalkBack: دنیای تصاویر برای نابینایان و کم‌ بینایان گویاتر و تعاملی‌تر میشود

TalkBack، قابلیت صفحه‌خوان داخلی اندروید، سال‌هاست که به کاربران نابینا و کم‌بینا در درک محتوای صفحه نمایش و تعامل با دستگاهشان کمک می‌کند. در سال ۲۰۲۴، گوگل با ادغام هوش مصنوعی Gemini در TalkBack، قابلیت توصیف تصاویر (حتی آن‌هایی که متن جایگزین یا Alt Text ندارند) را به این ابزار افزود. اکنون، این همکاری یک گام فراتر رفته و تعاملی‌تر شده است.

 

  •  فراتر از توصیف ساده: پرسش و پاسخ هوشمند درباره تصاویر و محتوای صفحه به‌روزرسانی جدید به کاربران TalkBack اجازه می‌دهد نه تنها توصیفی از تصاویر دریافت کنند، بلکه سوالات تکمیلی و دقیقی در مورد جزئیات آن‌ها نیز بپرسند و پاسخ‌های هوشمندانه‌ای از Gemini دریافت کنند. گوگل در مثالی توضیح می‌دهد: "دفعه بعد که دوستی عکسی از گیتار جدیدش را برای شما ارسال می‌کند، می‌توانید توصیفی از آن دریافت کرده و سوالات تکمیلی در مورد مارک و رنگ آن، یا حتی سایر اشیاء موجود در تصویر بپرسید." علاوه بر این، این قابلیت به کل محتوای صفحه نمایش نیز گسترش یافته است. به عنوان مثال، اگر در یک اپلیکیشن خرید مشغول بررسی محصولات هستید، می‌توانید از Gemini در مورد جنس یک لباس خاص یا وجود تخفیف‌های احتمالی سوال کنید. قابلیت "Describe Screen" (توصیف صفحه) در منوی TalkBack اکنون با قدرت Gemini، تحلیل و پاسخگویی به این نوع سوالات را امکان‌پذیر می‌سازد.

 

  • چگونه Gemini به درک عمیق‌ تر و جزئی‌ تر محتوای بصری کمک می‌کند؟ با این ویژگی، کاربران دیگر به یک توصیف کلی و از پیش تعیین‌شده محدود نیستند. آن‌ها می‌توانند کنجکاوی خود را دنبال کرده و با پرسیدن سوالات خاص، به درک بسیار دقیق‌تر و شخصی‌تری از محتوای بصری، چه یک عکس ساده و چه یک صفحه پیچیده اپلیکیشن، دست یابند. این امر استقلال و کارایی کاربران نابینا و کم‌بینا را در محیط دیجیتال به طور قابل توجهی افزایش می‌دهد.

 

 

 

 

 

 Expressive Captions (زیرنویس‌های بیانی): شنیدن طنین احساسات، فراتر از کلمات خشک

برای کاربران کم‌شنوا یا ناشنوا، زیرنویس‌ها ابزاری حیاتی برای درک محتوای صوتی و ویدیویی هستند. گوگل با معرفی Expressive Captions (زیرنویس‌های بیانی)، کیفیت این تجربه را به سطح جدیدی ارتقا داده است.

 

  •  درک لحن، هیجان و احساسات در گفتگوها و محتوای صوتی این ویژگی نوآورانه با استفاده از هوش مصنوعی، نه تنها آنچه گفته می‌شود، بلکه چگونه گفته شدن آن را نیز به تصویر می‌کشد. به این ترتیب، کاربران می‌توانند علاوه بر کلمات، بخشی از بار احساسی و لحن گوینده را نیز درک کنند.

 

  • ویژگی جدید "کشش کلمات" و شناسایی دقیق‌تر صداهای غیرکلامی یکی از جنبه‌های جالب Expressive Captions، قابلیت جدید تشخیص کشش کلمات (duration feature) است. گوگل مثال می‌زند: "می‌دانیم یکی از راه‌هایی که افراد خود را بیان می‌کنند، کشیدن صدای کلماتشان است، به همین دلیل ویژگی جدید کشش کلمات را در Expressive Captions توسعه دادیم، تا بتوانید متوجه شوید چه زمانی گزارشگر ورزشی فریاد می‌زند "یک شوت فووووق‌العاده" یا چه زمانی پیام ویدیویی نه یک "نه" ساده، بلکه یک "نهههههههه" طولانی است." علاوه بر این، برچسب‌های بیشتری برای صداهای محیطی و غیرکلامی مانند سوت زدن، تشویق یا صاف کردن گلو نیز به این سیستم اضافه شده است تا درک جامع‌تری از صحنه صوتی ارائه شود.

 

  • دسترسی و سازگاری با اندروید ۱۵ این نسخه جدید از Expressive Captions به زبان انگلیسی در ایالات متحده، بریتانیا، کانادا و استرالیا برای دستگاه‌هایی که اندروید ۱۵ و بالاتر را اجرا می‌کنند، در دسترس قرار خواهد گرفت.

 

 

 

نوآوری‌های گوگل کروم برای تجربه وبگردی روان‌تر و دسترس‌پذیرتر برای همگان

مرورگر کروم، به عنوان یکی از پراستفاده‌ترین ابزارهای وبگردی، نیز از قافله پیشرفت‌های دسترسی‌پذیری عقب نمانده است.

 

  •  خداحافظی با PDF‌های اسکن‌شده غیرقابل دسترس: قدرت شگفت‌ انگیز OCR در کروم یکی از مشکلات رایج کاربران صفحه‌خوان، عدم توانایی در تعامل با فایل‌های PDF اسکن‌شده (که در واقع تصویر هستند نه متن) بود. اکنون، با قابلیت تشخیص نویسه نوری (Optical Character Recognition - OCR)، مرورگر کروم دسکتاپ به طور خودکار این نوع PDF‌ها را شناسایی کرده و متن آن‌ها را قابل تعامل می‌کند. این بدان معناست که کاربران می‌توانند متن را انتخاب، کپی و جستجو کنند و از طریق صفحه‌خوان به محتوای آن گوش دهند، درست مانند هر صفحه وب دیگری.

 

  • Page Zoom هوشمند در کروم اندروید: بزرگنمایی متن بدون به‌ هم‌ ریختگی صفحه ویژگی Page Zoom در کروم اندروید نیز بهبود یافته است. اکنون کاربران می‌توانند اندازه متن را در صفحات وب افزایش دهند بدون آنکه چیدمان کلی صفحه به هم بریزد یا تجربه وبگردی مختل شود، مشابه عملکرد این ویژگی در نسخه دسکتاپ کروم. میزان بزرگنمایی قابل تنظیم است و کاربران می‌توانند این تنظیمات را برای تمام صفحات یا صفحات خاص اعمال کنند.

 

 

 

 

 

Project Euphonia و آینده تشخیص گفتار فراگیر و بدون مرز

گوگل از سال ۲۰۱۹ با راه‌اندازی Project Euphonia، در تلاش است تا فناوری تشخیص گفتار را برای افرادی با الگوهای گفتاری غیر استاندارد (ناشی از بیماری‌ها یا لهجه‌های خاص) دسترس‌پذیرتر کند.

 

  • توانمندسازی افراد با چالش‌ های گفتاری هدف اصلی این پروژه، بهبود درک ماشین از گفتار متنوع انسانی و فراهم کردن ابزارهایی برای ارتباط موثرتر این افراد است.

 

  • ارائه منابع متن‌باز به توسعه‌دهندگان در سراسر جهان گوگل اکنون با ارائه مخازن متن‌باز خود از طریق صفحه GitHub پروژه Euphonia، از توسعه‌ دهندگان و سازمان‌ها در سراسر جهان حمایت می‌کند. آن‌ها می‌توانند از این منابع برای توسعه ابزارهای صوتی شخصی‌سازی‌شده برای تحقیقات یا آموزش مدل‌های خود برای الگوهای گفتاری متنوع استفاده کنند.

 

  • حمایت از پروژه‌های نوآورانه برای زبان‌های کمتر پوشش داده شده در آفریقا گوگل از طریق Google.org با کالج دانشگاهی لندن (UCL) برای ایجاد مرکز گنجاندن زبان دیجیتال (CDLI) همکاری کرده است. این مرکز در تلاش است تا با ایجاد مجموعه داده‌های متن‌باز در ۱۰ زبان آفریقایی و ساخت مدل‌های جدید تشخیص گفتار، این فناوری را برای سخنوران غیرانگلیسی زبان در آفریقا بهبود بخشد.

 

 

 

 هوش مصنوعی Gemini، چراغ راهی به سوی وبگردی بدون مانع

 

به‌روزرسانی‌های اخیر گوگل در اندروید و کروم، با محوریت هوش مصنوعی Gemini و تمرکز بر دسترسی‌پذیری، نشان‌دهنده یک جهش قابل توجه در نحوه تعامل افراد کم‌توان با دنیای دیجیتال است. از توصیفات تصویری تعاملی و زیرنویس‌های بیانی گرفته تا بهبود تشخیص گفتار و دسترس‌پذیری محتوای PDF، هر یک از این نوآوری‌ها به تنهایی می‌توانند تاثیر بسزایی در تجربه کاربری میلیون‌ها نفر در سراسر جهان داشته باشند. این پیشرفت‌ها بار دیگر ثابت می‌کنند که هوش مصنوعی، اگر با هدفمندی و مسئولیت‌پذیری توسعه یابد، می‌تواند به ابزاری قدرتمند برای شکستن موانع و ایجاد فرصت‌های برابر برای همگان تبدیل شود. آینده دسترسی‌پذیری وب با وجود چنین فناوری‌هایی، روشن‌تر از همیشه به نظر می‌رسد.