هوش مصنوعی Gemini: وبگردی آسان تر برای نابینایان و کم شنوایان
کشف کنید چگونه هوش مصنوعی Gemini گوگل با ویژگی هایی چون توصیف تصویر تعاملی و زیرنویس بیانی، وبگردی را برای افراد نابینا و کم شنوا متحول کرده است. نوآوری های اندروید و کروم را در های ورت (hiwert.com) بخوانید.

انقلاب Gemini: هوش مصنوعی گوگل چگونه وبگردی را برای نابینایان و کم شنوایان دگرگون میکند؟
شکستن موانع دیجیتال با قدرت هوش مصنوعی
اینترنت به بخش جداییناپذیری از زندگی روزمره ما تبدیل شده است؛ ابزاری قدرتمند برای کسب اطلاعات، ارتباطات، خرید و سرگرمی. اما برای میلیونها نفر از افراد دارای معلولیتهای بینایی و شنوایی، تجربه وبگردی میتواند با چالش ها و موانع متعددی همراه باشد. خوشبختانه، پیشرفتهای شگرف در حوزه هوش مصنوعی (AI) دریچههای جدیدی را به سوی دنیای دیجیتال دسترسپذیرتر گشوده است. گوگل، به عنوان یکی از پیشگامان این عرصه، با بهرهگیری از توانمندیهای مدل پیشرفته هوش مصنوعی خود، Gemini، مجموعهای از بهروزرسانیهای نوآورانه را در محصولات اندروید و کروم ارائه کرده است که نویدبخش تجربهای روان تر و غنیتر برای کاربران نابینا، کمبینا و کمشنوا است. این نوآوریها که همزمان با روز جهانی آگاهی از دسترسیپذیری (GAAD) معرفی شدهاند، نشاندهنده تعهد گوگل به ساختن جهانی دیجیتال فراگیرتر هستند. در این مقاله از هایورت (hiwert.com)، به بررسی عمیق این ویژگیهای جدید میپردازیم و میبینیم که چگونه هوش مصنوعی Gemini در حال دگرگون کردن نحوه تعامل این کاربران با دنیای وب است.
Gemini و TalkBack: دنیای تصاویر برای نابینایان و کم بینایان گویاتر و تعاملیتر میشود
TalkBack، قابلیت صفحهخوان داخلی اندروید، سالهاست که به کاربران نابینا و کمبینا در درک محتوای صفحه نمایش و تعامل با دستگاهشان کمک میکند. در سال ۲۰۲۴، گوگل با ادغام هوش مصنوعی Gemini در TalkBack، قابلیت توصیف تصاویر (حتی آنهایی که متن جایگزین یا Alt Text ندارند) را به این ابزار افزود. اکنون، این همکاری یک گام فراتر رفته و تعاملیتر شده است.
-
فراتر از توصیف ساده: پرسش و پاسخ هوشمند درباره تصاویر و محتوای صفحه بهروزرسانی جدید به کاربران TalkBack اجازه میدهد نه تنها توصیفی از تصاویر دریافت کنند، بلکه سوالات تکمیلی و دقیقی در مورد جزئیات آنها نیز بپرسند و پاسخهای هوشمندانهای از Gemini دریافت کنند. گوگل در مثالی توضیح میدهد: "دفعه بعد که دوستی عکسی از گیتار جدیدش را برای شما ارسال میکند، میتوانید توصیفی از آن دریافت کرده و سوالات تکمیلی در مورد مارک و رنگ آن، یا حتی سایر اشیاء موجود در تصویر بپرسید." علاوه بر این، این قابلیت به کل محتوای صفحه نمایش نیز گسترش یافته است. به عنوان مثال، اگر در یک اپلیکیشن خرید مشغول بررسی محصولات هستید، میتوانید از Gemini در مورد جنس یک لباس خاص یا وجود تخفیفهای احتمالی سوال کنید. قابلیت "Describe Screen" (توصیف صفحه) در منوی TalkBack اکنون با قدرت Gemini، تحلیل و پاسخگویی به این نوع سوالات را امکانپذیر میسازد.
-
چگونه Gemini به درک عمیق تر و جزئی تر محتوای بصری کمک میکند؟ با این ویژگی، کاربران دیگر به یک توصیف کلی و از پیش تعیینشده محدود نیستند. آنها میتوانند کنجکاوی خود را دنبال کرده و با پرسیدن سوالات خاص، به درک بسیار دقیقتر و شخصیتری از محتوای بصری، چه یک عکس ساده و چه یک صفحه پیچیده اپلیکیشن، دست یابند. این امر استقلال و کارایی کاربران نابینا و کمبینا را در محیط دیجیتال به طور قابل توجهی افزایش میدهد.
Expressive Captions (زیرنویسهای بیانی): شنیدن طنین احساسات، فراتر از کلمات خشک
برای کاربران کمشنوا یا ناشنوا، زیرنویسها ابزاری حیاتی برای درک محتوای صوتی و ویدیویی هستند. گوگل با معرفی Expressive Captions (زیرنویسهای بیانی)، کیفیت این تجربه را به سطح جدیدی ارتقا داده است.
-
درک لحن، هیجان و احساسات در گفتگوها و محتوای صوتی این ویژگی نوآورانه با استفاده از هوش مصنوعی، نه تنها آنچه گفته میشود، بلکه چگونه گفته شدن آن را نیز به تصویر میکشد. به این ترتیب، کاربران میتوانند علاوه بر کلمات، بخشی از بار احساسی و لحن گوینده را نیز درک کنند.
-
ویژگی جدید "کشش کلمات" و شناسایی دقیقتر صداهای غیرکلامی یکی از جنبههای جالب Expressive Captions، قابلیت جدید تشخیص کشش کلمات (duration feature) است. گوگل مثال میزند: "میدانیم یکی از راههایی که افراد خود را بیان میکنند، کشیدن صدای کلماتشان است، به همین دلیل ویژگی جدید کشش کلمات را در Expressive Captions توسعه دادیم، تا بتوانید متوجه شوید چه زمانی گزارشگر ورزشی فریاد میزند "یک شوت فووووقالعاده" یا چه زمانی پیام ویدیویی نه یک "نه" ساده، بلکه یک "نهههههههه" طولانی است." علاوه بر این، برچسبهای بیشتری برای صداهای محیطی و غیرکلامی مانند سوت زدن، تشویق یا صاف کردن گلو نیز به این سیستم اضافه شده است تا درک جامعتری از صحنه صوتی ارائه شود.
-
دسترسی و سازگاری با اندروید ۱۵ این نسخه جدید از Expressive Captions به زبان انگلیسی در ایالات متحده، بریتانیا، کانادا و استرالیا برای دستگاههایی که اندروید ۱۵ و بالاتر را اجرا میکنند، در دسترس قرار خواهد گرفت.
نوآوریهای گوگل کروم برای تجربه وبگردی روانتر و دسترسپذیرتر برای همگان
مرورگر کروم، به عنوان یکی از پراستفادهترین ابزارهای وبگردی، نیز از قافله پیشرفتهای دسترسیپذیری عقب نمانده است.
-
خداحافظی با PDFهای اسکنشده غیرقابل دسترس: قدرت شگفت انگیز OCR در کروم یکی از مشکلات رایج کاربران صفحهخوان، عدم توانایی در تعامل با فایلهای PDF اسکنشده (که در واقع تصویر هستند نه متن) بود. اکنون، با قابلیت تشخیص نویسه نوری (Optical Character Recognition - OCR)، مرورگر کروم دسکتاپ به طور خودکار این نوع PDFها را شناسایی کرده و متن آنها را قابل تعامل میکند. این بدان معناست که کاربران میتوانند متن را انتخاب، کپی و جستجو کنند و از طریق صفحهخوان به محتوای آن گوش دهند، درست مانند هر صفحه وب دیگری.
-
Page Zoom هوشمند در کروم اندروید: بزرگنمایی متن بدون به هم ریختگی صفحه ویژگی Page Zoom در کروم اندروید نیز بهبود یافته است. اکنون کاربران میتوانند اندازه متن را در صفحات وب افزایش دهند بدون آنکه چیدمان کلی صفحه به هم بریزد یا تجربه وبگردی مختل شود، مشابه عملکرد این ویژگی در نسخه دسکتاپ کروم. میزان بزرگنمایی قابل تنظیم است و کاربران میتوانند این تنظیمات را برای تمام صفحات یا صفحات خاص اعمال کنند.
Project Euphonia و آینده تشخیص گفتار فراگیر و بدون مرز
گوگل از سال ۲۰۱۹ با راهاندازی Project Euphonia، در تلاش است تا فناوری تشخیص گفتار را برای افرادی با الگوهای گفتاری غیر استاندارد (ناشی از بیماریها یا لهجههای خاص) دسترسپذیرتر کند.
-
توانمندسازی افراد با چالش های گفتاری هدف اصلی این پروژه، بهبود درک ماشین از گفتار متنوع انسانی و فراهم کردن ابزارهایی برای ارتباط موثرتر این افراد است.
-
ارائه منابع متنباز به توسعهدهندگان در سراسر جهان گوگل اکنون با ارائه مخازن متنباز خود از طریق صفحه GitHub پروژه Euphonia، از توسعه دهندگان و سازمانها در سراسر جهان حمایت میکند. آنها میتوانند از این منابع برای توسعه ابزارهای صوتی شخصیسازیشده برای تحقیقات یا آموزش مدلهای خود برای الگوهای گفتاری متنوع استفاده کنند.
-
حمایت از پروژههای نوآورانه برای زبانهای کمتر پوشش داده شده در آفریقا گوگل از طریق Google.org با کالج دانشگاهی لندن (UCL) برای ایجاد مرکز گنجاندن زبان دیجیتال (CDLI) همکاری کرده است. این مرکز در تلاش است تا با ایجاد مجموعه دادههای متنباز در ۱۰ زبان آفریقایی و ساخت مدلهای جدید تشخیص گفتار، این فناوری را برای سخنوران غیرانگلیسی زبان در آفریقا بهبود بخشد.
هوش مصنوعی Gemini، چراغ راهی به سوی وبگردی بدون مانع
بهروزرسانیهای اخیر گوگل در اندروید و کروم، با محوریت هوش مصنوعی Gemini و تمرکز بر دسترسیپذیری، نشاندهنده یک جهش قابل توجه در نحوه تعامل افراد کمتوان با دنیای دیجیتال است. از توصیفات تصویری تعاملی و زیرنویسهای بیانی گرفته تا بهبود تشخیص گفتار و دسترسپذیری محتوای PDF، هر یک از این نوآوریها به تنهایی میتوانند تاثیر بسزایی در تجربه کاربری میلیونها نفر در سراسر جهان داشته باشند. این پیشرفتها بار دیگر ثابت میکنند که هوش مصنوعی، اگر با هدفمندی و مسئولیتپذیری توسعه یابد، میتواند به ابزاری قدرتمند برای شکستن موانع و ایجاد فرصتهای برابر برای همگان تبدیل شود. آینده دسترسیپذیری وب با وجود چنین فناوریهایی، روشنتر از همیشه به نظر میرسد.