معرفی ElevenLabs Conversational AI 2.0: تحول در مکالمه صوتی هوشمند

چکیده

با پلتفرم Conversational AI 2.0 از ElevenLabs و قابلیت‌ های پیشرفته آن برای ساخت عامل‌ های صوتی هوشمند (تشخیص نوبت صحبت، چندزبانه، RAG) آشنا شوید. آینده مکالمات صوتی در های‌ ورت (hiwert.com).

۱۴۰۴ دوشنبه ۱۳ خرداد
15 بازديد
کاربرد ElevenLabs Conversational AI 2.0 در مراکز تماس و پشتیبانی مشتریان؛ افزایش بهره‌ وری و رضایت کاربران.

انقلاب در مکالمات هوشمند: ElevenLabs از Conversational AI 2.0 با قابلیت‌های شگفت‌انگیز تشخیص نوبت صحبت، پشتیبانی چندزبانه و RAG رونمایی کرد!

فراتر از پاسخ‌های رباتیک؛ طلوع عصر جدید تعاملات صوتی طبیعی و هوشمند با هوش مصنوعی

 

دنیای هوش مصنوعی (AI)، به ویژه در حوزه فناوری‌های گفتار و صدا، با سرعتی سرسام‌آور در حال پیشرفت است و هر روز شاهد نوآوری‌هایی هستیم که مرزهای تعامل انسان و ماشین را جابجا می‌کنند. دیگر دوران پاسخ‌های خشک و رباتیک دستیارهای صوتی به سر آمده و ما در آستانه عصری قرار داریم که در آن، ماشین‌ها قادرند به شکلی کاملاً طبیعی، هوشمندانه و حتی همدلانه با ما گفتگو کنند. در همین راستا، شرکت ElevenLabs، استارتاپ پیشرو و خوش‌ آتیه در زمینه فناوری‌های صوتی و افکت‌های صوتی مبتنی بر هوش مصنوعی که توسط مهندسان سابق شرکت معتبر Palantir تأسیس شده، از نسخه جدید و بسیار پیشرفته پلتفرم خود با نام Conversational AI 2.0 رونمایی کرده است.

 

این به‌ روزرسانی که تنها چهار ماه پس از عرضه نسخه اولیه پلتفرم صورت گرفته، مجموعه‌ای از قابلیت‌های جدید و انقلابی را برای ساخت عامل‌های صوتی (Voice Agents) پیشرفته، به ویژه برای کاربردهای سازمانی و تجاری مانند پشتیبانی مشتریان، مراکز تماس، و فروش و بازاریابی برون‌گرا، به ارمغان می‌آورد. به گزارش وب‌سایت معتبر VentureBeat، این پلتفرم جدید با هدف ایجاد تعاملات صوتی طبیعی‌تر، هوشمندتر و ایمن‌تر طراحی شده و آماده است تا استانداردهای جدیدی را در این حوزه تعریف کند.

در این مقاله جامع از های‌ورت (hiwert.com)، به بررسی عمیق و موشکافانه پلتفرم Conversational AI 2.0 از ElevenLabs می‌پردازیم. با ما همراه شوید تا با ویژگی‌های کلیدی و منحصربه‌فرد آن مانند مدل پیشرفته تشخیص نوبت صحبت، پشتیبانی یکپارچه چندزبانه، سیستم RAG داخلی، قابلیت چندوجهی و چندشخصیتی، و همچنین استانداردهای سازمانی و طرح‌های قیمت‌گذاری آن آشنا شده و به تحلیل پیامدهای این نوآوری برای آینده مکالمات هوشمند و تعاملات انسان و ماشین بپردازیم.

 

 

ElevenLabs کیست؟ نگاهی به استارتاپ خلاق و پیشرو در فناوری‌های نوین صدا و هوش مصنوعی مولد

پیش از آنکه به جزئیات پلتفرم جدید بپردازیم، بد نیست نگاهی کوتاه به شرکت ElevenLabs، این بازیگر نوظهور اما بسیار تأثیرگذار در دنیای هوش مصنوعی صوتی، داشته باشیم.

 

  •  بنیان‌گذاران با سابقه درخشان (مهندسان سابق شرکت معتبر پالانتیر) و جذب سرمایه‌های قابل توجه در مدت کوتاه ElevenLabs توسط تیمی از مهندسان و محققان باتجربه که سابقه فعالیت در شرکت‌های بزرگ فناوری مانند Palantir را در کارنامه خود دارند، تأسیس شده است. این پیشینه قوی، همراه با دیدگاه نوآورانه آن‌ها، باعث شده تا این شرکت در مدت زمان کوتاهی پس از تأسیس، بتواند سرمایه‌های قابل توجهی را از سرمایه‌گذاران مطرح جذب کرده و به سرعت در مسیر توسعه و عرضه محصولات پیشرفته گام بردارد.

 

  • تعهد راسخ به توسعه سریع، نوآوری مستمر و بازتعریف مرزهای ممکن در حوزه صدای هوشمند و طبیعی رونمایی از Conversational AI 2.0 تنها چهار ماه پس از عرضه نسخه اولیه پلتفرم، نشان‌دهنده تعهد ElevenLabs به توسعه سریع و نوآوری مستمر است. این شرکت در رقابت با سایر بازیگران بزرگ و کوچک این عرصه، از جمله رقیبی مانند Hume AI که اخیراً مدل EVI 3 خود را عرضه کرده، و همچنین در مواجهه با ظهور مدل‌های صوتی متن‌باز جدید، تلاش می‌کند تا همواره در لبه فناوری قرار داشته و محصولاتی متمایز و با ارزش افزوده بالا ارائه دهد. (اشاره به اینکه برخی پیشتر مرگ ElevenLabs را با ظهور مدل‌ های متن‌ باز اعلام کرده بودند، اما این شرکت با قدرت به کار خود ادامه می‌دهد).

 

 

 

 

 

 

Conversational AI 2.0 از ElevenLabs: جهشی بزرگ و کوانتومی به سوی تعاملات صوتی کاملاً طبیعی‌تر، عمیقاً هوشمندتر و ذاتاً ایمن‌تر از همیشه

به گفته جوزف مارکو از تیم مهندسی ElevenLabs، پلتفرم Conversational AI 2.0 به طور قابل ملاحظه‌ای بهتر از نسل قبلی خود بوده و استاندارد جدیدی را برای تجربیات صوتی هوشمند تعریف می‌کند. اما چه ویژگی‌هایی این پلتفرم را تا این حد متمایز و قدرتمند ساخته است؟

 

  •  هنر شگفت‌انگیز گفتگو: مدل پیشرفته و پیشگامانه تشخیص نوبت صحبت (State-of-the-art Turn-Taking Model) برای مکالماتی روان و بدون وقفه یکی از بزرگترین چالش‌ها در سیستم‌های صوتی سنتی، مدیریت جریان طبیعی گفتگو، از جمله وقفه‌های ناخوشایند یا قطع کردن صحبت کاربر توسط سیستم است. Conversational AI 2.0 با بهره‌گیری از یک مدل پیشرفته تشخیص نوبت صحبت، این مشکل را به طور هوشمندانه‌ای حل کرده است. این فناوری قادر است با تحلیل آنی و بی‌درنگ نشانه‌های گفتاری مانند مکث‌ها، تردیدها و کلمات پرکننده (Filler words) در کلام کاربر، زمان مناسب برای صحبت کردن و زمان مناسب برای گوش دادن را به دقت تشخیص دهد. این ویژگی به ویژه برای کاربردهایی مانند خدمات مشتریان و مراکز تماس که در آن، عامل‌های هوشمند باید تعادلی بین پاسخگویی سریع و حفظ ریتم طبیعی و انسانی مکالمه برقرار کنند، بسیار حیاتی و کاربردی است.

 

 

  •  ارتباطات بدون مرز و محدودیت: پشتیبانی یکپارچه، هوشمند و خودکار چندزبانه (Integrated Multilingual Support) در دنیای جهانی شده امروز، توانایی برقراری ارتباط به زبان‌های مختلف یک مزیت بزرگ محسوب می‌شود. Conversational AI 2.0 با معرفی قابلیت تشخیص یکپارچه زبان، امکان برقراری مکالمات چندزبانه روان و بدون نیاز به پیکربندی دستی را فراهم می‌کند. این قابلیت تضمین می‌کند که عامل هوشمند بتواند زبان مورد استفاده توسط کاربر را تشخیص داده و در همان تعامل، به همان زبان پاسخ دهد. این ویژگی به طور خاص برای شرکت‌های جهانی که به دنبال ارائه خدمات یکپارچه و باکیفیت به مشتریان متنوع خود در سراسر جهان هستند، بسیار ارزشمند بوده و به رفع موانع زبانی و ایجاد تجاربی فراگیرتر کمک شایانی می‌کند.

 

 

  • دسترسی آنی، هوشمند و ایمن به اقیانوسی از دانش با سیستم داخلی تولید افزوده بازیابی (RAG - Retrieval-Augmented Generation) یکی از قدرتمندترین قابلیت‌های افزوده شده به این پلتفرم، سیستم RAG داخلی آن است. این ویژگی به هوش مصنوعی اجازه می‌دهد تا به پایگاه‌های دانش خارجی (External Knowledge Bases) دسترسی پیدا کرده و اطلاعات مرتبط را به صورت آنی و با حداقل تأخیر (Minimal Latency) بازیابی نماید، در حالی که از حفاظت قوی از حریم خصوصی داده‌ها نیز اطمینان حاصل می‌کند. به عنوان مثال، در محیط‌های مراقبت‌های بهداشتی، یک عامل دستیار پزشکی می‌تواند دستورالعمل‌های درمانی را مستقیماً و بدون تأخیر از پایگاه داده موسسه بیرون بکشد. در بخش پشتیبانی مشتریان نیز، عامل‌های هوشمند می‌توانند به جزئیات به‌روز محصولات از اسناد داخلی دسترسی پیدا کرده و به طور موثرتری به کاربران کمک کنند.

 

 

  •  فراتر از صرفاً صدا: پشتیبانی کامل از چندوجهی بودن (Multimodality - تعامل از طریق صدا، متن یا ترکیبی از هر دو) Conversational AI 2.0 از چندوجهی بودن پشتیبانی می‌کند، به این معنی که عامل‌های هوشمند می‌توانند از طریق صدا، متن یا ترکیبی از هر دو با کاربران ارتباط برقرار کنند. این انعطاف‌پذیری، بار مهندسی را بر دوش توسعه‌دهندگان کاهش می‌دهد، زیرا عامل‌ها تنها یک بار نیاز به تعریف شدن دارند تا بتوانند در کانال‌های ارتباطی مختلف عمل کنند. این ویژگی، تجربه کاربری یکپارچه‌تری را در پلتفرم‌های گوناگون تضمین می‌کند.

 

 

  • یک عامل، چندین شخصیت متفاوت: قابلیت نوآورانه حالت چند کاراکتری (Multi-Character Mode - Alternate Personas) برای افزایش بیانگری و تطبیق‌پذیری عامل‌های هوشمند، Conversational AI 2.0 امکان استفاده از حالت چند کاراکتری را فراهم می‌کند. این بدان معناست که یک عامل واحد می‌تواند بین شخصیت‌های (پرسوناهای) مختلف جابجا شود. این قابلیت می‌تواند در سناریوهایی مانند توسعه محتوای خلاقانه (مانند داستان‌های صوتی یا پادکست‌های نمایشی)، شبیه‌سازی‌های آموزشی (با شخصیت‌های مختلف در یک سناریو) یا کمپین‌های تعامل با مشتری (با ارائه شخصیت‌های متفاوت بر اساس نوع مشتری یا هدف کمپین) بسیار ارزشمند و کاربردی باشد.

 

 

  • ارتباطات گسترده، هدفمند و خودکار: پشتیبانی کامل از تماس‌های گروهی خروجی (Batch Outbound Calling) برای سازمان‌هایی که به دنبال خودکارسازی فرآیندهای ارتباطی برون‌گرای خود در مقیاس بزرگ هستند، این پلتفرم اکنون از تماس‌های گروهی خروجی پشتیبانی می‌کند. سازمان‌ها می‌توانند چندین تماس خروجی را به طور همزمان با استفاده از عامل‌های Conversational AI آغاز کنند. این رویکرد برای انجام نظرسنجی‌ها، ارسال هشدارها و اعلان‌های مهم، و ارسال پیام‌های شخصی‌سازی‌شده در مقیاس وسیع بسیار مناسب است. این ویژگی با هدف افزایش دسترسی (Reach) و همچنین بهره‌وری عملیاتی طراحی شده و جایگزینی مقیاس‌پذیرتر برای تلاش‌های دستی و سنتی در زمینه تماس‌های خروجی ارائه میدهد.

 

 

 

 

 

 

طراحی شده برای نیازهای حساس و پیچیده شرکت‌ها: استانداردهای پیشرفته سازمانی، امنیت خدشه‌ناپذیر و انطباق کامل با مقررات در Conversational AI 2.0

ElevenLabs در توسعه Conversational AI 2.0، تاکید ویژه‌ای بر روی نیازمندی‌های سازمانی، به ویژه در زمینه امنیت، اعتماد و انطباق با مقررات داشته است.

 

  •  تعهد راسخ به جلب اعتماد و انطباق با سخت‌گیرانه‌ترین استانداردها: سازگاری کامل با HIPAA و گزینه اقامت داده در اتحادیه اروپا (EU Data Residency) این پلتفرم به طور کامل با مقررات HIPAA (قانون قابلیت انتقال و پاسخگویی بیمه سلامت آمریکا) سازگار است، که یک الزام حیاتی برای کاربردهای حوزه مراقبت‌های بهداشتی است که نیازمند حفظ دقیق حریم خصوصی و امنیت داده‌های بیماران می‌باشد. علاوه بر این، Conversational AI 2.0 از گزینه اقامت داده در اتحادیه اروپا (Optional EU Data Residency) نیز پشتیبانی می‌کند که با الزامات حاکمیت داده‌ها در اروپا همسو است و به شرکت‌های فعال در این منطقه امکان می‌دهد تا داده‌های خود را در داخل مرزهای اتحادیه اروپا نگهداری کنند.

 

  •  امنیت و قابلیت اطمینان در بالاترین سطح سازمانی (Enterprise-Grade Security and Reliability) ElevenLabs این ویژگی‌های متمرکز بر انطباق را با امنیت و قابلیت اطمینان در سطح سازمانی تقویت کرده است. Conversational AI 2.0 برای دسترسی‌پذیری بالا (High Availability) و ادغام یکپارچه با سیستم‌های شخص ثالث (Third-party Systems) طراحی شده و به عنوان یک انتخاب ایمن و قابل اتکا برای کسب‌وکارهایی که در محیط‌های حساس یا تحت نظارت دقیق فعالیت می‌کنند، موقعیت‌یابی شده است.

 

 

 

ساختار قیمت‌گذاری و طرح‌های متنوع اشتراک ElevenLabs برای دسترسی به قابلیت‌های پیشرفته Conversational AI

ElevenLabs طرح‌های اشتراک متنوعی را برای دسترسی به پلتفرم Conversational AI خود ارائه می‌دهد که متناسب با نیازها و بودجه‌های مختلف، از کاربران فردی و استارتاپ‌های کوچک گرفته تا شرکت‌های بزرگ، طراحی شده‌اند. بر اساس اطلاعات موجود در وب‌سایت ElevenLabs (که در مقاله VentureBeat به آن اشاره شده)، این طرح‌ها عبارتند از:

طرح رایگان (Free): ۰ دلار در ماه، شامل ۱۵ دقیقه مکالمه، محدودیت ۴ تماس همزمان، نیاز به ذکر منبع (Attribution) و بدون مجوز استفاده تجاری.

طرح شروع‌کننده (Starter): ۵ دلار در ماه، شامل ۵۰ دقیقه مکالمه، محدودیت ۶ تماس همزمان.

طرح خالق (Creator): ۱۱ دلار در ماه (با تخفیف از ۲۲ دلار)، شامل ۲۵۰ دقیقه مکالمه، محدودیت ۶ تماس همزمان، و هزینه تقریبی ۰.۱۲ دلار برای هر دقیقه اضافی.

طرح حرفه‌ای (Pro): ۹۹ دلار در ماه، شامل ۱۱۰۰ دقیقه مکالمه، محدودیت ۱۰ تماس همزمان، و هزینه تقریبی ۰.۱۱ دلار برای هر دقیقه اضافی.

طرح مقیاس (Scale): ۳۳۰ دلار در ماه، شامل ۳۶۰۰ دقیقه مکالمه، محدودیت ۲۰ تماس همزمان، و هزینه تقریبی ۰.۱۰ دلار برای هر دقیقه اضافی.

طرح تجاری (Business): ۱۳۲۰ دلار در ماه، شامل ۱۳۷۵۰ دقیقه مکالمه، محدودیت ۳۰ تماس همزمان، و هزینه تقریبی ۰.۰۹۶ دلار برای هر دقیقه اضافی. این تنوع در طرح‌های اشتراک، به کاربران امکان می‌دهد تا بر اساس میزان استفاده و نیازهای خود، مناسب‌ترین گزینه را انتخاب کنند.

 

 

 

پیامدهای شگرف معرفی Conversational AI 2.0 برای صنایع گوناگون و ترسیم آینده‌ای نوین برای تعاملات صوتی هوشمند

رونمایی از پلتفرمی با این سطح از پیشرفت و قابلیت‌ها، می‌تواند تأثیرات قابل توجهی بر صنایع مختلف و نحوه تعامل ما با فناوری صوتی داشته باشد:

 

  •  تحولی بنیادین در خدمات پشتیبانی مشتریان و آینده درخشان مراکز تماس (Call Centers) هوشمند و کارآمد با قابلیت‌هایی مانند تشخیص نوبت صحبت طبیعی، پشتیبانی چندزبانه و دسترسی آنی به دانش از طریق RAG، عامل‌های صوتی ساخته شده با Conversational AI 2.0 می‌توانند تجربه پشتیبانی مشتریان را به طور کامل دگرگون کرده، زمان انتظار را کاهش دهند، پاسخ‌های دقیق‌تری ارائه دهند و رضایت مشتریان را به طور چشمگیری افزایش دهند.

 

  •  کاربردهای نوآورانه و خلاقانه در حوزه‌های فروش، بازاریابی هدفمند، آموزش تعاملی و شبیه‌سازی‌های واقع‌گرایانه از تماس‌های فروش و بازاریابی شخصی‌سازی‌شده در مقیاس بزرگ گرفته تا ایجاد شبیه‌سازی‌های آموزشی تعاملی با شخصیت‌های مختلف و توسعه محتوای خلاقانه چندوجهی، این پلتفرم ابزارهای قدرتمندی را در اختیار کسب‌وکارها قرار می‌دهد.

 

  •  تشدید رقابت در بازار پلتفرم‌ های صدای هوشمند و مدل‌ های متن‌ باز؛ نوآوری، کلید بقا و پیشرفت عرضه Conversational AI 2.0، رقابت را در بازار رو به رشد فناوری‌های صوتی هوشمند و مدل‌های مکالمه‌ای تشدید خواهد کرد. شرکت‌ها برای باقی ماندن در این عرصه، نیازمند نوآوری مستمر و ارائه قابلیت‌هایی هستند که واقعاً نیازهای کاربران و کسب‌وکارها را برآورده سازند.

 

 

 

 Conversational AI 2.0 از ElevenLabs، آغاز فصلی نو در تعاملات صوتی واقع‌گرایانه و هوشمند؛ "زمان ساختن، اکنون است!"

 

همانطور که ElevenLabs در ویدیوی معرفی محصول جدید خود بیان می‌کند: "پتانسیل هوش مصنوعی محاوره‌ای هرگز بیشتر از این نبوده است. زمان ساختن، اکنون است." با عرضه Conversational AI 2.0، این شرکت ابزارها و زیرساخت لازم را برای شرکت‌ها و توسعه‌دهندگان فراهم کرده تا عامل‌های صوتی واقعاً هوشمند و آگاه از زمینه‌ای را ایجاد کنند که استاندارد تعاملات دیجیتال را به سطح جدیدی ارتقا می‌دهند. از مدل پیشرفته تشخیص نوبت صحبت گرفته تا پشتیبانی چندزبانه یکپارچه، سیستم RAG داخلی، قابلیت چندوجهی و چندشخصیتی، و تعهد به استانداردهای سازمانی و امنیتی، Conversational AI 2.0 مجموعه‌ای کامل از ویژگی‌های نسل بعدی را برای ساخت دستیارهای صوتی پیشرفته ارائه می‌دهد.

باید منتظر ماند و دید که چگونه خلاقیت توسعه‌دهندگان و نیازهای کسب‌وکارها از این پلتفرم قدرتمند برای خلق تجارب صوتی نوآورانه و شگفت‌انگیز بهره خواهند برد. اما یک چیز قطعی است: آینده مکالمات، هوشمندتر و طبیعی‌تر از همیشه خواهد بود. ElevenLabs از توسعه‌دهندگان و سازمان‌های علاقه‌مند دعوت کرده است تا مستندات این پلتفرم را کاوش کرده، از پورتال توسعه‌دهندگان آن بازدید نمایند یا با تیم فروش آن‌ها تماس بگیرند تا ببینند چگونه Conversational AI 2.0 می‌تواند تجارب مشتریان آن‌ها را بهبود بخشد.