هوش مصنوعی گوگل veo 3 معرفی شد، با قابلیت افزودن صدا به ویدیو

چکیده

با هوش مصنوعی Veo 3 گوگل و قابلیت تولید همزمان ویدیو و صدا، و ابزار فیلم‌ سازی Flow آشنا شوید. نوآوری‌ های Google I/O 2025 برای آینده تولید محتوا، همین الان در های‌ ورت (hiwert.com) بخوانید.

۱۴۰۴ پنج شنبه ۱۶ خرداد

معرفی هوش مصنوعی گوگل Veo 3 در های‌ورت؛ نسل جدید تولید ویدیو با قابلیت افزودن و همگام‌سازی خودکار صدا و موسیقی.

انقلاب در سینمای هوشمند: رونمایی از Veo 3 گوگل با قابلیت تولید همزمان ویدیو و صدا، و ابزار فیلم‌سازی Flow!

پایان عصر "فیلم‌های صامت" در هوش مصنوعی و طلوع سینمای تمام‌عیار با گوگل!

دنیای تولید محتوای ویدیویی با هوش مصنوعی (AI) در آستانه یک تحول شگرف و بنیادین قرار گرفته است. گوگل، به عنوان یکی از پیشگامان بی‌رقیب در عرصه هوش مصنوعی، در کنفرانس توسعه‌دهندگان Google I/O 2025، از جدیدترین دستاوردهای خود در این زمینه پرده‌برداری کرد که می‌تواند قواعد بازی را برای همیشه تغییر دهد. هوش مصنوعی Veo 3، جدیدترین مدل تولید ویدیوی این شرکت، نه تنها کیفیت بصری خیره‌کننده‌ای ارائه می‌دهد، بلکه برای اولین بار، قابلیت تولید همزمان صدا (شامل افکت‌ های صوتی، موسیقی پس‌زمینه و حتی دیالوگ) را به طور بومی و یکپارچه با ویدیو فراهم می‌کند. به قول دمیس حسابیس، مدیرعامل گوگل دیپ‌مایند: "برای اولین بار، ما از دوران صامت تولید ویدیو با هوش مصنوعی خارج می‌شویم." همزمان با این پیشرفت خیره‌کننده، گوگل از ابزار فیلم‌سازی جدیدی به نام Flow نیز رونمایی کرد؛

پلتفرمی قدرتمند که با بهره‌گیری از مدل‌های پیشرفته Veo، Imagen و Gemini، به فیلم‌سازان و خالقان محتوا امکان می‌دهد تا ایده‌های خود را بدون محدودیت کاوش کرده و صحنه‌ها و کلیپ‌های سینمایی خلق کنند. در این مقاله جامع از های‌ورت (hiwert.com)، به بررسی عمیق این دو نوآوری انقلابی می‌پردازیم، با ویژگی‌های فنی، قابلیت‌های شگفت‌انگیز، نحوه دسترسی و پیامدهای بالقوه آن‌ها برای آینده فیلم‌سازی، تولید محتوا و صنایع خلاق آشنا می‌شویم.

Veo 3 گوگل: جهشی کوانتومی در تولید ویدیو با هوش مصنوعی و ورود شکوهمند به عصر ویدیوی صدادار و پویا

Veo 3، جدیدترین نسل از مدل‌های تولید ویدیوی گوگل، چیزی فراتر از یک به‌روزرسانی ساده نسبت به نسل قبلی خود، یعنی Veo 2، محسوب می‌شود. این مدل، با قابلیت‌های جدید و بهبودیافته خود، تعریف جدیدی از آنچه هوش مصنوعی می‌تواند در عرصه ویدیو انجام دهد، ارائه می‌دهد.

Veo 3 چیست؟ فراتر از یک مدل تولید ویدیوی ساده، یک خالق چندرسانه‌ ای هوشمند Veo 3 یک مدل هوش مصنوعی مولد پیشرفته است که توسط گوگل دیپ‌مایند (Google DeepMind)، بازوی تحقیقاتی هوش مصنوعی گوگل، توسعه یافته است. این مدل نه تنها در زمینه کیفیت بصری و پایبندی به پرامپت‌های متنی نسبت به Veo 2 پیشرفت قابل توجهی داشته، بلکه با یک قابلیت انقلابی، خود را از سایر رقبا متمایز کرده است: تولید بومی و همزمان صدا برای ویدیوهای خلق‌ شده.

قابلیت انقلابی و منحصر به‌ فرد: تولید همزمان ویدیو و صدا (شامل افکت‌ های صوتی، موسیقی پس‌ زمینه و حتی دیالوگ!) به گفته دمیس حسابیس در نشست خبری، کاربران اکنون می‌توانند به Veo 3 پرامپتی را ارائه دهند که نه تنها شخصیت‌ها و محیط را توصیف می‌کند، بلکه شامل پیشنهاد دیالوگ و حتی توصیف نحوه بیان و صدای مورد نظر نیز می‌شود. Veo 3 قادر است افکت‌های صوتی مرتبط با صحنه (مانند صدای باد، باران یا محیط شهری)، موسیقی پس‌زمینه مناسب و حتی دیالوگ‌های شخصیت‌ها را با لحن و احساسات توصیف‌شده، به طور خودکار و هماهنگ با تصویر تولید کند. این قابلیت، به معنای واقعی کلمه، "پایان دوران فیلم‌های صامت AI" است و به ویدیوهای تولید شده توسط هوش مصنوعی، عمق و واقع‌گرایی بی‌سابقه‌ای می‌بخشد.

علم شگفت‌انگیز پشت این جادو: درک عمیق پیکسل‌ها و همگام‌سازی خودکار و هوشمندانه صدا با تصویر آنچه Veo 3 را در زمینه تولید صدا منحصربه‌فرد می‌کند، توانایی آن در درک پیکسل‌های خام ویدیوی تولیدی خود و همگام‌سازی خودکار صداهای تولید شده با کلیپ‌ها است. این قابلیت احتمالاً بر پایه تحقیقات پیشین گوگل دیپ‌مایند در زمینه "تبدیل ویدیو به صدا" (video-to-audio AI) بنا شده است. در ژوئن گذشته، دیپ‌مایند اعلام کرده بود که در حال توسعه فناوری هوش مصنوعی برای تولید موسیقی متن برای ویدیوها از طریق آموزش مدلی بر روی ترکیبی از صداها، متن دیالوگ‌ها و کلیپ‌های ویدیویی است.

داده‌ های آموزشی Veo 3: نقش احتمالی و استراتژیک پلتفرم یوتیوب اگرچه گوگل دیپ‌مایند به طور دقیق منبع داده‌های آموزشی Veo 3 را اعلام نکرده است، اما به نقل از TechCrunch (یا منبع خبری مشابهی که این اطلاعات را پوشش داده)، یوتیوب به عنوان یکی از بزرگترین مخازن ویدیویی جهان و متعلق به گوگل، یک منبع بسیار محتمل برای آموزش این مدل پیشرفته است. پیشتر نیز دیپ‌مایند اشاره کرده بود که مدل‌هایی مانند Veo "ممکن است" بر روی بخشی از محتوای یوتیوب آموزش دیده باشند.

نحوه دسترسی و استفاده از قدرت Veo 3: فعلاً در انحصار مشترکین طرح پیشرفته AI Ultra گوگل مدل Veo 3 از روز سه‌شنبه (اشاره به تاریخ کنفرانس Google I/O 2025) در اپلیکیشن چت‌بات Gemini گوگل برای مشترکین طرح AI Ultra (که هزینه آن ۲۴۹.۹۹ دلار در ماه است) در دسترس قرار گرفته است. کاربران می‌توانند با استفاده از پرامپت‌های متنی یا حتی با ارائه یک تصویر، از Veo 3 برای تولید ویدیوهای صدادار استفاده کنند.

Flow: ابزار فیلم‌سازی نسل جدید و خلاقانه گوگل، قدرت‌گرفته از سه‌گانه قدرتمند Veo، Imagen و Gemini

همزمان با معرفی قابلیت‌های صوتی Veo 3، گوگل از Flow، یک ابزار فیلم‌سازی کاملاً جدید مبتنی بر هوش مصنوعی نیز رونمایی کرد. Flow که به عنوان تکامل یافته پروژه آزمایشی VideoFX گوگل لبز شناخته می‌شود، با هدف توانمندسازی فیلم‌سازان و خالقان محتوا برای کاوش ایده‌هایشان بدون مرز و خلق صحنه‌ها و کلیپ‌های سینمایی طراحی شده است.

Flow چیست؟ فراتر از یک ابزار، یک پلتفرم خلاقیت برای فیلم‌ سازان و داستان‌ سرایان عصر هوش مصنوعی بر اساس توضیحات منتشر شده در وبلاگ رسمی گوگل، Flow با الهام از لحظاتی که زمان کند می‌شود و فرآیند خلق، بدون زحمت، تکرارشونده و سرشار از امکانات است، طراحی شده. این ابزار به طور خاص برای کار با پیشرفته‌ترین مدل‌های گوگل یعنی Veo (به ویژه Veo 3 برای خروجی‌های سینمایی با پایبندی بالا به پرامپت و واقع‌گرایی فیزیکی)، Imagen (برای تولید تصاویر و "مواد اولیه" بصری از روی متن) و Gemini (برای درک پرامپت‌های شهودی و به زبان روزمره) سفارشی‌سازی شده است.

مدل‌ های سه‌گانه و قدرتمند در قلب تپنده Flow: همکاری بی‌ نظیر Veo، Imagen و Gemini برای خلق جادو قدرت واقعی Flow در ترکیب و هماهنگی این سه مدل پیشرفته نهفته است:

Veo: مسئول تولید هسته ویدیویی با کیفیت سینمایی و اکنون با قابلیت تولید صدای بومی.

Imagen: به کاربران امکان می‌دهد تا "مواد اولیه" (ingredients) خود مانند شخصیت‌ها یا اشیاء خاص را از طریق دستورات متنی تولید کنند یا دارایی‌های بصری خود را وارد سیستم نمایند.

Gemini: به عنوان موتور درک زبان طبیعی عمل کرده و به کاربران اجازه می‌دهد تا دیدگاه و ایده خود را به زبان ساده و روزمره توصیف کنند و Flow آن را به پرامپت‌های قابل فهم برای سایر مدل‌ها تبدیل نماید.

ویژگی‌های کلیدی و منحصر به‌ فرد Flow برای آزادسازی پتانسیل خلاقیت در داستان‌ سرایی دیجیتال: گوگل مجموعه‌ای از ویژگی‌های حرفه‌ای را در Flow گنجانده است که هم برای متخصصان و هم برای تازه‌کاران مفید خواهد بود:

کنترل‌ های پیشرفته دوربین (Camera Controls): امکان کنترل مستقیم بر حرکت دوربین، زوایا و پرسپکتیوها برای دستیابی به شات مورد نظر.

ابزار Scenebuilder (صحنه‌ ساز): قابلیت ویرایش و گسترش یکپارچه شات‌های موجود، نمایش بیشتر از صحنه یا انتقال به اتفاقات بعدی با حرکت پیوسته و حفظ ثبات شخصیت‌ها.

مدیریت دارایی‌ ها (Asset Management): سازماندهی و مدیریت آسان تمام "مواد اولیه" (شخصیت‌ها، صحنه‌ها) و پرامپت‌های استفاده شده.

Flow TV: یک ویترین همواره در حال رشد از کلیپ‌ها، کانال‌ها و محتوای تولید شده با Veo که به عنوان منبع الهام و یادگیری عمل می‌کند. کاربران می‌توانند پرامپت‌ها و تکنیک‌های دقیق استفاده شده برای کلیپ‌های مورد علاقه خود را مشاهده کرده و از آن‌ها برای تطبیق و یادگیری سبک‌های جدید استفاده کنند.

نحوه دسترسی به پلتفرم Flow و سطوح مختلف اشتراک (Google AI Pro و Google AI Ultra) Flow از امروز (اشاره به تاریخ معرفی) برای مشترکین طرح‌های Google AI Pro و Google AI Ultra در ایالات متحده در دسترس قرار گرفته و به زودی در کشورهای بیشتری عرضه خواهد شد.

Google AI Pro: شامل ویژگی‌های کلیدی Flow و امکان تولید ۱۰۰ ویدیو (generation) در ماه.

Google AI Ultra: ارائه بالاترین محدودیت‌های استفاده و دسترسی زودهنگام به Veo 3 با قابلیت تولید صدای بومی، که صداهای محیطی و دیالوگ شخصیت‌ها را مستقیماً وارد فرآیند ساخت ویدیو می‌کند.

پیامدهای معرفی Veo 3 و Flow: از فرصت‌های بی‌نظیر و هیجان‌انگیز تا نگرانی‌های جدی هنرمندان و صنعتگران

معرفی ابزارهای قدرتمندی مانند Veo 3 و Flow، همانند هر فناوری تحول‌آفرین دیگری، هم فرصت‌های جدیدی ایجاد می‌کند و هم نگرانی‌هایی را به همراه دارد.

دموکراتیزه کردن هنر فیلم‌ سازی و توانمندسازی موج جدیدی از خالقان محتوا و داستان‌ سرایان مستقل این ابزارها پتانسیل آن را دارند که فرآیند پیچیده و پرهزینه فیلم‌سازی را برای افراد بیشتری دسترس‌ پذیر کنند و به موج جدیدی از فیلم‌سازان و داستان‌سرایان مستقل، به ویژه آن‌هایی که با محدودیت بودجه یا منابع فنی مواجه هستند، امکان دهند تا ایده‌های خود را به تصویر بکشند.

همکاری نزدیک گوگل با فیلم‌ سازان برجسته در فرآیند توسعه پلتفرم Flow گوگل با ارائه دسترسی زودهنگام به Flow برای فیلم‌سازان منتخب (مانند Dave Clark که با استفاده از هوش مصنوعی گوگل و سایر ابزارها، فیلم کوتاه "Freelancers" را ساخته است)، توانسته است بازخوردهای ارزشمندی دریافت کرده و بینش آن‌ها را در طراحی و بهبود Flow ادغام کند تا این ابزار به بهترین شکل با گردش کار خلاقانه آن‌ها سازگار شود.

نگرانی‌های عمیق و قابل درک جامعه هنری: تاثیر شگرف هوش مصنوعی بر مشاغل صنعت فیلم، تلویزیون و انیمیشن با وجود پتانسیل‌های خلاقانه، بسیاری از هنرمندان و متخصصان صنعت فیلم و انیمیشن به طور قابل درکی نگران تأثیر این ابزارها بر امنیت شغلی خود هستند. یک مطالعه در سال ۲۰۲۴ که به سفارش اتحادیه انیمیشن‌سازان هالیوود انجام شده، تخمین می‌زند که تا سال ۲۰۲۶، بیش از ۱۰۰,۰۰۰ شغل در صنعت فیلم، تلویزیون و انیمیشن ایالات متحده تحت تأثیر هوش مصنوعی قرار خواهند گرفت. این نگرانی‌ها نیازمند گفتگوهای جدی و یافتن راه‌حل‌هایی برای تطبیق صنایع خلاق با عصر هوش مصنوعی است.

تلاش برای مقابله با دیپ‌ فیک و اطلاعات نادرست: استفاده از فناوری SynthID برای واترمارکینگ نامرئی ویدیوها گوگل دیپ‌مایند برای کاهش خطر استفاده نادرست از این فناوری و تولید دیپ‌فیک‌ها، اعلام کرده است که از فناوری واترمارکینگ اختصاصی خود به نام SynthID برای جاسازی نشانگرهای نامرئی در فریم‌های تولید شده توسط Veo 3 استفاده می‌کند.

Veo 3 در برابر رقبای قدرتمند: آیا قابلیت تولید صدا، تمایز کافی و برگ برنده گوگل خواهد بود؟

بازار ابزارهای تولید ویدیو با هوش مصنوعی به سرعت در حال اشباع شدن است. استارتاپ‌هایی مانند Runway، Lightricks، Genmo، Pika، Higgsfield، Kling و Luma، و همچنین غول‌های فناوری دیگری چون OpenAI (با مدل Sora) و Alibaba، همگی با سرعت زیادی در حال عرضه مدل‌های جدید هستند و در بسیاری از موارد، تمایز بین این مدل‌ها اندک است. قابلیت منحصربه‌فرد تولید صدای همگام‌سازی شده و بومی توسط Veo 3، اگر گوگل بتواند به وعده‌های خود عمل کند، می‌تواند یک تمایز بزرگ و یک مزیت رقابتی قابل توجه برای این شرکت ایجاد نماید.

Veo 3 و Flow گوگل، آغازگر عصری نوین در سینمای هوشمند و داستان‌سرایی بدون مرز

رونمایی گوگل از هوش مصنوعی Veo 3 با قابلیت تولید صدای یکپارچه و ابزار فیلم‌سازی Flow، بدون شک یکی از مهم‌ترین و هیجان‌انگیزترین اخبار کنفرانس Google I/O 2025 بود. "پایان دوران فیلم‌های صامت AI" که توسط دمیس حسابیس اعلام شد، نویدبخش گشوده شدن درهای جدیدی به روی خلاقیت و داستان‌سرایی است. این ابزارها، با تمام فرصت‌ها و چالش‌هایی که به همراه دارند (از جمله مسائل اخلاقی و تأثیر بر مشاغل)، پتانسیل ایجاد یک انقلاب واقعی در نحوه تولید و تجربه محتوای ویدیویی را دارند. باید منتظر ماند و دید که چگونه جامعه خالقان محتوا و فیلم‌سازان از این ابزارهای قدرتمند استقبال کرده و چگونه گوگل به توسعه و بهبود مسئولانه آن‌ها ادامه خواهد داد. اما یک چیز مسلم است: آینده تولید محتوای چندرسانه‌ای به طور جدایی‌ناپذیری با هوش مصنوعی گره خورده است و Veo 3 و Flow، طلایه‌داران این مسیر هیجان‌انگیز هستند.

کلمات کلیدی: گوگل Veo 3، ساخت ویدیو با هوش مصنوعی، ابزار فیلمسازی Flow، تولید صدا با AI، هوش مصنوعی گوگل، Google I/O 2025، دمیس حسابیس، دیپ‌مایند، Imagen، Gemini، VideoFX، SynthID، فیلمسازی با AI، جلوه‌ های صوتی هوش مصنوعی، تولید محتوای ویدیویی، های ورت، اخبار تکنولوژی، آینده فیلمسازی، ویرایش ویدیو با AI، هوش مصنوعی مولد.

مطالب مرتبط

در این مقاله جامع، بهترین و ساده‌ ترین روش‌ های ساخت کاردستی با مواد دور ریختنی پوست گردو را برای کودکان و بزرگسالان بیاموزید.

بهترین ایده‌ ها برای ساخت کاردستی با پوست گردو | خلاقانه و ساده

با هوش مصنوعی Qwen-Image-Edit، رقیب جدید فتوشاپ آشنا شوید. این ابزار متن را در تصاویر بی‌ نقص ویرایش کرده و اشیاء را هوشمندانه حذف میکند.

معرفی Qwen-Image-Edit: رقیب هوشمند فتوشاپ برای ویرایش عکس و متن!

لوگوی هوش مصنوعی Deepseek V3.1؛ مدل زبانی بزرگ و متن‌ باز جدید که رقیب جدی GPT و Llama محسوب میشود | های ورت.

معرفی DeepSeek-V3.1: هوش مصنوعی که برای «عمل کردن» ساخته شده است!

کودکی که با خوشحالی در حال بازی با یک عروسک هوش مصنوعی پیشرفته است؛ آیا این ربات‌ ها دوستان خوبی هستند؟ | های ورت.

عروسک های هوش مصنوعی: دوست جدید کودکان یا جایگزین خطرناک والدین؟