هوش مصنوعی گوگل veo 3 معرفی شد، با قابلیت افزودن صدا به ویدیو
با هوش مصنوعی Veo 3 گوگل و قابلیت تولید همزمان ویدیو و صدا، و ابزار فیلم سازی Flow آشنا شوید. نوآوری های Google I/O 2025 برای آینده تولید محتوا، همین الان در های ورت (hiwert.com) بخوانید.

انقلاب در سینمای هوشمند: رونمایی از Veo 3 گوگل با قابلیت تولید همزمان ویدیو و صدا، و ابزار فیلمسازی Flow!
پایان عصر "فیلمهای صامت" در هوش مصنوعی و طلوع سینمای تمامعیار با گوگل!
دنیای تولید محتوای ویدیویی با هوش مصنوعی (AI) در آستانه یک تحول شگرف و بنیادین قرار گرفته است. گوگل، به عنوان یکی از پیشگامان بیرقیب در عرصه هوش مصنوعی، در کنفرانس توسعهدهندگان Google I/O 2025، از جدیدترین دستاوردهای خود در این زمینه پردهبرداری کرد که میتواند قواعد بازی را برای همیشه تغییر دهد. هوش مصنوعی Veo 3، جدیدترین مدل تولید ویدیوی این شرکت، نه تنها کیفیت بصری خیرهکنندهای ارائه میدهد، بلکه برای اولین بار، قابلیت تولید همزمان صدا (شامل افکت های صوتی، موسیقی پسزمینه و حتی دیالوگ) را به طور بومی و یکپارچه با ویدیو فراهم میکند. به قول دمیس حسابیس، مدیرعامل گوگل دیپمایند: "برای اولین بار، ما از دوران صامت تولید ویدیو با هوش مصنوعی خارج میشویم." همزمان با این پیشرفت خیرهکننده، گوگل از ابزار فیلمسازی جدیدی به نام Flow نیز رونمایی کرد؛
پلتفرمی قدرتمند که با بهرهگیری از مدلهای پیشرفته Veo، Imagen و Gemini، به فیلمسازان و خالقان محتوا امکان میدهد تا ایدههای خود را بدون محدودیت کاوش کرده و صحنهها و کلیپهای سینمایی خلق کنند. در این مقاله جامع از هایورت (hiwert.com)، به بررسی عمیق این دو نوآوری انقلابی میپردازیم، با ویژگیهای فنی، قابلیتهای شگفتانگیز، نحوه دسترسی و پیامدهای بالقوه آنها برای آینده فیلمسازی، تولید محتوا و صنایع خلاق آشنا میشویم.
Veo 3 گوگل: جهشی کوانتومی در تولید ویدیو با هوش مصنوعی و ورود شکوهمند به عصر ویدیوی صدادار و پویا
Veo 3، جدیدترین نسل از مدلهای تولید ویدیوی گوگل، چیزی فراتر از یک بهروزرسانی ساده نسبت به نسل قبلی خود، یعنی Veo 2، محسوب میشود. این مدل، با قابلیتهای جدید و بهبودیافته خود، تعریف جدیدی از آنچه هوش مصنوعی میتواند در عرصه ویدیو انجام دهد، ارائه میدهد.
-
Veo 3 چیست؟ فراتر از یک مدل تولید ویدیوی ساده، یک خالق چندرسانه ای هوشمند Veo 3 یک مدل هوش مصنوعی مولد پیشرفته است که توسط گوگل دیپمایند (Google DeepMind)، بازوی تحقیقاتی هوش مصنوعی گوگل، توسعه یافته است. این مدل نه تنها در زمینه کیفیت بصری و پایبندی به پرامپتهای متنی نسبت به Veo 2 پیشرفت قابل توجهی داشته، بلکه با یک قابلیت انقلابی، خود را از سایر رقبا متمایز کرده است: تولید بومی و همزمان صدا برای ویدیوهای خلق شده.
-
قابلیت انقلابی و منحصر به فرد: تولید همزمان ویدیو و صدا (شامل افکت های صوتی، موسیقی پس زمینه و حتی دیالوگ!) به گفته دمیس حسابیس در نشست خبری، کاربران اکنون میتوانند به Veo 3 پرامپتی را ارائه دهند که نه تنها شخصیتها و محیط را توصیف میکند، بلکه شامل پیشنهاد دیالوگ و حتی توصیف نحوه بیان و صدای مورد نظر نیز میشود. Veo 3 قادر است افکتهای صوتی مرتبط با صحنه (مانند صدای باد، باران یا محیط شهری)، موسیقی پسزمینه مناسب و حتی دیالوگهای شخصیتها را با لحن و احساسات توصیفشده، به طور خودکار و هماهنگ با تصویر تولید کند. این قابلیت، به معنای واقعی کلمه، "پایان دوران فیلمهای صامت AI" است و به ویدیوهای تولید شده توسط هوش مصنوعی، عمق و واقعگرایی بیسابقهای میبخشد.
-
علم شگفتانگیز پشت این جادو: درک عمیق پیکسلها و همگامسازی خودکار و هوشمندانه صدا با تصویر آنچه Veo 3 را در زمینه تولید صدا منحصربهفرد میکند، توانایی آن در درک پیکسلهای خام ویدیوی تولیدی خود و همگامسازی خودکار صداهای تولید شده با کلیپها است. این قابلیت احتمالاً بر پایه تحقیقات پیشین گوگل دیپمایند در زمینه "تبدیل ویدیو به صدا" (video-to-audio AI) بنا شده است. در ژوئن گذشته، دیپمایند اعلام کرده بود که در حال توسعه فناوری هوش مصنوعی برای تولید موسیقی متن برای ویدیوها از طریق آموزش مدلی بر روی ترکیبی از صداها، متن دیالوگها و کلیپهای ویدیویی است.
-
داده های آموزشی Veo 3: نقش احتمالی و استراتژیک پلتفرم یوتیوب اگرچه گوگل دیپمایند به طور دقیق منبع دادههای آموزشی Veo 3 را اعلام نکرده است، اما به نقل از TechCrunch (یا منبع خبری مشابهی که این اطلاعات را پوشش داده)، یوتیوب به عنوان یکی از بزرگترین مخازن ویدیویی جهان و متعلق به گوگل، یک منبع بسیار محتمل برای آموزش این مدل پیشرفته است. پیشتر نیز دیپمایند اشاره کرده بود که مدلهایی مانند Veo "ممکن است" بر روی بخشی از محتوای یوتیوب آموزش دیده باشند.
-
نحوه دسترسی و استفاده از قدرت Veo 3: فعلاً در انحصار مشترکین طرح پیشرفته AI Ultra گوگل مدل Veo 3 از روز سهشنبه (اشاره به تاریخ کنفرانس Google I/O 2025) در اپلیکیشن چتبات Gemini گوگل برای مشترکین طرح AI Ultra (که هزینه آن ۲۴۹.۹۹ دلار در ماه است) در دسترس قرار گرفته است. کاربران میتوانند با استفاده از پرامپتهای متنی یا حتی با ارائه یک تصویر، از Veo 3 برای تولید ویدیوهای صدادار استفاده کنند.
Flow: ابزار فیلمسازی نسل جدید و خلاقانه گوگل، قدرتگرفته از سهگانه قدرتمند Veo، Imagen و Gemini
همزمان با معرفی قابلیتهای صوتی Veo 3، گوگل از Flow، یک ابزار فیلمسازی کاملاً جدید مبتنی بر هوش مصنوعی نیز رونمایی کرد. Flow که به عنوان تکامل یافته پروژه آزمایشی VideoFX گوگل لبز شناخته میشود، با هدف توانمندسازی فیلمسازان و خالقان محتوا برای کاوش ایدههایشان بدون مرز و خلق صحنهها و کلیپهای سینمایی طراحی شده است.
-
Flow چیست؟ فراتر از یک ابزار، یک پلتفرم خلاقیت برای فیلم سازان و داستان سرایان عصر هوش مصنوعی بر اساس توضیحات منتشر شده در وبلاگ رسمی گوگل، Flow با الهام از لحظاتی که زمان کند میشود و فرآیند خلق، بدون زحمت، تکرارشونده و سرشار از امکانات است، طراحی شده. این ابزار به طور خاص برای کار با پیشرفتهترین مدلهای گوگل یعنی Veo (به ویژه Veo 3 برای خروجیهای سینمایی با پایبندی بالا به پرامپت و واقعگرایی فیزیکی)، Imagen (برای تولید تصاویر و "مواد اولیه" بصری از روی متن) و Gemini (برای درک پرامپتهای شهودی و به زبان روزمره) سفارشیسازی شده است.
-
مدل های سهگانه و قدرتمند در قلب تپنده Flow: همکاری بی نظیر Veo، Imagen و Gemini برای خلق جادو قدرت واقعی Flow در ترکیب و هماهنگی این سه مدل پیشرفته نهفته است:
Veo: مسئول تولید هسته ویدیویی با کیفیت سینمایی و اکنون با قابلیت تولید صدای بومی.
Imagen: به کاربران امکان میدهد تا "مواد اولیه" (ingredients) خود مانند شخصیتها یا اشیاء خاص را از طریق دستورات متنی تولید کنند یا داراییهای بصری خود را وارد سیستم نمایند.
Gemini: به عنوان موتور درک زبان طبیعی عمل کرده و به کاربران اجازه میدهد تا دیدگاه و ایده خود را به زبان ساده و روزمره توصیف کنند و Flow آن را به پرامپتهای قابل فهم برای سایر مدلها تبدیل نماید.
-
ویژگیهای کلیدی و منحصر به فرد Flow برای آزادسازی پتانسیل خلاقیت در داستان سرایی دیجیتال: گوگل مجموعهای از ویژگیهای حرفهای را در Flow گنجانده است که هم برای متخصصان و هم برای تازهکاران مفید خواهد بود:
کنترل های پیشرفته دوربین (Camera Controls): امکان کنترل مستقیم بر حرکت دوربین، زوایا و پرسپکتیوها برای دستیابی به شات مورد نظر.
ابزار Scenebuilder (صحنه ساز): قابلیت ویرایش و گسترش یکپارچه شاتهای موجود، نمایش بیشتر از صحنه یا انتقال به اتفاقات بعدی با حرکت پیوسته و حفظ ثبات شخصیتها.
مدیریت دارایی ها (Asset Management): سازماندهی و مدیریت آسان تمام "مواد اولیه" (شخصیتها، صحنهها) و پرامپتهای استفاده شده.
Flow TV: یک ویترین همواره در حال رشد از کلیپها، کانالها و محتوای تولید شده با Veo که به عنوان منبع الهام و یادگیری عمل میکند. کاربران میتوانند پرامپتها و تکنیکهای دقیق استفاده شده برای کلیپهای مورد علاقه خود را مشاهده کرده و از آنها برای تطبیق و یادگیری سبکهای جدید استفاده کنند.
-
نحوه دسترسی به پلتفرم Flow و سطوح مختلف اشتراک (Google AI Pro و Google AI Ultra) Flow از امروز (اشاره به تاریخ معرفی) برای مشترکین طرحهای Google AI Pro و Google AI Ultra در ایالات متحده در دسترس قرار گرفته و به زودی در کشورهای بیشتری عرضه خواهد شد.
Google AI Pro: شامل ویژگیهای کلیدی Flow و امکان تولید ۱۰۰ ویدیو (generation) در ماه.
Google AI Ultra: ارائه بالاترین محدودیتهای استفاده و دسترسی زودهنگام به Veo 3 با قابلیت تولید صدای بومی، که صداهای محیطی و دیالوگ شخصیتها را مستقیماً وارد فرآیند ساخت ویدیو میکند.
پیامدهای معرفی Veo 3 و Flow: از فرصتهای بینظیر و هیجانانگیز تا نگرانیهای جدی هنرمندان و صنعتگران
معرفی ابزارهای قدرتمندی مانند Veo 3 و Flow، همانند هر فناوری تحولآفرین دیگری، هم فرصتهای جدیدی ایجاد میکند و هم نگرانیهایی را به همراه دارد.
-
دموکراتیزه کردن هنر فیلم سازی و توانمندسازی موج جدیدی از خالقان محتوا و داستان سرایان مستقل این ابزارها پتانسیل آن را دارند که فرآیند پیچیده و پرهزینه فیلمسازی را برای افراد بیشتری دسترس پذیر کنند و به موج جدیدی از فیلمسازان و داستانسرایان مستقل، به ویژه آنهایی که با محدودیت بودجه یا منابع فنی مواجه هستند، امکان دهند تا ایدههای خود را به تصویر بکشند.
-
همکاری نزدیک گوگل با فیلم سازان برجسته در فرآیند توسعه پلتفرم Flow گوگل با ارائه دسترسی زودهنگام به Flow برای فیلمسازان منتخب (مانند Dave Clark که با استفاده از هوش مصنوعی گوگل و سایر ابزارها، فیلم کوتاه "Freelancers" را ساخته است)، توانسته است بازخوردهای ارزشمندی دریافت کرده و بینش آنها را در طراحی و بهبود Flow ادغام کند تا این ابزار به بهترین شکل با گردش کار خلاقانه آنها سازگار شود.
-
نگرانیهای عمیق و قابل درک جامعه هنری: تاثیر شگرف هوش مصنوعی بر مشاغل صنعت فیلم، تلویزیون و انیمیشن با وجود پتانسیلهای خلاقانه، بسیاری از هنرمندان و متخصصان صنعت فیلم و انیمیشن به طور قابل درکی نگران تأثیر این ابزارها بر امنیت شغلی خود هستند. یک مطالعه در سال ۲۰۲۴ که به سفارش اتحادیه انیمیشنسازان هالیوود انجام شده، تخمین میزند که تا سال ۲۰۲۶، بیش از ۱۰۰,۰۰۰ شغل در صنعت فیلم، تلویزیون و انیمیشن ایالات متحده تحت تأثیر هوش مصنوعی قرار خواهند گرفت. این نگرانیها نیازمند گفتگوهای جدی و یافتن راهحلهایی برای تطبیق صنایع خلاق با عصر هوش مصنوعی است.
-
تلاش برای مقابله با دیپ فیک و اطلاعات نادرست: استفاده از فناوری SynthID برای واترمارکینگ نامرئی ویدیوها گوگل دیپمایند برای کاهش خطر استفاده نادرست از این فناوری و تولید دیپفیکها، اعلام کرده است که از فناوری واترمارکینگ اختصاصی خود به نام SynthID برای جاسازی نشانگرهای نامرئی در فریمهای تولید شده توسط Veo 3 استفاده میکند.
Veo 3 در برابر رقبای قدرتمند: آیا قابلیت تولید صدا، تمایز کافی و برگ برنده گوگل خواهد بود؟
بازار ابزارهای تولید ویدیو با هوش مصنوعی به سرعت در حال اشباع شدن است. استارتاپهایی مانند Runway، Lightricks، Genmo، Pika، Higgsfield، Kling و Luma، و همچنین غولهای فناوری دیگری چون OpenAI (با مدل Sora) و Alibaba، همگی با سرعت زیادی در حال عرضه مدلهای جدید هستند و در بسیاری از موارد، تمایز بین این مدلها اندک است. قابلیت منحصربهفرد تولید صدای همگامسازی شده و بومی توسط Veo 3، اگر گوگل بتواند به وعدههای خود عمل کند، میتواند یک تمایز بزرگ و یک مزیت رقابتی قابل توجه برای این شرکت ایجاد نماید.
Veo 3 و Flow گوگل، آغازگر عصری نوین در سینمای هوشمند و داستانسرایی بدون مرز
رونمایی گوگل از هوش مصنوعی Veo 3 با قابلیت تولید صدای یکپارچه و ابزار فیلمسازی Flow، بدون شک یکی از مهمترین و هیجانانگیزترین اخبار کنفرانس Google I/O 2025 بود. "پایان دوران فیلمهای صامت AI" که توسط دمیس حسابیس اعلام شد، نویدبخش گشوده شدن درهای جدیدی به روی خلاقیت و داستانسرایی است. این ابزارها، با تمام فرصتها و چالشهایی که به همراه دارند (از جمله مسائل اخلاقی و تأثیر بر مشاغل)، پتانسیل ایجاد یک انقلاب واقعی در نحوه تولید و تجربه محتوای ویدیویی را دارند. باید منتظر ماند و دید که چگونه جامعه خالقان محتوا و فیلمسازان از این ابزارهای قدرتمند استقبال کرده و چگونه گوگل به توسعه و بهبود مسئولانه آنها ادامه خواهد داد. اما یک چیز مسلم است: آینده تولید محتوای چندرسانهای به طور جداییناپذیری با هوش مصنوعی گره خورده است و Veo 3 و Flow، طلایهداران این مسیر هیجانانگیز هستند.