ابزارهای تبدیل متن به ویدئو با هوش مصنوعی

پیشرفت‌های اخیر در حوزۀ هوش مصنوعی، ما را بیش از هر زمان دیگری به خلق تصاویر و ویدئوهای بسیار واقعی نزدیک کرده است. ظهور مدل‌های تبدیل متن به ویدئو (Text-to-video Models) مانند Sora، که قادرند با گرفتن دستورها (توضیحات متنی ساده)، ویدئوهای باکیفیت تولید کنند، یکی از دستاوردهای فوق‌العاده در این زمینه است.

هرچند ابزارهای تبدیل متن به ویدئو با هوش مصنوعی، پتانسیل بسیار بالایی برای صنایع مختلف دارند، اما تأثیر آن‌ها بر تبلیغاتی ویدئویی، به‌‌طرز ویژ‌ه‌ای قابل توجه است.

در این مطلب از وی‌پدیا، تأثیرات چندجانبۀ سامانه‌های هوش مصنوعی مانند Sora بر حوزۀ محتوای ویدئویی و ویدئو مارکتینگ را بررسی می‌کنیم و در آن به قابلیت‌های اتوماسیون (خودکارسازی)، چالش‌ها و فرصت‌هایی که این فناوری‌ها به وجود می‌آورند و همچنین مسائل اخلاقی مرتبط با آن‌ها می‌پردازیم.

ابزارهای تبدیل متن به ویدئو با هوش مصنوعی

تصور کنید برای خلق صحنۀ غرق‌شدن کشتی در فیلم تایتانیک (Titanic)، فقط کافی بود که جیمز کامرون (James Cameron) یک دستور کوتاه به هوش مصنوعی (AI) بدهد و ویدئوی دلخواهش را تحویل بگیرد. این اتفاق می‌توانست با صرفه‌جویی چندمیلیون دلاری در ساخت مخازن عظیم آب در استودیوی باجا (Baja)، روند تولید فیلم را به‌کلی دگرگون کند.

با ظهور مدل‌های تبدیل متن به ویدئو (Text-to-video Models)، مفهوم جدیدی از هوش مصنوعی در عرصۀ تولید محتوا ظهور کرده است. این فناوری مبتنی بر AI، قادر است براساس توضیحات متنی ساده، ویدئو تولید کند. مدل‌هایی مانند Pika 1.0 از شرکت Pika Lab و Sora از OpenAI که در فوریۀ ۲۰۲۴ ارائه شد، پیشگامان این حوزه به شمار می‌روند. درحالی‌که خروجی مدل‌های اولیه ابتدایی بود، اما واقع‌گرایی بالای Sora مرزهای تازه‌ای را در صنعت ویدئو مارکتینگ و تولید محتوای ویدئویی درنوردیده است.

این پیشرفت، حتی توجه سینماگران برجسته‌ای مانند تایلر پری (Tyler Perry) را به خود جلب کرد. وی فقط چند روز پس از انتشار Sora اعلام کرد که برنامۀ توسعۀ ۸۰۰میلیون‌دلاری استودیوی خود در آتلانتا را به‌طور نامحدود متوقف کرده است. این امر نشان از تأثیر بالقوۀ هوش مصنوعی بر رویکردهای سنتی ویدئو مارکتینگ دارد.

ابزار تبدیل متن به ویدئو Sora چیست؟

شرکت OpenAI به‌تازگی یک سامانۀ هوش مصنوعی بزرگ‌مقیاس به نام Sora ساخته است که می‌تواند با دریافت توضیحات متنی‌ ساده، ویدئوهای کوتاه (تا یک دقیقه) و باکیفیتی بسازد؛ بدان معنا که شما یک دستور یا پرامپت متنی (Text Prompt) می‌نویسید و Sora ویدئویی می‌سازد که با درخواست شما مطابقت دارد. در ادامه، یک مثال از سایت OpenAI می‌آوریم تا موضوع روشن‌تر شود.

پرامپت: زن شیک‌پوشی با کت چرم مشکی، لباس بلند قرمز و چکمه‌های مشکی در یکی از خیابان‌های توکیو قدم می‌زند. خیابان پر از نورهای نئون درخشان و تابلوهای تبلیغاتی متحرک است. زن یک کیف دستی مشکی حمل می‌کند، عینک آفتابی به چشم دارد و رژ لب قرمز زده است. او با اعتمادبه‌نفس و معمولی راه می‌رود. خیابان خیس است و انعکاس نورهای رنگارنگ، جلوه‌ای آینه‌مانند ایجاد کرده است. عابران زیادی در حال رفت‌وآمدند.

ویدئوی تولیدشده توسط Sora براساس پرامپت بالا را از اینجا تماشا کنید.

Sora با استفاده از شبکه‌های عصبی پیچیده (Diffusion Transformer Architecture) توانایی‌های متنوعی در شبیه‌سازی ویدئو (Video Simulation) به دست آورده است که می‌تواند تأثیر عمیقی بر صنعت سرگرمی و تولید ویدئو بگذارد.

هوش مصنوعی Sora قادر است ویدئوهای گوناگونی با سبک‌ها، مدت‌زمان، نسبت ابعاد و رزولوشن‌های مختلف بسازد. همچنین، ویدئوهای موجود را ویرایش کند، افزایش زمان بدهد و حتی چند ویدئو را با هم ترکیب کند.

گفتنی است که Sora توانایی‌های پیشرفته‌ای در شبیه‌سازی ازجمله سازگاری سه‌بعدی (3D Consistency) و انسجام دوربرد (Long-range Coherence) را به نمایش می‌گذارد که نشان‌دهندۀ استاندارد جدیدی برای دستاوردهای هوش مصنوعی در حوزۀ تولید ویدئو است.

سامانۀ تبدیل متن به ویدئو با هوش مصنوعی سورامزایای ابزارهای تبدیل متن به ویدئو برای صنعت ویدئو مارکتینگ

ابزارهای تبدیل متن به ویدئو مانند Sora، مزایای زیادی برای افراد خلاق در رشته‌های مختلف دارند. این مدل‌ها با امکان تولید سریع نمونه‌های اولیه (پروتوتایپ)، به طراحان و انیماتورها اجازه می‌دهند تا به‌سرعت، با هزینۀ پایین و با کارایی بالا، نسخه‌های مختلف صحنه‌ها را امتحان کنند.

همچنین، محتوای تولیدشده توسط هوش مصنوعی، طیف وسیع‌تری از نگاه‌ها و سبک‌ها را ارائه می‌کند و دامنۀ احتمالات داستان‌گویی را گسترش می‌دهد. این امر، زمینه‌ای را برای همکاری بین انسان و ماشین فراهم می‌کند، به‌نحوی که هریک با نقاط قوت منحصربه‌خود در این فرایند سهیم باشند.

محدودیت‌های ابزارهای تبدیل متن به ویدئو برای صنعت ویدئو مارکتینگ

با وجود پیشرفت‌هایی که ابزارهای هوش مصنوعی داشته‌اند، اما همچنان در برخی زمینه‌ها با ضعف‌هایی روبه‌رو هستند. از جمله:

  • این ابزار هوش مصنوعی، درک دقیقی از فیزیک ندارد، به همین دلیل ممکن است همیشه به قوانین فیزیکی «دنیای واقعی» پایبند نباشد. یک نمونه از این موارد، درک‌نکردن روابط علت و معلولی و ناتوانی در شبیه‌سازی دقیق این روابط است. برای مثال، در ویدئوی انفجار روی یک حلقۀ بسکتبال، تور بعد از آتش‌‌گرفتن حلقه، همچنان سالم به نظر می‌رسد.
  • در حفظ انسجام حرکت اشیا در مسیرهای طولانی ضعیف عمل می‌کنند.
  • در برخی خروجی‌ها همچنان نویزهای تصویری دیده می‌شود.

این بدان معناست که محتوای تولیدشده توسط هوش مصنوعی، اگرچه می‌تواند در روایت داستان و تکنیک‌های بصری قابلیت‌های ارزشمندی ارائه دهد، اما هنوز نمی‌تواند با ظرافت و جزئیات آثار خلق‌شدۀ انسان برابری کند. بااین‌حال، با پیشرفت هوش مصنوعی، به احتمال زیاد این مشکلات به‌تدریج کاهش خواهد یافت.

چالش‌های ابزارهای هوش مصنوعی تبدیل متن به ویدئو

عرضۀ هوش مصنوعی رقابت در زمینۀ تولید ویدئو با هوش مصنوعی را سرعت بخشیده است. حالا غول‌های فناوری مانند گوگل، متا و… نیز روی سیستم‌های مشابه کار می‌کنند. این پیشرفت سریع، نشان‌دهندۀ تحول در ابزارهای خلاقانۀ هوش مصنوعی برای تولید محتوای ویدئویی است.

البته، استفاده از ابزارهای تبدیل متن به ویدئو چالش‌هایی نیز دارد؛ ازجمله:

  • نگرانی‌هایی درمورد سوء‌استفادۀ احتمالی و تولید محتوای جعلی مانند دیپ‌فیک (Deepfake) برای تبلیغات وجود دارد.
  • نبود رضایت در مجموعه داده‌های آموزشی نیز یک نگرانی بزرگ است. داده‌های آموزشی هوش مصنوعی، مجموعه‌ای از داده‌ها هستند که برای آموزش مدل‌های هوش مصنوعی به کار می‌روند. این داده‌ها می‌توانند شامل متن، تصویر، ویدئو، صدا و یا هر نوع دادۀ دیگری باشند.
  • دقت و اصالت محتوای تولیدشده، چالش دیگری است که ابزارهای تبدیل متن به ویدئوی هوش مصنوعی با آن مواجه‌اند.
  • مسائل مربوط به حق تکثیر و مالکیت فکری همچنان حل نشده‌اند که در صورت رسیدگی‌نشدن، می‌توانند نوآوری‌های آینده را به‌شدت محدود کنند.
  • نگرانی‌های منطقی‌ای نیز دربارۀ خودکارسازی مشاغل در برخی حوزه‌های سینما مانند لوکیشن‌یابی، طراحی، تولید و بازیگری وجود دارد. پس، حتی اگر این ابزار باعث افزایش کارایی شود، می‌تواند بر معیشت افراد تأثیر منفی بگذارد.

از میان موارد بالا، شاید مهم‌ترین چالش‌، نگرانی از بیکاری است. برخی افراد نگران هستند که ابزارهای اتوماسیون با قابلیت تولید آثار باکیفیت، جای هنرمندان را بگیرند.

آیا فعالان حوزۀ تولید محتوای ویدئویی باید نگران باشند؟

همان‌طور که گفتیم، تایلر پری (Tyler Perry)، کارگردان مشهور هالیوود، پس از انتشار نمونه‌ کارهای هوش مصنوعی Sora، در مصاحبه‌ای با نشریۀ معتبر «هالیوود ریپورتر» (Hollywood Reporter) اعلام کرد که برنامۀ چندسالۀ توسعۀ استودیوی خود در آتلانتا را به‌طور نامحدود متوقف کرده است.

آقای پری در این مصاحبه اعتراف کرد که اگرچه در سال ۲۰۲۳ خبرهایی دربارۀ چنین فناوری‌هایی شنیده بود، اما هرگز تصور نمی‌کرد تا این حد پیشرفته باشند. او گفت:

«برای ساخت صحنه‌ای روی کرۀ ماه، کافی است متنی بنویسم و این هوش مصنوعی می‌تواند آن را به‌شکلی باورنکردنی بسازد. دیگر به ساختن دکورهای عظیم در استودیو نیازی نیست. می‌توانم در دفترم بنشینم و با یک کامپیوتر این کار را انجام دهم، که برایم تکان‌دهنده است.»

البته آقای پری با هوش مصنوعی چندان هم غریبه نیست. او پیش از این، از فناوری AI برای صرفه‌جویی در زمان گریم بازیگران در دو فیلمش استفاده کرده است؛ بااین‌حال، معتقد است صرفه‌جویی در زمان گریم بازیگران، در مقابل تحول کامل فرایندهای چندمیلیون‌دلاری ویدئو مارکتینگ، به‌ویژه در طراحی صحنه، ناچیز است.

او تأکید می‌کند که با وجود مزیت‌های فراوان این فناوری، نگرانی‌های جدی‌ای دربارۀ بسیاری از مشاغل این صنعت وجود دارد. به‌ویژه به این دلیل که «اگر کسی بتواند با هزینه‌ای بسیار کمتر، یک پروژۀ آزمایشی بسازد که قبلاً ۱۵ تا ۲۰میلیون دلار هزینه داشت، قطعاً شرکت‌ها تمایل پیدا می‌کنند به سراغ گزینه‌های کم‌هزینه‌تر بروند.»

پری معتقد است که اگر کل فعالان صنعت تولید محتوای ویدئویی به‌طور متحد با این موضوع برخورد کند، شاید بتوان از آیندۀ این صنعت در برابر خطرات هوش مصنوعی محافظت کرد.

بحث داغ ابزارهای تبدیل متن به ویدئو: فرصتی جدید یا تهدیدی قریب‌الوقوع؟

پیش از انتشار ابزارهای هوش مصنوعی تبدیل متن به ویدئو مانند Sora، مطالعه‌ای درمورد تأثیر هوش مصنوعی مولد (GenAI) بر مشاغل مرتبط با تولید ویدئو انجام شد. این مطالعه نشان داد:

  • ۹۰% از ۳۰۰ رهبر کسب‌وکار مورد بررسی در این مطالعه معتقدند که GenAI در آینده نقش پررنگ‌تری در این صنعت ایفا خواهد کرد.
  • علاوه‌براین، مشخص شد که ۷۲% از این کسب‌وکارهای خلاق، در حال حاضر هم از برنامه‌های GenAI در فرایندهای خود استفاده می‌کنند که این امر پتانسیل بالای جابه‌جایی مشاغل به دلیل GenAI را نشان می‌دهد.

کاربرد این فناوری در تمام سطوح چرخۀ تولید ویدئو، به بحث‌های داغی بین مدیران و افراد خلاق در این صنعت منجر شده است.

در سال ۲۰۲۳، انجمن نویسندگان آمریکا (WGA) به‌مدت ۱۴۸ روز در اعتراض به دستمزد پایین برای کارهای باکیفیت و نگرانی از برون‌سپاری این کارها به هوش مصنوعی توسط استودیوها، دست به اعتصاب زد. خواستۀ آن‌ها برای پایان‌دادن به اعتصاب، کنترل بیشتر روی نحوۀ استفادۀ استودیوها از هوش مصنوعی بود.

اعضای انجمن بازیگران سینما و فدراسیون هنرمندان تلویزیون و رادیو آمریکا (SAG-AFTRA) نیز به دلایل مشابه به این اعتصاب پیوستند. نگرانی آن‌ها مربوط به فناوری موجود برای اسکن و شبیه‌سازی هنرمندان و استفاده از آن بدون رضایت و پرداخت غرامت به آن‌ها بود.

اکنون با ظهور فناوری‌هایی این چنین، این سؤال مطرح می‌شود که هوش مصنوعی برای کمک به این صنعت آمده است یا جایگزین انسان‌ها خواهد شد؟

پل تریلو (Paul Trillo)، هنرمند، نویسنده و کارگردان که به دلیل بهره‌گیری از هوش مصنوعی در ویدئو مارکتینگ محبوبیت دارد، نگرانی خود را در مقاله‌ای در یاهو این‌گونه بیان می‌کند: «این اولین بار است که احساس می‌کنم زمین زیر پایم سست شده است، درست مثل اتفاقی که چند سال پیش برای تصویرگران رخ داد. این موضوع، نگران‌کننده است.»

جاستین بیتمن (Justine Bateman)، فیلم‌ساز، در طول اعتصابات، از خطر هوش مصنوعی با عبارت «تهدیدی برای بقا» یاد کرد؛ تهدیدی که می‌تواند به جایگزینی انسان‌ها توسط هوش مصنوعی برای کپی‌برداری و بازتولید «نسخه‌های جعلی آثار ایشان» منجر شود.

بله، ویدئوهایی که با ابزار هوش مصنوعی تولید می‌شوند، واضح و واقعی هستند؛ بنابراین نمی‌توان نسبت به این فناوری‌ها بی‌تفاوت بود. بااین‌حال، به نظر می‌رسد اجماع بر این است که هوش مصنوعی، هرچقدر هم که چشمگیر باشد، هرگز جایگزین خلاقیت و ظرافت انسانی در ساخت فیلم‌های مورد علاقۀ ما نخواهد شد.

بیندو ردی (Bindu Reddy)، مدیرعامل و هم‌بنیان‌گذار شرکت هوش مصنوعی اباکوس (Abacus.AI) بر این باور است که این فناوری به تولید محتواهای ویدئویی مانند فیلم و بازی‌های ویدئویی بهتر کمک خواهد کرد. او همچنین تردید دارد که این تکنولوژی تأثیری روی مشاغل بگذارد.

او در شبکۀ اجتماعی ایکس (توییتر سابق) نوشت: «هوش مصنوعی جایگزین فیلم‌های سینمایی نخواهد شد. بله، می‌توان از آن برای ساخت تیزرهای تبلیغاتی یا ویدئوهای کوتاه استفاده کرد، اما من گمان می‌کنم دستیابی به خروجی دقیقاً مطابق با نظر شما، دشوار خواهد بود.»

تد ساراندوس (Ted Sarandos)، مدیرعامل نتفلیکس (Netflix) هم نظر مشابهی دارد. او می‌گوید: «شاید هوش مصنوعی ‌بتواند چیزهایی را تکرار یا تقلید کند، اما اصالت و واقعی‌بودن تجربۀ انسانی چیزی است که مردم آن را درک می‌کنند و می‌توانند تشخیص دهند که چه چیزی واقعی و چه چیزی غیرواقعی است.» او تأکید می‌کند که برای تجربۀ انسانی هیچ میانبر و جایگزینی وجود ندارد.

خطر ابزارهای تبدیل متن به ویدئو برای صنعت استوک فوتیج

علاوه بر نگرانی‌هایی که درمورد تأثیر هوش مصنوعی بر تولید فیلم وجود دارد، نگرانی بیشتری برای صنعت استوک فوتیج (Stock Footage) وجود دارد.

استوک فوتیج که به آن ویدئو یا عکس آماده نیز گفته می‌شود، کلیپ‌های کوتاه یا تصاویر ثابتی هستند که توسط فیلم‌برداران و عکاسان حرفه‌ای تهیه می‌شوند و به‌صورت مجوزدار در دسترس عموم قرار می‌گیرند.

شما می‌توانید از استوک فوتیج برای پرکردن خلأهای موجود در ویدئوی خود، اضافه‌کردن تصاویر جذاب و یا نمایش‌دادن مکان‌هایی که فیلم‌برداری آن‌ها برایتان دشوار یا غیرممکن است استفاده کنید.

همکاری شرکت OpenAI با شاتر استوک (Shutterstock) در سال ۲۰۲۳ باعث شد هوش مصنوعی OpenAI به آرشیو عظیم ویدئوها و ابرداده‌های مرتبط با آن‌ها در شاتر استوک دسترسی یابد و با بهره‌گیری از آن آرشیو، مدل‌های خود را آموزش دهد.

این همکاری نشان می‌دهد که شرکت‌های قدیمی تولید و فروش محتوا با به‌روزرسانی سیستم‌های خود براساس فناوری‌های جدید می‌توانند همچنان در این عرصه باقی بمانند. از سوی دیگر، هوش مصنوعی هم هر روز در ساخت عکس و ویدئوهای متناسب با سلیقۀ کاربران بهتر می‌شود.

صنعت تولید ویدئو به کجا می‌رود؟

در پایان اعتصابات انجمن نویسندگان آمریکا (WGA) و انجمن بازیگران سینما و تلویزیون (SAG-AFTRA)، هر دو اتحادیه با اتحادیۀ تهیه‌کنندگان فیلم و تلویزیون (AMPTP) به توافقاتی دست یافتند که هوش مصنوعی را به‌طور کامل از فرایند تولید حذف نمی‌کرد. درعوض، به افراد خلاق کنترل بیشتری بر هنر خود و نحوۀ تولید آن می‌داد.

این توافقات نشان می‌دهد که هوش مصنوعی برای ماندن آمده است. اما همان‌طور که پری گفته است، هالیوود به هم‌سویی و اتحاد برای کمک به نجات و محافظت از افراد صنعت ویدئو مارکتینگ نیاز دارد.

شاید زمان زیادی طول بکشد تا هوش مصنوعی بتواند تصاویری به‌قدر کافی خوب برای فیلم‌ها بسازد، اما با توجه به سرعت باورنکردنی پیشرفت این فناوری، واقعاً نمی‌توان پیش‌بینی کرد که این اتفاق چه زمانی خواهد افتاد.

با اینکه بعید است هوش مصنوعی به‌زودی جایگزین کامل خلاقیت انسانی شود، اما قطعاً نحوۀ انجام کارهای خلاقانه را تغییر خواهد داد. از این پس، هنرمندان به‌جای تمرکز صرف بر محصول نهایی، باید بیاموزند که چگونه با سیستم‌های هوش مصنوعی همکاری مؤثری داشته باشند تا به نتیجۀ دلخواه برسند.

جمع‌بندی نهایی

ابزارهای تبدیل متن به ویدئو با هوش مصنوعی، در حال دگرگون‌کردن صنعت ویدئو مارکتینگ هستند. این فناوری، با خودکارسازی وظایف، ساخت ویدئو را برای همه آسان‌تر می‌کند و چشم‌انداز دنیای خلاقیت را تغییر می‌دهد. اما این تحول نیازمند مهارت‌های جدیدی است: سواد داده (درک مفاهیم داده و الگوریتم‌ها)، اخلاق هوش مصنوعی و راهبری هوش مصنوعی.

بدین ترتیب، مهارت‌های منحصراً انسانی مانند خلاقیت، اخلاق، تفکر استراتژیک و راهبری، ارزش بیشتری پیدا خواهند کرد. به نظر می‌رسد در آینده شاهد همزیستی مسالمت‌آمیز میان هوش مصنوعی و خلاقیت انسانی باشیم. دراین‌باره، هوش مصنوعی فرایند خلق محتوا را تقویت می‌کند و انسان‌ها همچنان راهنمایی اخلاقی و راهبردی را بر عهده خواهند داشت.

سؤالات متداول

ابزارهای هوش مصنوعی تبدیل متن به ویدئو چه می‌کنند؟


این ابزارها می‌توانند با دریافت توضیحات متنی‌ ساده، ویدئوهای کوتاه و باکیفیتی بسازند؛ بدان معنا که شما یک دستور یا پرامپت متنی (Text Prompt) می‌نویسید و آن ابزار ویدئویی می‌سازد که با درخواست شما مطابقت دارد.

آیا ابزارهای هوش مصنوعی تبدیل متن به ویدئوی جایگزین خلاقیت انسانی خواهند شد؟


با اینکه بعید است هوش مصنوعی به‌زودی جایگزین کامل خلاقیت انسانی شود، اما قطعا نحوۀ انجام کارهای خلاقانه را تغییر خواهد داد. از این پس، هنرمندان به‌جای تمرکز صرف بر محصول نهایی، باید بیاموزند که چگونه با سیستم‌های هوش مصنوعی همکاری مؤثری داشته باشند تا به نتیجۀ دلخواه برسند.

5/5 | (15 امتیاز) امتیازت با موفقیت ثبت شد!
مطالب پیشنهادی ما:

نظر شما چیست؟

آدرس ایمیل شما منتشر نخواهد شد.