پیشرفتهای اخیر در حوزۀ هوش مصنوعی، ما را بیش از هر زمان دیگری به خلق تصاویر و ویدئوهای بسیار واقعی نزدیک کرده است. ظهور مدلهای تبدیل متن به ویدئو (Text-to-video Models) مانند Sora، که قادرند با گرفتن دستورها (توضیحات متنی ساده)، ویدئوهای باکیفیت تولید کنند، یکی از دستاوردهای فوقالعاده در این زمینه است.
هرچند ابزارهای تبدیل متن به ویدئو با هوش مصنوعی، پتانسیل بسیار بالایی برای صنایع مختلف دارند، اما تأثیر آنها بر تبلیغاتی ویدئویی، بهطرز ویژهای قابل توجه است.
در این مطلب از ویپدیا، تأثیرات چندجانبۀ سامانههای هوش مصنوعی مانند Sora بر حوزۀ محتوای ویدئویی و ویدئو مارکتینگ را بررسی میکنیم و در آن به قابلیتهای اتوماسیون (خودکارسازی)، چالشها و فرصتهایی که این فناوریها به وجود میآورند و همچنین مسائل اخلاقی مرتبط با آنها میپردازیم.
ابزارهای تبدیل متن به ویدئو با هوش مصنوعی
تصور کنید برای خلق صحنۀ غرقشدن کشتی در فیلم تایتانیک (Titanic)، فقط کافی بود که جیمز کامرون (James Cameron) یک دستور کوتاه به هوش مصنوعی (AI) بدهد و ویدئوی دلخواهش را تحویل بگیرد. این اتفاق میتوانست با صرفهجویی چندمیلیون دلاری در ساخت مخازن عظیم آب در استودیوی باجا (Baja)، روند تولید فیلم را بهکلی دگرگون کند.
با ظهور مدلهای تبدیل متن به ویدئو (Text-to-video Models)، مفهوم جدیدی از هوش مصنوعی در عرصۀ تولید محتوا ظهور کرده است. این فناوری مبتنی بر AI، قادر است براساس توضیحات متنی ساده، ویدئو تولید کند. مدلهایی مانند Pika 1.0 از شرکت Pika Lab و Sora از OpenAI که در فوریۀ ۲۰۲۴ ارائه شد، پیشگامان این حوزه به شمار میروند. درحالیکه خروجی مدلهای اولیه ابتدایی بود، اما واقعگرایی بالای Sora مرزهای تازهای را در صنعت ویدئو مارکتینگ و تولید محتوای ویدئویی درنوردیده است.
این پیشرفت، حتی توجه سینماگران برجستهای مانند تایلر پری (Tyler Perry) را به خود جلب کرد. وی فقط چند روز پس از انتشار Sora اعلام کرد که برنامۀ توسعۀ ۸۰۰میلیوندلاری استودیوی خود در آتلانتا را بهطور نامحدود متوقف کرده است. این امر نشان از تأثیر بالقوۀ هوش مصنوعی بر رویکردهای سنتی ویدئو مارکتینگ دارد.
ابزار تبدیل متن به ویدئو Sora چیست؟
شرکت OpenAI بهتازگی یک سامانۀ هوش مصنوعی بزرگمقیاس به نام Sora ساخته است که میتواند با دریافت توضیحات متنی ساده، ویدئوهای کوتاه (تا یک دقیقه) و باکیفیتی بسازد؛ بدان معنا که شما یک دستور یا پرامپت متنی (Text Prompt) مینویسید و Sora ویدئویی میسازد که با درخواست شما مطابقت دارد. در ادامه، یک مثال از سایت OpenAI میآوریم تا موضوع روشنتر شود.
پرامپت: زن شیکپوشی با کت چرم مشکی، لباس بلند قرمز و چکمههای مشکی در یکی از خیابانهای توکیو قدم میزند. خیابان پر از نورهای نئون درخشان و تابلوهای تبلیغاتی متحرک است. زن یک کیف دستی مشکی حمل میکند، عینک آفتابی به چشم دارد و رژ لب قرمز زده است. او با اعتمادبهنفس و معمولی راه میرود. خیابان خیس است و انعکاس نورهای رنگارنگ، جلوهای آینهمانند ایجاد کرده است. عابران زیادی در حال رفتوآمدند.
ویدئوی تولیدشده توسط Sora براساس پرامپت بالا را از اینجا تماشا کنید.
Sora با استفاده از شبکههای عصبی پیچیده (Diffusion Transformer Architecture) تواناییهای متنوعی در شبیهسازی ویدئو (Video Simulation) به دست آورده است که میتواند تأثیر عمیقی بر صنعت سرگرمی و تولید ویدئو بگذارد.
هوش مصنوعی Sora قادر است ویدئوهای گوناگونی با سبکها، مدتزمان، نسبت ابعاد و رزولوشنهای مختلف بسازد. همچنین، ویدئوهای موجود را ویرایش کند، افزایش زمان بدهد و حتی چند ویدئو را با هم ترکیب کند.
گفتنی است که Sora تواناییهای پیشرفتهای در شبیهسازی ازجمله سازگاری سهبعدی (3D Consistency) و انسجام دوربرد (Long-range Coherence) را به نمایش میگذارد که نشاندهندۀ استاندارد جدیدی برای دستاوردهای هوش مصنوعی در حوزۀ تولید ویدئو است.
مزایای ابزارهای تبدیل متن به ویدئو برای صنعت ویدئو مارکتینگ
ابزارهای تبدیل متن به ویدئو مانند Sora، مزایای زیادی برای افراد خلاق در رشتههای مختلف دارند. این مدلها با امکان تولید سریع نمونههای اولیه (پروتوتایپ)، به طراحان و انیماتورها اجازه میدهند تا بهسرعت، با هزینۀ پایین و با کارایی بالا، نسخههای مختلف صحنهها را امتحان کنند.
همچنین، محتوای تولیدشده توسط هوش مصنوعی، طیف وسیعتری از نگاهها و سبکها را ارائه میکند و دامنۀ احتمالات داستانگویی را گسترش میدهد. این امر، زمینهای را برای همکاری بین انسان و ماشین فراهم میکند، بهنحوی که هریک با نقاط قوت منحصربهخود در این فرایند سهیم باشند.
محدودیتهای ابزارهای تبدیل متن به ویدئو برای صنعت ویدئو مارکتینگ
با وجود پیشرفتهایی که ابزارهای هوش مصنوعی داشتهاند، اما همچنان در برخی زمینهها با ضعفهایی روبهرو هستند. از جمله:
- این ابزار هوش مصنوعی، درک دقیقی از فیزیک ندارد، به همین دلیل ممکن است همیشه به قوانین فیزیکی «دنیای واقعی» پایبند نباشد. یک نمونه از این موارد، درکنکردن روابط علت و معلولی و ناتوانی در شبیهسازی دقیق این روابط است. برای مثال، در ویدئوی انفجار روی یک حلقۀ بسکتبال، تور بعد از آتشگرفتن حلقه، همچنان سالم به نظر میرسد.
- در حفظ انسجام حرکت اشیا در مسیرهای طولانی ضعیف عمل میکنند.
- در برخی خروجیها همچنان نویزهای تصویری دیده میشود.
این بدان معناست که محتوای تولیدشده توسط هوش مصنوعی، اگرچه میتواند در روایت داستان و تکنیکهای بصری قابلیتهای ارزشمندی ارائه دهد، اما هنوز نمیتواند با ظرافت و جزئیات آثار خلقشدۀ انسان برابری کند. بااینحال، با پیشرفت هوش مصنوعی، به احتمال زیاد این مشکلات بهتدریج کاهش خواهد یافت.
چالشهای ابزارهای هوش مصنوعی تبدیل متن به ویدئو
عرضۀ هوش مصنوعی رقابت در زمینۀ تولید ویدئو با هوش مصنوعی را سرعت بخشیده است. حالا غولهای فناوری مانند گوگل، متا و… نیز روی سیستمهای مشابه کار میکنند. این پیشرفت سریع، نشاندهندۀ تحول در ابزارهای خلاقانۀ هوش مصنوعی برای تولید محتوای ویدئویی است.
البته، استفاده از ابزارهای تبدیل متن به ویدئو چالشهایی نیز دارد؛ ازجمله:
- نگرانیهایی درمورد سوءاستفادۀ احتمالی و تولید محتوای جعلی مانند دیپفیک (Deepfake) برای تبلیغات وجود دارد.
- نبود رضایت در مجموعه دادههای آموزشی نیز یک نگرانی بزرگ است. دادههای آموزشی هوش مصنوعی، مجموعهای از دادهها هستند که برای آموزش مدلهای هوش مصنوعی به کار میروند. این دادهها میتوانند شامل متن، تصویر، ویدئو، صدا و یا هر نوع دادۀ دیگری باشند.
- دقت و اصالت محتوای تولیدشده، چالش دیگری است که ابزارهای تبدیل متن به ویدئوی هوش مصنوعی با آن مواجهاند.
- مسائل مربوط به حق تکثیر و مالکیت فکری همچنان حل نشدهاند که در صورت رسیدگینشدن، میتوانند نوآوریهای آینده را بهشدت محدود کنند.
- نگرانیهای منطقیای نیز دربارۀ خودکارسازی مشاغل در برخی حوزههای سینما مانند لوکیشنیابی، طراحی، تولید و بازیگری وجود دارد. پس، حتی اگر این ابزار باعث افزایش کارایی شود، میتواند بر معیشت افراد تأثیر منفی بگذارد.
از میان موارد بالا، شاید مهمترین چالش، نگرانی از بیکاری است. برخی افراد نگران هستند که ابزارهای اتوماسیون با قابلیت تولید آثار باکیفیت، جای هنرمندان را بگیرند.
آیا فعالان حوزۀ تولید محتوای ویدئویی باید نگران باشند؟
همانطور که گفتیم، تایلر پری (Tyler Perry)، کارگردان مشهور هالیوود، پس از انتشار نمونه کارهای هوش مصنوعی Sora، در مصاحبهای با نشریۀ معتبر «هالیوود ریپورتر» (Hollywood Reporter) اعلام کرد که برنامۀ چندسالۀ توسعۀ استودیوی خود در آتلانتا را بهطور نامحدود متوقف کرده است.
آقای پری در این مصاحبه اعتراف کرد که اگرچه در سال ۲۰۲۳ خبرهایی دربارۀ چنین فناوریهایی شنیده بود، اما هرگز تصور نمیکرد تا این حد پیشرفته باشند. او گفت:
«برای ساخت صحنهای روی کرۀ ماه، کافی است متنی بنویسم و این هوش مصنوعی میتواند آن را بهشکلی باورنکردنی بسازد. دیگر به ساختن دکورهای عظیم در استودیو نیازی نیست. میتوانم در دفترم بنشینم و با یک کامپیوتر این کار را انجام دهم، که برایم تکاندهنده است.»
البته آقای پری با هوش مصنوعی چندان هم غریبه نیست. او پیش از این، از فناوری AI برای صرفهجویی در زمان گریم بازیگران در دو فیلمش استفاده کرده است؛ بااینحال، معتقد است صرفهجویی در زمان گریم بازیگران، در مقابل تحول کامل فرایندهای چندمیلیوندلاری ویدئو مارکتینگ، بهویژه در طراحی صحنه، ناچیز است.
او تأکید میکند که با وجود مزیتهای فراوان این فناوری، نگرانیهای جدیای دربارۀ بسیاری از مشاغل این صنعت وجود دارد. بهویژه به این دلیل که «اگر کسی بتواند با هزینهای بسیار کمتر، یک پروژۀ آزمایشی بسازد که قبلاً ۱۵ تا ۲۰میلیون دلار هزینه داشت، قطعاً شرکتها تمایل پیدا میکنند به سراغ گزینههای کمهزینهتر بروند.»
پری معتقد است که اگر کل فعالان صنعت تولید محتوای ویدئویی بهطور متحد با این موضوع برخورد کند، شاید بتوان از آیندۀ این صنعت در برابر خطرات هوش مصنوعی محافظت کرد.
بحث داغ ابزارهای تبدیل متن به ویدئو: فرصتی جدید یا تهدیدی قریبالوقوع؟
پیش از انتشار ابزارهای هوش مصنوعی تبدیل متن به ویدئو مانند Sora، مطالعهای درمورد تأثیر هوش مصنوعی مولد (GenAI) بر مشاغل مرتبط با تولید ویدئو انجام شد. این مطالعه نشان داد:
- ۹۰% از ۳۰۰ رهبر کسبوکار مورد بررسی در این مطالعه معتقدند که GenAI در آینده نقش پررنگتری در این صنعت ایفا خواهد کرد.
- علاوهبراین، مشخص شد که ۷۲% از این کسبوکارهای خلاق، در حال حاضر هم از برنامههای GenAI در فرایندهای خود استفاده میکنند که این امر پتانسیل بالای جابهجایی مشاغل به دلیل GenAI را نشان میدهد.
کاربرد این فناوری در تمام سطوح چرخۀ تولید ویدئو، به بحثهای داغی بین مدیران و افراد خلاق در این صنعت منجر شده است.
در سال ۲۰۲۳، انجمن نویسندگان آمریکا (WGA) بهمدت ۱۴۸ روز در اعتراض به دستمزد پایین برای کارهای باکیفیت و نگرانی از برونسپاری این کارها به هوش مصنوعی توسط استودیوها، دست به اعتصاب زد. خواستۀ آنها برای پایاندادن به اعتصاب، کنترل بیشتر روی نحوۀ استفادۀ استودیوها از هوش مصنوعی بود.
اعضای انجمن بازیگران سینما و فدراسیون هنرمندان تلویزیون و رادیو آمریکا (SAG-AFTRA) نیز به دلایل مشابه به این اعتصاب پیوستند. نگرانی آنها مربوط به فناوری موجود برای اسکن و شبیهسازی هنرمندان و استفاده از آن بدون رضایت و پرداخت غرامت به آنها بود.
اکنون با ظهور فناوریهایی این چنین، این سؤال مطرح میشود که هوش مصنوعی برای کمک به این صنعت آمده است یا جایگزین انسانها خواهد شد؟
پل تریلو (Paul Trillo)، هنرمند، نویسنده و کارگردان که به دلیل بهرهگیری از هوش مصنوعی در ویدئو مارکتینگ محبوبیت دارد، نگرانی خود را در مقالهای در یاهو اینگونه بیان میکند: «این اولین بار است که احساس میکنم زمین زیر پایم سست شده است، درست مثل اتفاقی که چند سال پیش برای تصویرگران رخ داد. این موضوع، نگرانکننده است.»
جاستین بیتمن (Justine Bateman)، فیلمساز، در طول اعتصابات، از خطر هوش مصنوعی با عبارت «تهدیدی برای بقا» یاد کرد؛ تهدیدی که میتواند به جایگزینی انسانها توسط هوش مصنوعی برای کپیبرداری و بازتولید «نسخههای جعلی آثار ایشان» منجر شود.
بله، ویدئوهایی که با ابزار هوش مصنوعی تولید میشوند، واضح و واقعی هستند؛ بنابراین نمیتوان نسبت به این فناوریها بیتفاوت بود. بااینحال، به نظر میرسد اجماع بر این است که هوش مصنوعی، هرچقدر هم که چشمگیر باشد، هرگز جایگزین خلاقیت و ظرافت انسانی در ساخت فیلمهای مورد علاقۀ ما نخواهد شد.
بیندو ردی (Bindu Reddy)، مدیرعامل و همبنیانگذار شرکت هوش مصنوعی اباکوس (Abacus.AI) بر این باور است که این فناوری به تولید محتواهای ویدئویی مانند فیلم و بازیهای ویدئویی بهتر کمک خواهد کرد. او همچنین تردید دارد که این تکنولوژی تأثیری روی مشاغل بگذارد.
او در شبکۀ اجتماعی ایکس (توییتر سابق) نوشت: «هوش مصنوعی جایگزین فیلمهای سینمایی نخواهد شد. بله، میتوان از آن برای ساخت تیزرهای تبلیغاتی یا ویدئوهای کوتاه استفاده کرد، اما من گمان میکنم دستیابی به خروجی دقیقاً مطابق با نظر شما، دشوار خواهد بود.»
تد ساراندوس (Ted Sarandos)، مدیرعامل نتفلیکس (Netflix) هم نظر مشابهی دارد. او میگوید: «شاید هوش مصنوعی بتواند چیزهایی را تکرار یا تقلید کند، اما اصالت و واقعیبودن تجربۀ انسانی چیزی است که مردم آن را درک میکنند و میتوانند تشخیص دهند که چه چیزی واقعی و چه چیزی غیرواقعی است.» او تأکید میکند که برای تجربۀ انسانی هیچ میانبر و جایگزینی وجود ندارد.
خطر ابزارهای تبدیل متن به ویدئو برای صنعت استوک فوتیج
علاوه بر نگرانیهایی که درمورد تأثیر هوش مصنوعی بر تولید فیلم وجود دارد، نگرانی بیشتری برای صنعت استوک فوتیج (Stock Footage) وجود دارد.
استوک فوتیج که به آن ویدئو یا عکس آماده نیز گفته میشود، کلیپهای کوتاه یا تصاویر ثابتی هستند که توسط فیلمبرداران و عکاسان حرفهای تهیه میشوند و بهصورت مجوزدار در دسترس عموم قرار میگیرند.
شما میتوانید از استوک فوتیج برای پرکردن خلأهای موجود در ویدئوی خود، اضافهکردن تصاویر جذاب و یا نمایشدادن مکانهایی که فیلمبرداری آنها برایتان دشوار یا غیرممکن است استفاده کنید.
همکاری شرکت OpenAI با شاتر استوک (Shutterstock) در سال ۲۰۲۳ باعث شد هوش مصنوعی OpenAI به آرشیو عظیم ویدئوها و ابردادههای مرتبط با آنها در شاتر استوک دسترسی یابد و با بهرهگیری از آن آرشیو، مدلهای خود را آموزش دهد.
این همکاری نشان میدهد که شرکتهای قدیمی تولید و فروش محتوا با بهروزرسانی سیستمهای خود براساس فناوریهای جدید میتوانند همچنان در این عرصه باقی بمانند. از سوی دیگر، هوش مصنوعی هم هر روز در ساخت عکس و ویدئوهای متناسب با سلیقۀ کاربران بهتر میشود.
صنعت تولید ویدئو به کجا میرود؟
در پایان اعتصابات انجمن نویسندگان آمریکا (WGA) و انجمن بازیگران سینما و تلویزیون (SAG-AFTRA)، هر دو اتحادیه با اتحادیۀ تهیهکنندگان فیلم و تلویزیون (AMPTP) به توافقاتی دست یافتند که هوش مصنوعی را بهطور کامل از فرایند تولید حذف نمیکرد. درعوض، به افراد خلاق کنترل بیشتری بر هنر خود و نحوۀ تولید آن میداد.
این توافقات نشان میدهد که هوش مصنوعی برای ماندن آمده است. اما همانطور که پری گفته است، هالیوود به همسویی و اتحاد برای کمک به نجات و محافظت از افراد صنعت ویدئو مارکتینگ نیاز دارد.
شاید زمان زیادی طول بکشد تا هوش مصنوعی بتواند تصاویری بهقدر کافی خوب برای فیلمها بسازد، اما با توجه به سرعت باورنکردنی پیشرفت این فناوری، واقعاً نمیتوان پیشبینی کرد که این اتفاق چه زمانی خواهد افتاد.
با اینکه بعید است هوش مصنوعی بهزودی جایگزین کامل خلاقیت انسانی شود، اما قطعاً نحوۀ انجام کارهای خلاقانه را تغییر خواهد داد. از این پس، هنرمندان بهجای تمرکز صرف بر محصول نهایی، باید بیاموزند که چگونه با سیستمهای هوش مصنوعی همکاری مؤثری داشته باشند تا به نتیجۀ دلخواه برسند.
جمعبندی نهایی
ابزارهای تبدیل متن به ویدئو با هوش مصنوعی، در حال دگرگونکردن صنعت ویدئو مارکتینگ هستند. این فناوری، با خودکارسازی وظایف، ساخت ویدئو را برای همه آسانتر میکند و چشمانداز دنیای خلاقیت را تغییر میدهد. اما این تحول نیازمند مهارتهای جدیدی است: سواد داده (درک مفاهیم داده و الگوریتمها)، اخلاق هوش مصنوعی و راهبری هوش مصنوعی.
بدین ترتیب، مهارتهای منحصراً انسانی مانند خلاقیت، اخلاق، تفکر استراتژیک و راهبری، ارزش بیشتری پیدا خواهند کرد. به نظر میرسد در آینده شاهد همزیستی مسالمتآمیز میان هوش مصنوعی و خلاقیت انسانی باشیم. دراینباره، هوش مصنوعی فرایند خلق محتوا را تقویت میکند و انسانها همچنان راهنمایی اخلاقی و راهبردی را بر عهده خواهند داشت.
سؤالات متداول
ابزارهای هوش مصنوعی تبدیل متن به ویدئو چه میکنند؟
این ابزارها میتوانند با دریافت توضیحات متنی ساده، ویدئوهای کوتاه و باکیفیتی بسازند؛ بدان معنا که شما یک دستور یا پرامپت متنی (Text Prompt) مینویسید و آن ابزار ویدئویی میسازد که با درخواست شما مطابقت دارد.
آیا ابزارهای هوش مصنوعی تبدیل متن به ویدئوی جایگزین خلاقیت انسانی خواهند شد؟
با اینکه بعید است هوش مصنوعی بهزودی جایگزین کامل خلاقیت انسانی شود، اما قطعا نحوۀ انجام کارهای خلاقانه را تغییر خواهد داد. از این پس، هنرمندان بهجای تمرکز صرف بر محصول نهایی، باید بیاموزند که چگونه با سیستمهای هوش مصنوعی همکاری مؤثری داشته باشند تا به نتیجۀ دلخواه برسند.