تولید یک ویدئو تنها با توصیف آن

شرکت آمریکایی OpenAI اخیرا اعلام کرد که فراتر از هوش مصنوعی متن و تصویر ثابت، برای اولین بار هوش مصنوعی از نسل ویدیویی را ارائه می‌دهد. به گفته این شرکت مدل جدید هوش مصنوعی که «سورا» نام دارد به کاربر اجازه می‌دهد تا صحنه مورد نظر خود را تایپ کرده و آن را به یک کلیپ ویدیویی با کیفیت بالا تبدیل کند. ویدئوهای تولید شده توسط هوش مصنوعی مسئله دیگری برای نگران‌ها درباره اشاعه اطلاعات نادرست ایجاد می‌کند، به خصوص که امسال انتخابات‌های مهمی در سراسر جهان برنامه‌ریزی شده است.

به گزارش آتیه آنلاین و به نقل از سی‌ان‌بی‌سی؛ شرکت OpenAI که سال گذشته به لطف محبوبیت «چت جی‌بی‌تی» (ChatGPT) راه خود را به جریان اصلی دنیای فناوری گشود، اکنون فناوری هوش مصنوعی خود را وارد عرصه ویدیو می‌کند.

این شرکت روز پنجشنبه هفته گذشته مدل جدید هوش مصنوعی مولد خود را با نام «سورا» (Sora) معرفی کرد. «سورا» مشابه دیگر ابزار هوش مصنوعی تولید تصویر شرکت OpenAI، یعنی «دال-ای» (DALL-E) عمل می‌کند. شکل کار به این صورت است که کاربر صحنه مورد نظر را تایپ و توصیف می‌کند و «سورا» این توصیفات را به یک کلیپ ویدیویی با کیفیت بالا برمی‌گرداند. همچنین این ابزار جدید می‌تواند کلیپ‌های ویدیویی با الهام از تصاویر ثابت تولید کند و ویدیوهای موجود را گسترش داده یا فریم‌های از دست رفته را پر کند.

اکنون که «چت‌بات‌ها» و تولیدکنندگان تصویر راه خود را به دنیای مصرف‌کننده و تجارت باز کرده‌اند، ویدئو می‌تواند مرز بعدی هوش مصنوعی مولد باشد که در حال عبور از آن است. البته همچنان که فرصت‌های خلاقانه این صنعت، علاقه‌مندان به هوش مصنوعی را هیجان‌زده می‌کند، این فناوری‌های جدید نگرانی‌هایی جدی درباره اشاعه اطلاعات نادرست ایجاد کرده است؛ بخصوص با نزدیک شدن به انتخابات‌های سیاسی بزرگ در سراسر جهان این نگرانی‌ها درباره پخش اطلاعات غلط شدت گرفته است. شاهد این مدعا داده‌های شرکت Clarity، یک شرکت فعال در زمینه یادگیری ماشین است که بر اساس آن تعداد «دیپ فیک‌ها» (همان تصاویر غیر واقعی تولید شده توسط هوش مصنوعی)، سالانه ۹۰۰ درصد افزایش یافته است.

شرکت OpenAI با بازاری کردن ابزار جدید خود «سورا» به دنبال رقابت با ابزارهای هوش مصنوعی تولید ویدیوی شرکت‌هایی رقیب مانند متا و گوگل است که ابزار مشابه خود، «لومیر» (Lumiere) را در ماه ژانویه به معرض نمایش گذاشتند. ابزارهای مشابه هوش مصنوعی از دیگر استارت آپ‌ها نیز وجود دارد مانند شرکت (Stability AI) که محصولی به نام «Stable Video Diffusion» را به بازار عرضه کرده است. همچنین شرکت آمازون هم برنامه «ساختن با الکسا» (Create with Alexa) را منتشر کرده، که برنامه‌ای تخصصی برای تولید محتوای کوتاه و انیمیشن کودکان است.

«سورا» در حال حاضر محدود به تولید ویدیوهایی با طول یک دقیقه یا کمتر است. شرکت OpenAI که توسط مایکروسافت پشتیبانی می‌شود، در تلاش خود برای ارائه مجموعه گسترده‌تری از مدل‌های هوش مصنوعی، چندوجهی بودن را (یعنی ترکیب تولید متن، تصویر و ویدئو) هدف گرفته. OpenAI در اعلامیه خود درباره این قابلیت جدید نوشت: «سورا به عنوان پایه‌ای برای مدل‌هایی عمل می‌کند که می‌توانند دنیای واقعی را درک و شبیه‌سازی کنند».

«براد لایت کپ»، مدیر اجرایی OpenAI در ماه نوامبر به در یک مصاحبه‌ای گفت: «جهان چندوجهی است؛ اگر به نحوه پردازش ما به عنوان انسان و تعامل با جهان فکر کنید، ما چیزها را می‌بینیم، می‌شنویم و چیزهایی می‌گوییم؛ در این معنا جهان بسیار بزرگتر از متن است». بنابراین، این شرکت‌ها در پی افزایش توان و ابعاد بکارگیری هوش مصنوعی مطابق با مدلی هستند که انسان بکار می‌برد و نه صرفا بر اساس مدل متن محور که از این منظر ناقص است.

نرم افزار «سورا» تاکنون تنها برای گروه کوچکی از آزمایش‌کنندگان ایمنی یا «تیم‌های امنیتی» در دسترس بوده است که این مدل را برای آسیب‌پذیری‌ها در زمینه‌هایی مانند اطلاعات نادرست و سوگیری در رفتار مصرف‌کنندگان آزمایش می‌کنند. این شرکت هیچ نمایش عمومی بیشتر از ۱۰ کلیپ نمونه موجود در وب سایت خود منتشر نکرده است و اعلام کرده است که مقاله فنی همراه با این نرم افزار جدید اواخر هفته منتشر خواهد شد.

OpenAI همچنین اعلام کرد که در حال ساخت یک «طبقه‌بندی تشخیصی» است که می‌تواند کلیپ‌های ویدیویی تولید شده توسط «سورا» را شناسایی کند و قصد دارد «ابرداده‌های» خاصی را در خروجی خود قرار دهد که به شناسایی محتوای تولید شده توسط هوش مصنوعی کمک کند. این همان نوع ابرداده‌ای است که شرکت «متا» به دنبال استفاده از آن برای شناسایی تصاویر تولید شده توسط هوش مصنوعی در انتخابات پیش روی آمریکا است.

کد خبر: 68515