هوش مصنوعی سورا (Sora AI) چیست؟ همه چیز درباره ابزار متن به ویدیو OpenAI

حالا دیگر هوش مصنوعی می‌تواند طبق درخواست های شما ویدیو بسازد، اما چگونه؟
Sora جدیدترین جهش در نرم افزار هوش مصنوعی است که به کاربران این امکان را می دهد که با یک دستور ساده، ویدیوهایی واقعی ایجاد کنند.

 

(نمونه ویدیو تولید شده توسط Sora) پرامپت: یک زن شیک پوش در خیابانی در توکیو که پر از نئون درخشان و تابلوهای متحرک شهری است قدم می‌زند. او یک کاپشن چرمی مشکی، یک لباس قرمز بلند و چکمه های مشکی پوشیده و یک کیف پول مشکی به همراه دارد. عینک آفتابی و رژ لب قرمز میزند. او با اعتماد به نفس و معمولی راه می رود. خیابان مرطوب و منعکس کننده است و جلوه ای آینه ای از نورهای رنگارنگ ایجاد می کند. بسیاری از عابران پیاده راه می روند.

OpenAI، خالقان Dall-E و ChatGPT، سازنده سرویس جدیدی هستند که به زودی برای عموم مردم عرضه می شود.

این ابزار بسیار قدرتمند و عجیب است. اگر تلاش‌های قبلی برای ایجاد ویدیو توسط هوش مصنوعی را دیده‌ باشید، می‌دانید که حس غیرواقعی بودن را منتقل می کنند و بیننده به سرعت متوجه اتفاقات غیر طبیعی در ویدیو می شود.

پس چگونه OpenAI این کار را انجام داده است؟ در حال حاضر می توانید از این ابزار استفاده کنید؟ این اتفاق چه معنایی برای آینده ویدیو، فیلم و محتوا دارد؟ در این مقاله به بررسی جدیدترین ابزار پیشگامانه OpenAI و معنای آن برای شما می پردازم.

(نمونه ویدیو تولید شده توسط Sora) پرامپت: منظره هواپیمای بدون سرنشین از امواجی که با صخره های ناهموار در امتداد ساحل گارای بیگ سور برخورد می کنند. آب های آبی متلاشی کننده امواجی با نوک سفید ایجاد می کنند، در حالی که نور طلایی غروب خورشید ساحل سنگی را روشن می کند. یک جزیره کوچک با یک فانوس دریایی در دوردست قرار دارد و درختچه های سبز لبه صخره را پوشانده است. شیب تند از جاده به سمت ساحل، با لبه‌های صخره که از بالای دریا بیرون می‌آیند، شاهکاری چشمگیر است. این منظره ای است که زیبایی خام ساحل و چشم انداز ناهموار بزرگراه ساحل اقیانوس آرام را به تصویر می کشد.

Sora چیست؟

Sora یک ابزار هوش مصنوعی است که قادر به تولید ویدیوهای کامل تا 1 دقیقه است. می توانید یک متن ساده (پرامپت) به آن بدهید، به عنوان مثال، “مزرعه ای از گربه ها که یک سگ غول پیکر را پرستش می کنند” و طبق ادعای OpenAi، ویدیویی مطابق با این توضیحات دریافت کنید.

OpenAI از مجموعه ای از ویدئوهای نمونه رونمایی کرده است که در آنها سورا را در حال تولید ویدئوهای فوق العاده و شبیه واقعیت نشان می دهند. سورا می تواند انعکاس اجسام در آینه، حرکت دقیق مایعات و حتی ذرات برف در حال سقوط را نمایش دهد.

(نمونه ویدیو تولید شده توسط Sora) پرامپت: چند ماموت غول پیکر پشمالو نزدیک می شوند و از میان یک علفزار برفی قدم می زنند، خز پشمی بلند آنها در حین راه رفتن به آرامی در باد می وزد، درختان پوشیده از برف و کوه های پوشیده از برف چشمگیر در دوردست، نور نیمه بعد از ظهر با ابرهای تند و آفتابی در ارتفاعات. فاصله یک درخشش گرم ایجاد می کند، نمای کم دوربین برای گرفتن پستاندار پشمالوی بزرگ با عکاسی زیبا و عمق میدان خیره کننده است.
(نمونه ویدیو تولید شده توسط Sora) پرامپت: صحنه متحرک نمای نزدیک از یک هیولای کرکی کوتاه است که در کنار یک شمع قرمز در حال ذوب زانو زده است. سبک هنری سه بعدی و واقع گرایانه با تمرکز بر نور و بافت است. حال و هوای نقاشی حالت شگفتی و کنجکاوی دارد، زیرا هیولا با چشمان درشت و دهان باز به شعله می نگرد. ژست و بیان آن حس بی گناهی و بازیگوشی را منتقل می کند، گویی برای اولین بار در حال کاوش در جهان اطراف است. استفاده از رنگ های گرم و نورپردازی چشمگیر فضای دنج تصویر را بیشتر می کند.

Sora چگونه کار می کند؟

در واقع، سورا دقیقاً مانند هر ژنراتور تصویری هوش مصنوعی دیگری که قبل از آن وجود داشته است عمل می‌کند، فقط با تعداد گام‌های بیشتر. مولدهای تصویر هوش مصنوعی از روشی به نام diffusion models استفاده می‌کنند.

این کار تا حدودی پیچیده است، اما اساساً با گرفتن ویدیویی که کاملاً به حالت ثابت (استاتیک) تبدیل شده است، کار می‌کند. سپس به آن آموزش داده می شود که استاتیک را معکوس کند، و در نتیجه یک تصویر واضح (یا ویدیو در اینجا) ایجاد می شود.

برای آموزش چنین چیزی، سورا نمونه‌هایی از ویدیوها را دریافت می‌کند که با متن جایگزین (Alt text) همراه شده‌اند که توضیح می‌دهد چه اتفاقی در ویدیو رخ می‌دهد. این کمک می‌کند تا مدل ارتباط بین تصویر و اتفاقات را یاد بگیرد.

در نهایت، با این روش می‌توان برای اتصال پیام‌های متنی شما با ویدیوی نهایی استفاده کرد. این در مقایسه با تصاویر هوش مصنوعی که در سال گذشته دیده‌ایم یک چالش بزرگ است.

مدل نیاز به درک مدل های سه بعدی، حرکت، بازتاب ها، سایه ها و لیستی از ویژگی های بسیار پیچیده برای تکرار دارد.

OpenAI، در راستای تعهد خود به شفافیت، نحوه عملکرد مدل را در وب سایت خود به طور کامل توضیح می دهد. با این حال هیچ اطلاعاتی مبنی بر اینکه ویدیوهای مورد استفاده در آموزش از کجا آمده اند وجود ندارد.

(نمونه ویدیو تولید شده توسط Sora) پرامپت: ویدیوی نزدیک واقع گرایانه از دو کشتی دزدان دریایی که با یکدیگر در حال حرکت در داخل یک فنجان قهوه هستند.

چگونه از Sora AI استفاده کنیم؟

در حال حاضر، سورا برای اکثریت مردم در دسترس نیست. درست مانند گذشته، OpenAI در ارائه ابزارهای خود محتاط است. اولین مرحله شامل تعداد کمی از افراد معروف به “تیم های قرمز” است که ابزار را برای شناسایی آسیب پذیری های مهم یا خطرات احتمالی آزمایش می کنند.

سپس در دسترس تعداد کمی از هنرمندان تجسمی، طراحان و فیلمسازان قرار خواهد گرفت تا بفهمند این ابزار چگونه در مقابل متخصصان خلاق کار می کند.

بعد از گذراندن این مراحل، این احتمال وجود دارد که Sora در دسترس عموم قرار بگیرد.

(نمونه ویدیو تولید شده توسط Sora) پرامپت: یک دنیای کاغذی زیبا از صخره های مرجانی، مملو از ماهی های رنگارنگ و موجودات دریایی.

آیا سورا بهترین تولید کننده ویدئو با هوش مصنوعی است؟

از ویدیوهایی که تاکنون منتشر شده است، به نظر می رسد سورا کیلومترها جلوتر از هر چیزی است که قبلاً دیده بودیم. در یک سال گذشته، شاهد اولین تلاش ها برای تولید ویدئو با هوش مصنوعی بودیم، و آنها در بهترین حالت خنده دار بودند.

در آن زمان، ویدیویی از ویل اسمیت در حال خوردن اسپاگتی در فضای مجازی پخش شد، همچنین یک تبلیغ تلویزیونی به نام «Pepporoni Hug Spot» ساخته شده توسط هوش مصنوعی پخش شد. هر دوی آنها بیشتر شبیه کابوس بودند تا یک نمونه قابل اجرا از ویدئوهای هوش مصنوعی.

اینها را با ویدیوهای سورا مقایسه کنید. یک دنیای کاملاً متفاوت است. سورا در حال خلق فیلم هایی با نور دقیق، بازتاب و ویژگی های طبیعی است.

(نمونه ویدیو تولید شده توسط Sora) پرامپت: مرد جوانی 20 ساله روی تکه ابری در آسمان نشسته و مشغول خواندن کتاب است.

با این حال، سورا به هیچ وجه کامل نیست. اگر مجموعه ای از ویدیوهای سورا را تماشا کنید متوجه اشتباهات متعددی می شوید. برای مثال اعضای بدن ناپدید می شوند و دوباره ظاهر می شوند.

در حال حاضر، ما فقط می‌توانیم ویدیوهای دست‌چین شده از OpenAI را ببینیم. وقتی به عموم دسترسی داده شود، ویدیوهای ناقص بیشتری ظاهر می‌شوند که نقاط قوت و ضعف مدل را نشان می‌دهند.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *