حالا دیگر هوش مصنوعی میتواند طبق درخواست های شما ویدیو بسازد، اما چگونه؟
Sora جدیدترین جهش در نرم افزار هوش مصنوعی است که به کاربران این امکان را می دهد که با یک دستور ساده، ویدیوهایی واقعی ایجاد کنند.
OpenAI، خالقان Dall-E و ChatGPT، سازنده سرویس جدیدی هستند که به زودی برای عموم مردم عرضه می شود.
این ابزار بسیار قدرتمند و عجیب است. اگر تلاشهای قبلی برای ایجاد ویدیو توسط هوش مصنوعی را دیده باشید، میدانید که حس غیرواقعی بودن را منتقل می کنند و بیننده به سرعت متوجه اتفاقات غیر طبیعی در ویدیو می شود.
پس چگونه OpenAI این کار را انجام داده است؟ در حال حاضر می توانید از این ابزار استفاده کنید؟ این اتفاق چه معنایی برای آینده ویدیو، فیلم و محتوا دارد؟ در این مقاله به بررسی جدیدترین ابزار پیشگامانه OpenAI و معنای آن برای شما می پردازم.
Sora چیست؟
Sora یک ابزار هوش مصنوعی است که قادر به تولید ویدیوهای کامل تا 1 دقیقه است. می توانید یک متن ساده (پرامپت) به آن بدهید، به عنوان مثال، “مزرعه ای از گربه ها که یک سگ غول پیکر را پرستش می کنند” و طبق ادعای OpenAi، ویدیویی مطابق با این توضیحات دریافت کنید.
OpenAI از مجموعه ای از ویدئوهای نمونه رونمایی کرده است که در آنها سورا را در حال تولید ویدئوهای فوق العاده و شبیه واقعیت نشان می دهند. سورا می تواند انعکاس اجسام در آینه، حرکت دقیق مایعات و حتی ذرات برف در حال سقوط را نمایش دهد.
Sora چگونه کار می کند؟
در واقع، سورا دقیقاً مانند هر ژنراتور تصویری هوش مصنوعی دیگری که قبل از آن وجود داشته است عمل میکند، فقط با تعداد گامهای بیشتر. مولدهای تصویر هوش مصنوعی از روشی به نام diffusion models استفاده میکنند.
این کار تا حدودی پیچیده است، اما اساساً با گرفتن ویدیویی که کاملاً به حالت ثابت (استاتیک) تبدیل شده است، کار میکند. سپس به آن آموزش داده می شود که استاتیک را معکوس کند، و در نتیجه یک تصویر واضح (یا ویدیو در اینجا) ایجاد می شود.
برای آموزش چنین چیزی، سورا نمونههایی از ویدیوها را دریافت میکند که با متن جایگزین (Alt text) همراه شدهاند که توضیح میدهد چه اتفاقی در ویدیو رخ میدهد. این کمک میکند تا مدل ارتباط بین تصویر و اتفاقات را یاد بگیرد.
در نهایت، با این روش میتوان برای اتصال پیامهای متنی شما با ویدیوی نهایی استفاده کرد. این در مقایسه با تصاویر هوش مصنوعی که در سال گذشته دیدهایم یک چالش بزرگ است.
مدل نیاز به درک مدل های سه بعدی، حرکت، بازتاب ها، سایه ها و لیستی از ویژگی های بسیار پیچیده برای تکرار دارد.
OpenAI، در راستای تعهد خود به شفافیت، نحوه عملکرد مدل را در وب سایت خود به طور کامل توضیح می دهد. با این حال هیچ اطلاعاتی مبنی بر اینکه ویدیوهای مورد استفاده در آموزش از کجا آمده اند وجود ندارد.
چگونه از Sora AI استفاده کنیم؟
در حال حاضر، سورا برای اکثریت مردم در دسترس نیست. درست مانند گذشته، OpenAI در ارائه ابزارهای خود محتاط است. اولین مرحله شامل تعداد کمی از افراد معروف به “تیم های قرمز” است که ابزار را برای شناسایی آسیب پذیری های مهم یا خطرات احتمالی آزمایش می کنند.
سپس در دسترس تعداد کمی از هنرمندان تجسمی، طراحان و فیلمسازان قرار خواهد گرفت تا بفهمند این ابزار چگونه در مقابل متخصصان خلاق کار می کند.
بعد از گذراندن این مراحل، این احتمال وجود دارد که Sora در دسترس عموم قرار بگیرد.
آیا سورا بهترین تولید کننده ویدئو با هوش مصنوعی است؟
از ویدیوهایی که تاکنون منتشر شده است، به نظر می رسد سورا کیلومترها جلوتر از هر چیزی است که قبلاً دیده بودیم. در یک سال گذشته، شاهد اولین تلاش ها برای تولید ویدئو با هوش مصنوعی بودیم، و آنها در بهترین حالت خنده دار بودند.
در آن زمان، ویدیویی از ویل اسمیت در حال خوردن اسپاگتی در فضای مجازی پخش شد، همچنین یک تبلیغ تلویزیونی به نام «Pepporoni Hug Spot» ساخته شده توسط هوش مصنوعی پخش شد. هر دوی آنها بیشتر شبیه کابوس بودند تا یک نمونه قابل اجرا از ویدئوهای هوش مصنوعی.
اینها را با ویدیوهای سورا مقایسه کنید. یک دنیای کاملاً متفاوت است. سورا در حال خلق فیلم هایی با نور دقیق، بازتاب و ویژگی های طبیعی است.
با این حال، سورا به هیچ وجه کامل نیست. اگر مجموعه ای از ویدیوهای سورا را تماشا کنید متوجه اشتباهات متعددی می شوید. برای مثال اعضای بدن ناپدید می شوند و دوباره ظاهر می شوند.
در حال حاضر، ما فقط میتوانیم ویدیوهای دستچین شده از OpenAI را ببینیم. وقتی به عموم دسترسی داده شود، ویدیوهای ناقص بیشتری ظاهر میشوند که نقاط قوت و ضعف مدل را نشان میدهند.
