ما هو OpenAI Sora وهل سيغير الفيديو إلى الأبد؟
تتجه سرعة تطوير الذكاء الاصطناعي نحو نقطة تتجاوز الإدراك البشري، ونظام Sora لتحويل النص إلى فيديو من OpenAI هو مجرد أحدث تقنيات الذكاء الاصطناعي التي تصدم العالم وتجعله يدرك أن الأشياء تحدث في وقت أقرب مما توقعه أي شخص.
ما هو OpenAI Sora ؟
مثل أدوات الذكاء الاصطناعي التوليدية الأخرى مثل DALL-E وMidJourney، يأخذ Sora المطالبات النصية منك ويحولها إلى وسيط مرئي. ومع ذلك، على عكس مولدات الصور المدعومة بالذكاء الاصطناعي المذكورة أعلاه، يقوم Sora بإنشاء مقطع فيديو كامل بالحركة وزوايا الكاميرا المختلفة والاتجاه وكل شيء آخر تتوقعه من مقطع فيديو تم إنتاجه تقليديًا.
بالنظر إلى الأمثلة الموجودة على موقع Sora، يتعذر تمييز النتائج في أغلب الأحيان عن مقاطع الفيديو الحقيقية المنتجة بشكل احترافي. كل شيء بدءًا من لقطات الطائرات بدون طيار المتطورة وحتى إنتاج الأفلام بملايين الدولارات. كاملة مع الجهات الفاعلة التي تم إنشاؤها بواسطة الذكاء الاصطناعي والمؤثرات الخاصة والأعمال.
وبطبيعة الحال، فإن Sora ليست التكنولوجيا الأولى التي تفعل ذلك. حتى الآن، كانت الشركة الرائدة الأكثر وضوحًا في هذا المجال هي RunwayML، التي تقدم خدماتها للجمهور مقابل رسوم. ومع ذلك، حتى في ظل أفضل الظروف، تعد مقاطع الفيديو الخاصة بـ Runway أقرب إلى الأجيال الأولى من صور MidJourney الثابتة. ليس هناك ثبات في الصورة، والفيزياء غير منطقية، وأنا أكتب هذا، أطول مقطع هو 16 ثانية.
في المقابل، فإن أفضل مخرج يجب أن يظهره Sora هو الاستقرار التام، مع الفيزياء التي تبدو صحيحة (بالنسبة لأدمغتنا على الأقل)، ويمكن أن يصل طول المقاطع إلى دقيقة واحدة. المقاطع خالية تمامًا من الصوت، ولكن هناك بالفعل أنظمة ذكاء اصطناعي أخرى يمكنها توليد الموسيقى والمؤثرات الصوتية والكلام. لذلك ليس لدي أدنى شك في أنه يمكن دمج هذه الأدوات في سير عمل Sora، أو في أسوأ الأحوال، التعليق الصوتي التقليدي وعمل فولي.
لا يمكن المبالغة في تقدير مدى القفزة الهائلة التي يمثلها Sora من لقطات فيديو الذكاء الاصطناعي الكابوسية قبل عام واحد فقط من عرض Sora التجريبي. مثل مزعجة للغاية. أعتقد أن هذه صدمة أكبر للنظام مما كانت عليه عندما تحولت مولدات الصور ذات الذكاء الاصطناعي من مجرد مزحة إلى بث الرعب الوجودي في الفنانين التشكيليين.
من المرجح أن يؤثر Sora على صناعة الفيديو بأكملها بدءًا من صانعي اللقطات الفردية وحتى مستوى مشاريع الميزانية الضخمة من Disney وMarvel. لن يتأثر أي شيء بهذا. أعتقد أن هذا صحيح بشكل خاص نظرًا لأن Sora لا يتعين عليه إنشاء أشياء بقطعة قماش كاملة، ولكن يمكنه العمل على المواد الموجودة، مثل تحريك الصورة الثابتة التي قدمتها. قد تكون هذه هي البداية الحقيقية لصناعة الأفلام الاصطناعية.
كيف يعمل Sora؟
سوف نتعمق قليلاً في شخصية Sora بقدر ما نستطيع، لكن ليس من الممكن الخوض في هذا القدر من التفاصيل. أولاً، من المفارقات أن شركة OpenAI ليست منفتحة فيما يتعلق بالأعمال الداخلية لتقنيتها. إنها ملكية خاصة، وبالتالي فإن الصلصة السرية التي تميز Sora عن المنافسة غير معروفة لنا بتفاصيلها الدقيقة. ثانيًا، أنا لست عالم كمبيوتر، وربما أنت لست عالم كمبيوتر، ولذا لا يمكننا أن نفهم كيفية عمل هذه التكنولوجيا إلا بعبارات عامة واسعة.
الخبر السار هو أن هناك شرحًا ممتازًا لـ Sora (محمي بنظام حظر الاشتراك غير المدفوع) بقلم مايك يونج على موقع Medium، استنادًا إلى تقرير فني من OpenAI والذي تم تفصيله لكي نفهمه نحن مجرد بشر. وفي حين أن كلتا الوثيقتين تستحقان القراءة، إلا أنه يمكننا استخلاص أهم الحقائق هنا.
تم بناء Sora على الدروس التي تعلمتها شركات مثل OpenAI عند إنشاء تقنيات مثل ChatGPT أو DALL-E. ابتكر Sora كيفية تدريبه على نماذج مقاطع فيديو عن طريق تقسيم مقاطع الفيديو هذه إلى “تصحيحات” تشبه “الرموز المميزة” التي يستخدمها نموذج تدريب ChatGPT. نظرًا لأن هذه الرموز المميزة كلها متساوية الحجم، فإن أشياء مثل طول المقطع ونسبة العرض إلى الارتفاع وحجم الدقة لا تهم Sora.
يستخدم Sora نفس نهج المحولات الواسع الذي يعمل على تشغيل GPT جنبًا إلى جنب مع طريقة الانتشار التي تستخدمها مولدات صور الذكاء الاصطناعي. أثناء التدريب، ينظر إلى رموز التصحيح المزعجة المنتشرة جزئيًا من مقطع فيديو ويحاول التنبؤ بالشكل الذي سيبدو عليه الرمز المميز الخالي من الضوضاء. ومن خلال مقارنة ذلك بالحقيقة الأرضية، يتعلم النموذج “لغة” الفيديو. وهذا هو السبب في أن الأمثلة من موقع Sora تبدو أصلية جدًا.
وبصرف النظر عن هذه القدرة الرائعة، يتمتع Sora أيضًا بتعليقات توضيحية مفصلة للغاية مضمنة لإطارات الفيديو التي تم تدريبه عليها، وهو جزء كبير من سبب قدرته على تعديل مقاطع الفيديو التي ينشئها بناءً على المطالبات النصية.
يبدو أن قدرة Sora على محاكاة الفيزياء بدقة في مقاطع الفيديو هي ميزة ناشئة، والتي تنتج ببساطة من تدريبه على ملايين مقاطع الفيديو التي تحتوي على حركة تعتمد على فيزياء العالم الحقيقي. يتمتع Sora بثبات ممتاز للكائن، حتى عندما يغادر الكائن الإطار أو يتم إعاقته بواسطة شيء آخر داخل الإطار، فإنه يظل موجودًا ويعود دون أي إزعاج.
ومع ذلك، لا تزال هناك مشكلات في بعض الأحيان عندما تتفاعل الأشياء الموجودة في الفيديو، مع السببية، ومع إنشاء الكائنات تلقائيًا. أيضًا، ومن المضحك إلى حد ما، يبدو أن Sora يخلط بين اليسار واليمين من وقت لآخر. ومع ذلك، فإن ما تم عرضه حتى الآن ليس فقط قابلاً للاستخدام بالفعل، ولكنه أيضًا أحدث ما توصلت إليه التكنولوجيا.
متى ستحصل على Sora ؟
لذلك نحن جميعًا متحمسون للغاية للتدريب العملي على Sora، ويمكنك المراهنة على أقل مبلغ ممكن من المال، وسألعب به وأكتب بالضبط مدى جودة هذه التكنولوجيا عندما لا تظهر لنا مخرجات منتقاة بعناية، ولكن متى يمكن أن يحدث هذا؟
حتى كتابة هذه السطور، ليس من الواضح بالضبط كم من الوقت سيستغرق قبل أن يصبح Sora متاحًا لعامة الناس، أو كم سيكلف ذلك. ذكرت OpenAI أن التكنولوجيا في أيدي “الفريق الأحمر”، وهو مجموعة من الأشخاص الذين تتمثل مهمتهم في محاولة جعل Sora يفعل كل الأشياء الشريرة التي ليس من المفترض أن يفعلها، ثم المساعدة في وضع حواجز الحماية ضد هذا النوع. يحدث الشيء عندما يتمكن العملاء الفعليون من استخدامه. يتضمن ذلك إمكانية إنشاء معلومات مضللة، أو إنشاء مواد مهينة أو مسيئة، والعديد من الانتهاكات الأخرى التي قد يتخيلها المرء.
إنه أيضًا، حتى كتابة هذه السطور، في أيدي منشئي المحتوى المختارين، والذي أعتقد أنه لأغراض الاختبار، وللحصول على بعض مراجعات وموافقات الطرف الثالث بينما نؤدي إلى إصداره النهائي.
خلاصة القول هي أننا لا نعرف في الواقع متى سيكون متاحًا، بنفس الطريقة التي يمكنك فقط الدفع مقابل استخدام DALL-E 3، وفي الواقع حتى OpenAI ليس لديه تاريخ محدد بعد. هذا ببساطة لأنه إذا كان الأمر في أيدي مختبري السلامة، فقد يكشفون عن مشكلات تستغرق وقتًا أطول لإصلاحها أكثر من المتوقع، مما سيؤدي إلى تأخير الإصدار العام.
حقيقة أن OpenAI تشعر بأنها مستعدة لإظهار Sora وحتى تلقي بعض المطالبات العامة المنسقة من خلال X (Twitter سابقًا) تعني ببساطة أن الشركة تعتقد أن جودة المنتج النهائي جاهزة إلى حد كبير، ولكن حتى تكون هناك صورة أفضل للرأي العام ، قضايا السلامة المثارة، وكذلك قضايا السلامة المكتشفة، لا أحد يستطيع أن يقول على وجه اليقين. أعتقد أننا نتحدث عن أشهر وليس سنوات، لكن لا تتوقع ذلك الأسبوع المقبل.