كيفية استخدام Sora من OpenAI لتحويل النص إلى فيديو

blank

Sora AI هو نموذج لتحويل النص إلى فيديو تم تطويره بواسطة OpenAI، وهي نفس الشركة التي ابتكرت  ChatGPT.
لا يزال Sora AI قيد التطوير، لذا فإن من يريد الوصول إلى Sora سيتعين عليه الانتظار – في الوقت الحالي. على الرغم من ذلك، فإن النظر في كيفية أدائه مقارنة بمولدات تحويل النص إلى فيديو الأخرى يعد أمرًا مهمًا للتنقل في مستقبل إنشاء محتوى الذكاء الاصطناعي.

توضح مقاطع الفيديو النموذجية الخاصة بـ OpenAI كفاءة Sora AI في إنتاج صور مرئية واقعية. علاوة على ذلك، لا يبدو أن هناك أية مشكلات في إنشاء رسوم متحركة جذابة تشبه الرسوم المتحركة. إن حركات الشخصية والإضاءة والنسب والتفاصيل الدقيقة (مثل عيوب الوجه وملمس الفراء) دقيقة إلى حد ما. على هذا النحو، تتشكل Sora AI لتصبح نموذج الذكاء الاصطناعي المثالي لتحويل النص إلى فيديو.

ان أفضل مولدات الذكاء الاصطناعي لتحويل النص إلى فيديو المتوفرة حتى الآن سهلة الاستخدام وتنشئ محتوى عالي الجودة، وإن كان مع قيود ملحوظة.
حتى الآن، المولدات الأكثر استخدامًا يمكنها فقط إنتاج الوجوه البشرية والجذوع والأصوات بدقة. ولكن يبدو أن OpenAI تبتكر ميزات فريدة تبرز بين المنافسين.

لقد أصبح تطوير نماذج الذكاء الاصطناعي الأحدث والأكثر تعقيدًا والأكثر إثارة للإعجاب بمثابة سباق تسلح. بينما يعمل مبرمجو الذكاء الاصطناعي بجد لابتكار أدوات جديدة ومفيدة، هناك أيضًا حاجة إلى تنفيذ بروتوكولات السلامة.

يعد منع استخدام النماذج القوية مثل Sora لإنشاء رسوم متحركة غير مناسبة (البغيضة، وانتهاك حقوق الطبع والنشر، وغيرها من الاحتمالات السلبية) أمرًا حيويًا. ليس فقط من أجل سلامتنا، ولكن أيضًا لفرض أفضل الممارسات العقلانية في الصناعة، وهو ما تأخذه OpenAI على محمل الجد.

كيفية الوصول إلى Sora AI

لا يوجد حاليًا وصول عام إلى سورا. يمكن لعدد قليل فقط من الأفراد استخدام نموذج تحويل النص إلى فيديو. إلى جانب “الفريق الأحمر” الذي يبحث عن كيفية جعل الاستخدام آمنًا قدر الإمكان، أتاحت OpenAI إمكانية الوصول إلى عدد قليل من الفنانين والمصممين وصانعي الأفلام لأغراض الاختبار.

في الآونة الأخيرة ذكرت الشركة أن لديهم لا يوجد جدول زمني بشأن التوفر العام. علاوة على ذلك، لا تشارك OpenAI تفاصيل حول الأشخاص المشاركين خارج مكاتبها. لقد ذكروا بشكل غامض التواصل مع صانعي السياسات والمعلمين وغيرهم للحصول على تعليقات حول التطوير المسؤول واستخدام Sora.

هل يمكنك أن تصبح أحد مُختبري الذكاء الاصطناعي لـ Sora؟

حتى الآن، لا توجد طريقة رسمية لتصبح أحد مختبري Sora– أو عضوًا في “الفريق الأحمر” في OpenAI. كانت هناك العديد من المواضيع حول مثل هذه الأسئلة في منتدى مجتمع OpenAI. ومع ذلك، يقوم المشرفون بتذكير المستخدمين بسرعة لا توجد طريقة رسمية للتسجيل في اختبار Sora. وبعد هذه التذكيرات، يتم إغلاق المواضيع لتجنب إرباك المستخدمين الآخرين.

OpenAI عازمة على جعل Sora آمنة قدر الإمكان قبل السماح لعامة الناس بوضع أيديهم على نموذج الذكاء الاصطناعي المعقد هذا. السبب الأساسي وراء عدم وجود تفاصيل هو الأمن أيضًا. يعد تقديم معلومات حول المختبرين أمرًا غير آمن، حيث يمكن استهدافهم.

على هذا النحو، قد يستغرق الأمر بعض الوقت قبل أن يتمكن الجمهور من الوصول إلى Sora. تعمل شركة OpenAI على الترويج لجودة نموذج الذكاء الاصطناعي قيد التطوير، لذا قد لا يكون الإصدار العام بعيدًا جدًا في المستقبل. تميل معظم الشركات إلى تسويق خدماتها ومنتجاتها قبل وقت طويل من إطلاقها، ولكن ليس قبل سنوات عادةً. لذلك، ستكون التوقعات المعقولة للإصدار العام لـ Sora AI في وقت لاحق في عام 2024 أو 2025.

أمثلة على كيفية عمل Sora AI

تفتخر Sora بالرسوم المتحركة التي تحدد الصناعة في العديد من المجالات (الإضاءة والتفاصيل الدقيقة والمزيد)، ولكنها تواجه صعوبات مع مخاطر الذكاء الاصطناعي المعتادة.

ما لا يستطيع Sora AI فعله حتى الآن

هناك بعض المشكلات في تفسير المفاهيم والاتجاهات. على سبيل المثال، عندما يُطلب منك إنشاء لقطات لـ “السلطعون الناسك يستخدم مصباحًا متوهجًا كصدفته“، ينتج سورا صورًا لمخلوق يشبه السلطعون بقشرة عامة على ظهره تحتوي على مصباح كهربائي في نهايته الخلفية.

في هذه الرسوم المتحركة الطويلة التي تنطلق على الشاطئ، من الواضح أن الشخصية تشبه السلطعون بشكل غامض. نعم، لديه أرجل ومخالب، ولكن لا توجد أنواع حية من السرطان (أو الحيوانات الشبيهة بالسرطان) لها قوقعة مثل تلك التي تظهر في صور سورا. علاوة على ذلك، لا يتم استخدام المصباح كصدفة، بل يتم تثبيته فقط في الجزء الخلفي من إطار الشخصية.

يمكن العثور على مثال آخر على صفحة الويب المخصصة لـ OpenAI حول Sora. في أحد مقاطع الفيديو الخمسة التي توضح نقاط الضعف الحالية لدى سورا، يصور مقطع بارز رجلاً يركض على جهاز المشي في الاتجاه المعاكس. تمثل المعايير مثل الاتجاهات – لأعلى ولأسفل ولليسار ولليمين – تحديًا حاليًا لتحليل سورا.
لقد كانت شركة OpenAI شفافة وصادقة بشأن نقاط النقص في نموذج تحويل النص إلى فيديو قيد التطوير، وهو ما يبدو كعلامة على أنهم يعرفون أين وكيف يتحسنون.

بشكل عام، هناك 5 مشكلات رئيسية (معروفة) تتعلق برسومات Sora AI:

  • تفسير الاتجاه
  • الشخصيات والأشياء تظهر وتختفي
  • الكائنات والشخصيات تتحرك من خلال بعضها البعض
  • تحديد متى يجب أن تكون الأشياء صلبة أو ناعمة
  • تحديد نتائج التفاعلات الجسدية بين الشخصيات والأشياء

ضع في اعتبارك أن Sora AI لا يزال أمامه طريق طويل قبل أن يصبح جاهزًا للجمهور. وعلى هذا النحو، لا بد من معالجة إخفاقاتها الحالية وتصحيحها – على الأقل إلى حد ما.

ما يفعله Sora AI بشكل جيد

في حين أن منشئ تحويل النص إلى فيديو القادم من OpenAI لا يمكنه التعامل مع جميع جوانب الشخصية الحميمة وتفاعلات الكائنات، إلا أن الصور المرئية لا تشوبها شائبة تقريبًا عندما يكون التركيز على البيئة.

لقطات كاميرا شاملة تصور المناظر الساحلية و مناظر جوية ثلجية لطوكيو واقعية بشكل جميل. على قدم المساواة، لقطات الحياة البرية تبدو مقنعة.

علاوة على ذلك، فإن سورا ماهر في الجمع بين المكونات العضوية وغير العضوية عندما تكون التعليمات غامضة. على عكس المطالبات المعقدة والفريدة من نوعها مثل “أعط السلطعون الناسك مصباحًا كهربائيًا مقابل الصدفة”، فإن المطالبات الأبسط تتمتع بمزيد من الحرية مثل “الراعي الألماني السيبراني“تؤدي إلى نتائج أكثر جاذبية.

تذكر أن نماذج الذكاء الاصطناعي تحتاج إلى التعلم من خلال استيعاب البيانات. هناك العديد من الأمثلة المرئية للكلاب ذات الأطراف الصناعية أكثر من صور السرطانات ذات الأشياء الزجاجية على ظهورها.

وعلى نفس المنوال، يتمتع Sora AI بإمكانية الوصول إلى مجموعة كبيرة من لقطات الطبيعة لإنتاج رسوم متحركة بأسلوب وثائقي لا يمكن تمييزها تقريبًا عن الحياة الحقيقية. توليد صور مثل فراشة تستريح على زهرة متسقة وأنيقة.

ولأسباب عكسية، يستطيع Sora إنشاء محتوى جمالي مثير للإعجاب في أماكن خيالية تمامًا. عندما يكون هناك قدر أقل من فيزياء العالم الحقيقي التي يجب مراعاتها، فإن نماذج الذكاء الاصطناعي لتحويل النص إلى فيديو غالبًا ما تملأ الفجوات في المعلومات السريعة بشكل منطقي. ولذلك، فإن المحاكاة التي تمثل مفاهيم الخيال العلمي مثل سباق الطائرات بدون طيار على كوكب المريخ تبدو رائعة، وإن لم تكن واقعية (بحكم طبيعة المطالبة).

إن التوصل إلى مطالبة بمزيد من الرسوم المتحركة الشبيهة بالرسوم المتحركة يستفيد من هذه الحرية. إذا تم ضبط صياغة المطالبة بشكل دقيق، فيمكن لـ Sora تحويل نص إدخال فقرة إلى امتداد للرسوم المتحركة على قدم المساواة مع أمثال Pixar واستوديوهات الرسوم المتحركة ذات الأسماء الكبيرة الأخرى. يمكن أن تكون النتيجة المرح الرائع للسنجاب الكروي– أو أي شيء آخر يرغب فيه المستخدم.

العالم الغريب لمولدات تحويل النص إلى فيديو

بالإضافة إلى أولئك الذين يتجهون نحو مولدات الفيديو المدعومة بالذكاء الاصطناعي لأغراض التصميم وصناعة الأفلام، يرغب البعض في الوصول إلى Sora من أجل المتعة. من خلال تجاوز حدود التفاصيل السريعة، يمكن أن ينتهي الأمر بالمستخدمين ببعض المحتوى المضحك والغريب. من سباقات دراجات عبر المحيطات إلى  الاندماج مع بطانية على السرير، يتم الاستمتاع ببعض المخرجات لقيمتها الكوميدية أكثر من الأغراض الفنية.

فمن ناحية، تعتبر الجوانب الخيالية مغرية للأشخاص المبدعين الذين يبحثون عن التسلية. ومن ناحية أخرى، من المؤكد أن مثل هذه العناصر المرئية ستجعل تطوير الأفلام أسهل. على سبيل المثال، إذا أراد المخرج تصوير مشهد ما واقع بديل حيث تأكل الحيوانات المجوهرات سيكون هناك الكثير من قضايا حقوق الحيوان، على أقل تقدير. ومع ذلك، مع الوصول إلى Sora AI، يمكن إنشاء مثل هذه المشاهد على جهاز كمبيوتر دون أي مخاطر على الإطلاق.

في هذه الأيام، أصبحت صناعة السينما أفضل بكثير مما كانت عليه في السابق في التعامل مع غير البشر بتعاطف أثناء التصوير. إذا لم يكن كذلك، ، ستحدث مولدات تحويل النص إلى فيديو ثورة في كيفية صناعة الأفلام.

نظرة على العمليات الفنية لـ Sora AI

لفهم كيف يستطيع سورا خلق مناظر مذهلة و أداء الخدع السحرية بالملعقة، ينظر الى التقرير الفني لـ OpenAI. تبدأ العملية بضغط بيانات الصورة في تصحيحات الزمكان التي تعمل كرموز محولة. باستخدام مصطلحات الشخص العادي: بقع الزمكان (في هذه الحالة) عبارة عن أقسام صغيرة من المعلومات المرئية التي تحتوي على علامات زمنية. رموز المحولات هي أصغر مستوى من وحدات البيانات المستخدمة في تدريب الذكاء الاصطناعي – كل تصحيح عبارة عن رمز مميز.

تقسيم العملية بشكل أكبر:

  1. يتم تحديد مدخلات الصورة
  2. يتم تشريح مدخلات الصورة إلى بقع
  3. يتم تحليل التصحيحات العشوائية (الرموز المميزة) حتى تتم معالجتها جميعًا

عملية التصحيح ثم تحويل البيانات المرئية إلى رموز مميزة يتيح لنماذج الذكاء الاصطناعي التعلم بكفاءة. يتيح هذا لـ Sora تحديد كيفية ارتباط العناصر، ومتى من المفترض أن تحدث الإجراءات، بالإضافة إلى أشياء أخرى كثيرة.
بالإضافة إلى ذلك، يتيح ذلك لـ Sora استهلاك البيانات المرئية من درجات الدقة ونسب العرض إلى الارتفاع المتعددة. على وجه التحديد، يؤدي استيعاب الصور ومقاطع الفيديو بتنسيقاتها الأصلية إلى تدريب نماذج الذكاء الاصطناعي على كيفية قياس الجوانب المرئية المختلفة بدقة أكبر من خلال مقارنة الاختلافات بين كل رمز مميز.

ومع ذلك، فإن العملية لا تنتهي هنا! بعد التهام الرموز المميزة، يتم تشغيل الحوسبة المعقدة عدة مرات لكل تسلسل إنشاء محتوى. في البداية (عند الحساب الأساسي)، يبدو الفيديو الذي تم إنشاؤه مجردًا. ومع ذلك، مع زيادة حوسبة التدريب، أصبح Sora أكثر وأكثر قدرة على إنتاج صور مشابهة للحياة الحقيقية.

ما تم رؤيته سورا يتفوق على المنافسة حتى الآن. لا تكون مولدات تحويل النص إلى فيديو الحالية قابلة للتطبيق إلا لإدراج مضيف بشري في المحتوى. لا يوجد شيء في السوق حاليًا يمكنه إنشاء مقاطع فيديو معقدة ومذهلة وواقعية (في الغالب) من خلال المطالبات النصية فقط.

لنكن جديين أكثر : أمام Sora AI طريق طويل قبل أن يُسمح للجمهور بالوصول إليه. ومع ذلك، فإنه يظهر وعدًا لا يصدق للعديد من الأغراض الفنية والعلمية. لا يمكن أن تكون أداة رائعة في صناعة الأفلام فحسب، بل قد تسمح للعلماء يومًا ما بمحاكاة سيناريوهات مستحيلة سابقًا. نعم، يحتاج مفهوم سورا للفيزياء إلى تحسين كبير قبل أن يتم استخدامه للسبب الأخير؛ ومع ذلك، فمن المرجح أن يصل هذا النموذج – ونماذج الذكاء الاصطناعي الأخرى المشابهة له – إلى هذا الهدف في غضون سنوات قليلة.

على سبيل المثال، تخيل عالمًا حيث يمكن لألمع العقول استخدام مولدات تحويل النص إلى فيديو لمحاكاة نتائج الحوادث المختلفة. إن القيام بذلك يمكن أن يساعد الباحثين على إنشاء بدلات سلامة ذات جودة لا مثيل لها بجزء صغير من ميزانيتهم ​​السابقة. وهذا بدوره من شأنه أن يقلل من الإصابات والفواتير الطبية وتكاليف تشغيل المستشفى، وكلها من شأنها أن تعود بالنفع على المجتمع.

ومع ذلك، هذا هو الطريق بعيدا حتى الآن. بينما يعمل قادة الصناعة على تعميق فهم Sora والنماذج المماثلة، هناك الكثير من مقاطع الفيديو الغريبة التي تعمل بالذكاء الاصطناعي والتي يمكنك الاستمتاع بها. حتى ذلك الحين، اجلس واسترخي وخطط للمستقبل.

الأسئلة الشائعة

هل Sora AI مفتوح للجمهور؟

في الوقت الحالي، لا، Sora AI ليس مفتوحًا للعامة. لا يوجد جدول زمني للإصدار أيضًا.

هل Sora AI مجاني؟

لا توجد بيانات بخصوص أسعار Sora AI. النموذج لا يزال قيد التطوير ويخضع للاختبار.