نفيديا MAXINE برنامج لتقليل استهلاك البيانات في مكالمات الفيديو بالذكاء الاصطناعي
ابتكر قسم البحث والتطوير NVIDIA Research برنامج جديد اطلقوا عليه اسم MAXINE يعمل على تقليل عرض النطاق الترددي لمكالمات الفيديو بشكل كبير مع تحسين الجودة في الوقت نفسه بالاعتماد على الذكاء الاصطناعي والنتائج كانت مذهلة.
* فيديو يوضح برنامج طريقة عمل برنامج MAXINE
من خلال استبدال برنامج تشفير الفيديو h.264 التقليدي بشبكة عصبية تعتمد على الذكاء الاصطناعي، تمكنوا من تقليل عرض النطاق الترددي المطلوب لمكالمة فيديو مع الحفاظ على اعلى قدر ممكن من الجودة، في أحد الأمثلة تمكن NVIDIA MAXINE معدل البيانات المطلوب من 97.28 كيلوبايت لكل إطار إلى 0.1165 كيلوبايت لكل إطار وهو انخفاض إلى 0.1٪ من عرض النطاق الترددي المطلوب والمفاجئة هي في جودة الفيديو.
الآلية الكامنة وراء مؤتمرات الفيديو بمساعدة الذكاء الاصطناعي بسيطة، تعمل التقنية عن طريق استبدال إطارات الفيديو التقليدية الكاملة بالبيانات العصبية، عادةً ما تعمل مكالمات الفيديو عن طريق إرسال إطارات مشفرة h.264 إلى المستلم وهذه الإطارات ثقيلة للغاية من ناحية البيانات، من خلال مكالمات الفيديو بمساعدة الذكاء الاصطناعي، أولاً يرسل المرسل صورة مرجعية للمتصل، بعد ذلك بدلاً من إرسال دفق من الصور المليئة بالبكسلات، فإنه يرسل نقاط مرجعية محددة على الصورة حول العينين والأنف والفم.
شبكة GAN ( الشبكة العصبية) على جانب المستقبل تقوم باستقبال الصور وتستخدم الصورة المرجعية المدمجة مع نقاط المفاتيح لإعادة بناء الصور اللاحقة، نظرًا لأن النقاط الأساسية أصغر بكثير من صور البكسل الكاملة يتم إرسال بيانات أقل بكثير وبالتالي يمكن أن يكون اتصال الإنترنت أبطأ بكثير ولكنه لا يزال يوفر محادثة فيديو واضحة وعملية.
اكتشف ايضاً | برنامج انفيديا GauGAN لتشكيل صور واقعية من رسومات بدائية
في المثال الأولي للباحثين، أظهروا أن اتصال الإنترنت السريع ينتج عنه نفس جودة البث تقريبًا باستخدام كل من الطريقة التقليدية وطريقة الشبكة العصبية الجديدة، ولكن الأمر الأكثر إثارة للإعجاب هو الأمثلة اللاحقة، حيث تُظهر سرعات الإنترنت انخفاضًا كبيرًا في الجودة باستخدام الطريقة التقليدية، في حين أن الشبكة العصبية قادرة على إنتاج صور فيديو واضحة للغاية وخالية من الاثار الجانبية مثل انخفاض الجودة.
يمكن أن تعمل الشبكة العصبية حتى عندما يرتدي الشخص قناع أو نظارات أو سماعات رأس أو قبعة، باستخدام تقنية MAXINE يمكن لعدد أكبر من الأشخاص الاستمتاع بفترة اتصال مرئي اطول مع استهلاك بيانات أقل بشكل اكبر.
لكن حالات استخدام التكنولوجيا لا تتوقف عند هذا الحد، نظرًا لأن الشبكة العصبية تستخدم البيانات المرجعية بدلاً من التدفق الكامل فإن التكنولوجيا ستسمح لشخص ما بتغيير زاوية النظر للكاميرا للظهور كما لو كان ينظر مباشرةً إلى المتصل، يُطلق عليه “Free View” وهذا من شأنه أن يسمح لأي شخص لديه كاميرا منفصلة خارج الشاشة بالبقاء على اتصال بالعين مع من يقومون بمكالمة فيديو.
يمكن لـ NVIDIA أيضًا استخدام نفس الطريقة للرسوم المتحركة للشخصية، باستخدام نقاط رئيسية مختلفة يمكنهم إضافة الملابس أو الشعر أو حتى تحريك شخصيات ألعاب الفيديو، سيكون لاستخدام هذا النوع من الشبكات العصبية آثار هائلة وستمنح المستخدمين مزيدًا من الحرية عند العمل عن بُعد، ومع ذلك، نظرًا للطريقة التي تعمل بها هذه التكنولوجيا فمن شبه المؤكد أنه ستكون هناك أسئلة حول كيفية نشرها وتؤدي إلى مشكلات محتملة مع الـ ” Deep Fake ” التي تصبح أكثر واقعية ويصعب اكتشافها.