GPT-4 هو نموذج مختلط من 8x220 مليار معلمة؟ أصبحت هذه القيل والقال مجنونة اليوم

المصدر: قلب الآلة

جورج هوتز: باستثناء شركة آبل ، فإن السبب الذي يجعل معظم الشركات تحافظ على السر ليس إخفاء بعض التقنيات السوداء ، ولكن لإخفاء بعض الأشياء "غير الرائعة".

"حجم معلمة GPT-4 يصل إلى 100 تريليون." أعتقد أن الكثير من الناس ما زالوا يتذكرون الأخبار "الثقيلة" التي انتشرت على الشاشة في بداية هذا العام والرسم البياني الذي انتشر بسرعة.

لكن سرعان ما خرج سام التمان الرئيس التنفيذي لشركة OpenAI ليدحض الشائعات ، مؤكدًا أن هذه أخبار كاذبة ، وقال: "الشائعات حول GPT-4 سخيفة. لا أعرف حتى من أين أتت".

في الواقع ، يعتقد الكثير من الناس هذه الشائعات وينشرونها لأن مجتمع الذكاء الاصطناعي قد زاد من حجم معلمات نماذج الذكاء الاصطناعي في السنوات الأخيرة. رفع Switch Transformer الذي أصدرته Google في يناير 2021 معايير نموذج AI الكبير إلى 1.6 تريليون. منذ ذلك الحين ، أطلقت العديد من المؤسسات تباعا نماذجها الكبيرة ذات تريليون متغير. بناءً على ذلك ، لدى الناس كل الأسباب للاعتقاد بأن GPT-4 سيكون نموذجًا ضخمًا يحتوي على تريليونات من المعلمات ، وأن 100 تريليون معلمة ليست مستحيلة.

على الرغم من أن شائعة Sam Altman ساعدتنا في التخلص من إجابة خاطئة ، إلا أن فريق OpenAI الذي يقف خلفه كان شديد الصراحة بشأن المعلمات الحقيقية لـ GPT-4 ، وحتى التقرير الفني الرسمي لـ GPT-4 لم يكشف عن أي معلومات.

حتى وقت قريب ، كان يشتبه في أن هذا اللغز اخترق من قبل "الهاكر العبقري" جورج هوتز.

يشتهر جورج هوتز باختراق جهاز iPhone في سن 17 واختراق Sony PS3 في سن 21 عامًا. وهو حاليًا رئيس شركة (comma.ai) تطور أنظمة مساعدة القيادة التلقائية.

تمت مقابلته مؤخرًا بواسطة بودكاست تكنولوجيا الذكاء الاصطناعي يسمى Latent Space. في المقابلة ، تحدث عن GPT-4 ، قائلاً إن GPT-4 هو في الواقع نموذج هجين. على وجه التحديد ، يستخدم نظام مجموعة من 8 نماذج خبراء ، لكل منها 220 مليار معلمة (أكثر بقليل من 175 مليار معلمة GPT-3) ، وقد تم تدريب هذه النماذج على بيانات مختلفة وتدريب على توزيع المهام.

بعد بث هذا البودكاست ، قال مبتكر PyTorch Soumith Chintala أنه يبدو أنه سمع نفس "الإشاعة" ، وربما سمعها كثير من الناس ، لكن جورج هوتز هو من قالها علنًا.

قال جورج هوتز ساخرًا: "النماذج الهجينة هي النماذج التي تضعها في اعتبارك عندما لا يكون لديك ما تفعله." تأتي النماذج الهجينة نظرًا لأنه لا يمكنك جعل النموذج أكبر من 220 مليار معلمة. فهم يريدون أن يكون النموذج أفضل ، ولكن إذا كان فقط وقت التدريب أطول ، وتضاءل التأثير. لذلك ، اعتمدوا ثمانية نماذج من الخبراء لتحسين الأداء. ”أما بالنسبة لكيفية عمل هذا النموذج الهجين ، لم يوضح جورج هوتز.

لماذا تعتبر شركة أوبن إيه آي سرية للغاية بشأن هذا الأمر؟ يعتقد جورج هوتز ، باستثناء Apple ، أن السبب وراء إخفاء معظم الشركات للسرية ليس إخفاء بعض التقنيات السوداء ، ولكن إخفاء بعض الأشياء "غير الرائعة" ، وعدم الرغبة في أن يعرف الآخرون ذلك "طالما أنك تقضي 8 أضعاف المال ، يمكنك الحصول على هذا النموذج ".

أما بالنسبة للاتجاه المستقبلي ، فهو يعتقد أن الناس سوف يقومون بتدريب النماذج الأصغر وتحسين الأداء من خلال الضبط الدقيق على المدى الطويل واكتشاف الحيل المختلفة. وأشار إلى أنه مقارنة بالماضي ، فقد تم تحسين تأثير التدريب بشكل كبير ، على الرغم من عدم تغيير موارد الحوسبة ، مما يدل على أن تحسين طريقة التدريب قد لعب دورًا كبيرًا.

في الوقت الحاضر ، انتشرت "الأخبار العاجلة" لجورج هوتز حول GPT-4 على نطاق واسع على تويتر.

استوحى شخص ما من ذلك الأمر وادعى أنه قام بتدريب فرقة LLaMA ضد GPT-4.

يُقال أيضًا أنه إذا كان GPT-4 ، كما قال جورج هوتز ، نموذجًا هجينًا يتكون من 8 نماذج خبراء مع 220 مليار معلمة ، فمن الصعب تخيل مدى تكلفة المنطق الكامن وراءه.

وتجدر الإشارة إلى أنه نظرًا لأن جورج هوتز لم يذكر المصدر ، فلا يمكننا حاليًا الحكم على صحة التأكيد أعلاه.

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت