بشكل غير متوقع ، تم كسر اختبار MIT للرياضيات بواسطة GPT-4؟ !
فجأة قام شخص ما بإعلان رفيع المستوى في أحدث ورقة عمل:
GPT-4 في امتحانات درجة البكالوريوس في الرياضيات و EECS (قسم الهندسة الكهربائية وعلوم الكمبيوتر) في معهد ماساتشوستس للتكنولوجيا ، ** أثبتت قدرتها على تلبية متطلبات التخرج بالكامل **.
وبشكل صحيح ** احصل على العلامات الكاملة **!
كما تعلم ، ليس سوى فريق البحث من معهد ماساتشوستس للتكنولوجيا وجامعة بوسطن وجامعة كورنيل الذي قاس هذه النتيجة.
وهو أقوى من الجيل السابق من الملك GPT-3.5 ، وفي نفس الاختبار نجح في الثلث فقط.
△ درجات اختبار GPT-3.5
بمجرد أن خرجت الصحيفة ، سرعان ما انجذبت عيون لا حصر لها.
أثار سلوك القرصنة GPT-4 على ما يبدو مشاعر العديد من مستخدمي الإنترنت.
أفضل بكثير من GPT-3.5 ، نعم!
دعنا نقول فقط ، هل من الممكن حل المشكلات الأكاديمية بدون نموذج أقوى من GPT-4 في المستقبل؟
أظهر بعض مستخدمي الإنترنت تصفحهم "المتطور" على الإنترنت ، حيث قاموا بلعب ساق اشتكى Yann LeCun من "GPT-4 IQ ليس بجودة الكلب" في اليومين الماضيين:
GPT-4 اختبار MIT مفتوح
على وجه التحديد ، شارك GPT-4 في مثل هذا الاختبار هذه المرة:
قام فريق البحث برعاية مجموعة بيانات تحتوي على 4550 مشكلة وحلول.
هذه المشاكل والحلول البالغ عددها 4550 هي من مجموعات مشاكل الدورة التدريبية ، والامتحانات النصفية ، والامتحانات النهائية التي يحتاجها الطلاب ** من قسم الرياضيات في معهد ماساتشوستس للتكنولوجيا و EECS للدراسة للحصول على درجة جامعية. **
يشمل:
6-1: العلوم والهندسة الكهربائية.
6-2: الهندسة الكهربائية وعلوم الحاسوب.
6-3: علوم وهندسة الحاسوب.
6-4: الذكاء الاصطناعي واتخاذ القرار ؛
18-1: رياضيات عامة ؛
18-2: الرياضيات التطبيقية.
18-3: الرياضيات البحتة ؛
18-ج: الرياضيات وعلوم الحاسوب.
تصنيف مفصل لكل تخصص
جميع الأسئلة مأخوذة من مجموعة بيانات معهد ماساتشوستس للتكنولوجيا ، والتي يتم من خلالها إنشاء 228 سؤالًا بشكل عشوائي ، ** المشكلات التي لا تتضمن الصور والحلول الحالية **.
مستوى صعوبة الموضوعات بالترتيب من السهل إلى الصعب هو: التدريبات ، والتمارين ، والامتحانات النصفية ، والامتحانات النهائية ، والتجارب ، والمشاريع الخاصة.
مرتبة حسب نوع الإجابة ، صعوبة الأسئلة من السهل إلى الصعب هي: البرمجة ، والفتح ، والاختيار من متعدد ، والعددي ، والتعبير والصورة.
هذه المرة ، ليس فقط GPT-4 و GPT-3.5 ، ولكن أيضًا StableVicuna-13B و LLaMA-30B و LLaMA-60B ** يشاركون في الاختبار.
تم اختيار هذه النماذج الأربعة الكبيرة كمتسابقين للاختبار لأنها تمثل "أحدث النماذج اللغوية الكبيرة".
نتيجة الامتحان النهائي
كما يتضح من البيانات الواردة في الجدول ، فإن GPT-4 الذي تم ضبطه لديه أعلى درجة ، بمعدل تسجيل 100٪ ؛ الأداء الأكثر عمومية هو LLaMA-30B ، الذي سجل 30٪ فقط من النتيجة.
تجدر الإشارة إلى أن ** الإصدار الأصلي من GPT-4 تم استخدامه خارج الصندوق دون ضبط على الإطلاق ، كما أنه سجل 90٪ في اختبار MIT هذا **.
عملية الضبط ، بما في ذلك قليل من الطلقات + CoT + النقد الذاتي + الخبراء.
من البيانات المجدولة لنتائج الاختبار النهائية ، يمكننا أن نرى أنه في كل مرة تتم إضافة رابط من اليسار إلى اليمين ، سيتم تحسين درجة GPT-4 المضبوطة إلى مستوى أعلى.
بالإضافة إلى ذلك ، أجرى فريق البحث أيضًا تحسينًا هندسيًا في مربع المطالبة ، ** "تعويذات" محددة ** هي كما يلي:
انتظر ، المقيم هو GPT-4 نفسه؟
عند رؤية مثل هذه النتيجة ، شعر العديد من مستخدمي الإنترنت أن تقدم ماجستير في الرياضيات كان سريعًا بعض الشيء.
قبل عامين ، كان الذكاء الاصطناعي يعاني من مشاكل الرياضيات في المدارس الابتدائية.
على غرار ** "قام Xiao Ming بزراعة 5 أشجار ليمون ، وحصل على 6 ليمونات من كل شجرة كل عام ، كم عدد الليمون الذي حصل عليه إجمالاً في 10 سنوات" ** هذا النوع.
في بداية العام الماضي ، ذكر البحث المشترك لمعهد ماساتشوستس للتكنولوجيا + جامعة هارفارد + جامعة كولومبيا + جامعة واترلو أنه من خلال تحويل المشكلات الرياضية إلى مشكلات برمجة مكافئة ، يمكن لشقيق GPT-3 ، وهو كودكس OpenAI ، إتقان أعداد كبيرة والوصول إلى ** المستوى الجامعي في معهد ماساتشوستس للتكنولوجيا. **.
لقد تعلمت 6 أسئلة نموذجية تم اختيارها عشوائيًا من دورات الرياضيات الأساسية للطلاب الجامعيين في معهد ماساتشوستس للتكنولوجيا.تم اختيار 25 سؤالًا بشكل عشوائي لكل من الدورات الست ، بالإضافة إلى 60 سؤالًا من مجموعة بيانات مستوى ACT (امتحان القبول بالكلية الأمريكية).
** ما مجموعه 210 سؤالاً ، أجابت منظمة العفو الدولية على جميع الأسئلة بشكل صحيح. **
ومع ذلك ، اقترح بعض الأشخاص أن "المستوى الجامعي في معهد ماساتشوستس للتكنولوجيا" الذي حققه الذكاء الاصطناعي هو في الواقع مخطوطة تعالج مشاكل اللغة بدلاً من مشاكل الرياضيات -
لأنه في التقييم في ذلك الوقت ، كان الدستور الغذائي مسؤولاً عن القراءة والكتابة ، ولم يشمل الحل.
لذا ، هذه المرة كان أداء GPT-4 جيدًا للغاية ، يا لها من كلمة رائعة ~
حسنًا ، أعلم أنك حريص على الثناء عليه ، لكن لا تتسرع في مدحه ، لأن شخصًا ما اكتشف سريعًا شيئًا "غريبًا".
هناك أساسًا ** فتحتان رئيسيتان **.
أول شيء يستحق التساؤل هو أن مجموعة بيانات التدريب الخاصة بـ OpenAI لم يتم إصدارها بالكامل.
هذا يعني أيضًا أنه ** لا يمكن إثبات أن 4550 مشكلة وحلولًا في مجموعة البيانات غير موجودة في مجموعة تدريب GPT-4 **.
بعبارة أخرى ، إذا تعرضت GPT-4 لأسئلة الاختبار في مرحلة ما قبل التدريب ، فإنها ستحرز في النهاية درجة مثالية ، ولن تكون هناك مفاجآت.
لا عجب أن بعض مستخدمي الإنترنت yygq بشكل غير رسمي ، ويعتقدون أن GPT-4 حصل على مثل هذه النتيجة ، يجب أن تكون مجموعة البيانات قد تم تضمينها في بيانات التدريب.
الفتحة الثانية هي معدل التسجيل النهائي 100٪ لـ GPT-4. ما الخطأ الذي يبدو؟ ؟ ؟
ألق نظرة فاحصة ، هناك نقطة رئيسية في القسم 2.6 من الورقة:
يقوم الفريق بضبط النموذج الكبير مفتوح المصدر في مجموعة البيانات ، "نظرًا لسؤال Q ، وحل الحقيقة الأساسية S ، وإجابة LLM A ، نستخدم GPT-4 لتسجيل إجابات النموذج تلقائيًا."
من الناحية العملية ، يولد كل نموذج كبير الإجابات على هذا الاختبار ، ثم يرسل GPT-4 للتسجيل ، بنتيجة تتراوح بين 0-5.
** إذن الشخص الذي أعطى علامات GPT-4 الكاملة هو في الواقع GPT-4 نفسه. **
آه ، هذا ... من الصعب القول أنه لا يوجد شك في أن وانج بو يبيع البطيخ ويتفاخر.
بالإضافة إلى ذلك ، اشتكى العديد من الأشخاص من الحاجة إلى تقديم "تلميحات جيدة" إلى GPT-4 من أجل تحقيق العلامات الكاملة.
ما هي بالضبط "نصيحة جيدة"؟ يبدو من المستحيل تحديده.
حتى أن بعض الأشخاص صرخوا قائلين إنه يجب طرح هذه الأسئلة على طلاب معهد ماساتشوستس للتكنولوجيا الرياضيات وطلاب EECS ليقوموا بها ، ويستمروا في إعطائهم "تلميحات جيدة" ، حتى يتمكن الطلاب البشريون أيضًا من الحصول على 100٪ ...
شيء اخر
بيضة عيد الفصح الصغيرة:
طوال الاختبار ، حصلت ** StableVicuna-13B ** ، التي يمكن نشرها وتشغيلها على كمبيوتر محمول ، على 48٪ أيضًا.
هذه النتيجة ليست فقط ما يقرب من 10 نقاط مئوية أعلى من LLaMA-65B مع نموذج أكبر ، ولكن حتى LLaMA-30B بعد تصحيح MIT أعلى من ذلك.
يتعين على الناس الوقوع في بعض التفكير حول العلاقة بين حجم النموذج والقدرة.
ارتباط مرجعي:
[1]
[2]
[3]
[4]
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
اجتاز امتحان الرياضيات في معهد ماساتشوستس للتكنولوجيا بدرجة كاملة GPT-4! هذه المجموعة من المطالبات مشتعلة
المصدر: Qubit
بشكل غير متوقع ، تم كسر اختبار MIT للرياضيات بواسطة GPT-4؟ !
فجأة قام شخص ما بإعلان رفيع المستوى في أحدث ورقة عمل:
GPT-4 في امتحانات درجة البكالوريوس في الرياضيات و EECS (قسم الهندسة الكهربائية وعلوم الكمبيوتر) في معهد ماساتشوستس للتكنولوجيا ، ** أثبتت قدرتها على تلبية متطلبات التخرج بالكامل **.
وبشكل صحيح ** احصل على العلامات الكاملة **!
كما تعلم ، ليس سوى فريق البحث من معهد ماساتشوستس للتكنولوجيا وجامعة بوسطن وجامعة كورنيل الذي قاس هذه النتيجة.
وهو أقوى من الجيل السابق من الملك GPT-3.5 ، وفي نفس الاختبار نجح في الثلث فقط.
بمجرد أن خرجت الصحيفة ، سرعان ما انجذبت عيون لا حصر لها.
GPT-4 اختبار MIT مفتوح
على وجه التحديد ، شارك GPT-4 في مثل هذا الاختبار هذه المرة:
قام فريق البحث برعاية مجموعة بيانات تحتوي على 4550 مشكلة وحلول.
هذه المشاكل والحلول البالغ عددها 4550 هي من مجموعات مشاكل الدورة التدريبية ، والامتحانات النصفية ، والامتحانات النهائية التي يحتاجها الطلاب ** من قسم الرياضيات في معهد ماساتشوستس للتكنولوجيا و EECS للدراسة للحصول على درجة جامعية. **
يشمل:
6-1: العلوم والهندسة الكهربائية. 6-2: الهندسة الكهربائية وعلوم الحاسوب. 6-3: علوم وهندسة الحاسوب. 6-4: الذكاء الاصطناعي واتخاذ القرار ؛ 18-1: رياضيات عامة ؛ 18-2: الرياضيات التطبيقية. 18-3: الرياضيات البحتة ؛ 18-ج: الرياضيات وعلوم الحاسوب.
تصنيف مفصل لكل تخصص
جميع الأسئلة مأخوذة من مجموعة بيانات معهد ماساتشوستس للتكنولوجيا ، والتي يتم من خلالها إنشاء 228 سؤالًا بشكل عشوائي ، ** المشكلات التي لا تتضمن الصور والحلول الحالية **.
مستوى صعوبة الموضوعات بالترتيب من السهل إلى الصعب هو: التدريبات ، والتمارين ، والامتحانات النصفية ، والامتحانات النهائية ، والتجارب ، والمشاريع الخاصة.
مرتبة حسب نوع الإجابة ، صعوبة الأسئلة من السهل إلى الصعب هي: البرمجة ، والفتح ، والاختيار من متعدد ، والعددي ، والتعبير والصورة.
هذه المرة ، ليس فقط GPT-4 و GPT-3.5 ، ولكن أيضًا StableVicuna-13B و LLaMA-30B و LLaMA-60B ** يشاركون في الاختبار.
تم اختيار هذه النماذج الأربعة الكبيرة كمتسابقين للاختبار لأنها تمثل "أحدث النماذج اللغوية الكبيرة".
نتيجة الامتحان النهائي
كما يتضح من البيانات الواردة في الجدول ، فإن GPT-4 الذي تم ضبطه لديه أعلى درجة ، بمعدل تسجيل 100٪ ؛ الأداء الأكثر عمومية هو LLaMA-30B ، الذي سجل 30٪ فقط من النتيجة.
تجدر الإشارة إلى أن ** الإصدار الأصلي من GPT-4 تم استخدامه خارج الصندوق دون ضبط على الإطلاق ، كما أنه سجل 90٪ في اختبار MIT هذا **.
عملية الضبط ، بما في ذلك قليل من الطلقات + CoT + النقد الذاتي + الخبراء.
بالإضافة إلى ذلك ، أجرى فريق البحث أيضًا تحسينًا هندسيًا في مربع المطالبة ، ** "تعويذات" محددة ** هي كما يلي:
انتظر ، المقيم هو GPT-4 نفسه؟
عند رؤية مثل هذه النتيجة ، شعر العديد من مستخدمي الإنترنت أن تقدم ماجستير في الرياضيات كان سريعًا بعض الشيء.
على غرار ** "قام Xiao Ming بزراعة 5 أشجار ليمون ، وحصل على 6 ليمونات من كل شجرة كل عام ، كم عدد الليمون الذي حصل عليه إجمالاً في 10 سنوات" ** هذا النوع.
لقد تعلمت 6 أسئلة نموذجية تم اختيارها عشوائيًا من دورات الرياضيات الأساسية للطلاب الجامعيين في معهد ماساتشوستس للتكنولوجيا.تم اختيار 25 سؤالًا بشكل عشوائي لكل من الدورات الست ، بالإضافة إلى 60 سؤالًا من مجموعة بيانات مستوى ACT (امتحان القبول بالكلية الأمريكية).
** ما مجموعه 210 سؤالاً ، أجابت منظمة العفو الدولية على جميع الأسئلة بشكل صحيح. **
لأنه في التقييم في ذلك الوقت ، كان الدستور الغذائي مسؤولاً عن القراءة والكتابة ، ولم يشمل الحل.
لذا ، هذه المرة كان أداء GPT-4 جيدًا للغاية ، يا لها من كلمة رائعة ~
هناك أساسًا ** فتحتان رئيسيتان **.
أول شيء يستحق التساؤل هو أن مجموعة بيانات التدريب الخاصة بـ OpenAI لم يتم إصدارها بالكامل.
هذا يعني أيضًا أنه ** لا يمكن إثبات أن 4550 مشكلة وحلولًا في مجموعة البيانات غير موجودة في مجموعة تدريب GPT-4 **.
بعبارة أخرى ، إذا تعرضت GPT-4 لأسئلة الاختبار في مرحلة ما قبل التدريب ، فإنها ستحرز في النهاية درجة مثالية ، ولن تكون هناك مفاجآت.
لا عجب أن بعض مستخدمي الإنترنت yygq بشكل غير رسمي ، ويعتقدون أن GPT-4 حصل على مثل هذه النتيجة ، يجب أن تكون مجموعة البيانات قد تم تضمينها في بيانات التدريب.
ألق نظرة فاحصة ، هناك نقطة رئيسية في القسم 2.6 من الورقة:
يقوم الفريق بضبط النموذج الكبير مفتوح المصدر في مجموعة البيانات ، "نظرًا لسؤال Q ، وحل الحقيقة الأساسية S ، وإجابة LLM A ، نستخدم GPT-4 لتسجيل إجابات النموذج تلقائيًا."
من الناحية العملية ، يولد كل نموذج كبير الإجابات على هذا الاختبار ، ثم يرسل GPT-4 للتسجيل ، بنتيجة تتراوح بين 0-5.
** إذن الشخص الذي أعطى علامات GPT-4 الكاملة هو في الواقع GPT-4 نفسه. **
آه ، هذا ... من الصعب القول أنه لا يوجد شك في أن وانج بو يبيع البطيخ ويتفاخر.
ما هي بالضبط "نصيحة جيدة"؟ يبدو من المستحيل تحديده.
شيء اخر
بيضة عيد الفصح الصغيرة:
طوال الاختبار ، حصلت ** StableVicuna-13B ** ، التي يمكن نشرها وتشغيلها على كمبيوتر محمول ، على 48٪ أيضًا.
يتعين على الناس الوقوع في بعض التفكير حول العلاقة بين حجم النموذج والقدرة.
ارتباط مرجعي: [1] [2] [3] [4]