GPT-4 النتيجة الكاملة من خلال الرياضيات الجامعية MIT؟ أخشى أنها مزيفة ، هناك خطأ ما في مجموعة البيانات نفسها

2023-06-19 07:12:12

العنوان الأصلي: "التفجير" GPT-4 MIT درجة كاملة للرياضيات الجامعية "ورقة غش ، مجموعة البيانات نفسها بها مشاكل"

في اليومين الماضيين ، انتشرت على تويتر ورقة بحثية حول اجتياز GPT-4 لاختبار MIT MIT EECS والرياضيات الجامعية مع درجات كاملة.

عنوان الورق:

باختصار ، قام فريق بحثي من معهد ماساتشوستس للتكنولوجيا بتجميع مجموعة بيانات شاملة من 4550 مشكلة وحلولًا من أسئلة الدورة التدريبية ، والامتحانات النصفية ، والامتحانات النهائية لتخصصات الرياضيات والهندسة الكهربائية وعلوم الكمبيوتر (EECS) في مدرستهم.

بعد ذلك ، طلب فريق البحث العديد من نماذج اللغات الكبيرة لإكمال موضوع مجموعة البيانات هذه ، وكانت النتائج مخيفة للغاية: يمكن لـ GPT-3.5 أداء 1/3 بشكل صحيح ، وتجاوز GPT-4 العلامات الكاملة تقريبًا.

قال مؤلف الورقة البحثية أن تحسين أداء النموذج يعتمد بشكل أساسي على "المجموعة المكونة من أربع قطع": القليل من التعلم ، CoT ، النقد الذاتي ، الخبراء.

كما هو موضح في الجدول أعلاه ، كلما زادت طرق إضافة GPT-4 ، زاد معدل الإجابة الصحيحة للنموذج. كان GPT-4 الأصلي قادرًا على الحصول على درجة معدل صحيحة بنسبة 90٪. وبعد إجراء بعض العمليات ، حصل على درجة كاملة مباشرةً.

لكن معظم مستخدمي الإنترنت الذين أجروا نقاشًا ساخنًا ربما لم يلاحظوا أن هذه النتيجة نفسها قد تم تسجيلها باستخدام GPT-4 ...

اكتشف ثلاثة طلاب هم أيضًا من معهد ماساتشوستس للتكنولوجيا هذه الورقة لأول مرة ، وكمجموعة تم تجاوزها تقريبًا بواسطة GPT-4 ، أرادوا أن يفهموا على الفور منهجية البحث الشعبي.

بعد ساعة من البحث ، كانت لديهم شكوك حول طرق البحث.

بعد ساعتين ، أدركوا: كان هناك خطأ ما في مجموعة البيانات نفسها.

على الرغم من أن مؤلفي الورقة الأصلية زعموا أنهم راجعوا مجموعة البيانات التي تم إصدارها يدويًا من أجل الجودة ، فقد وجد الثلاثي علامات واضحة على أن جزءًا كبيرًا من مجموعة بيانات الاختبار كان ملوثًا.

بعبارة أخرى ، النموذج يشبه الطالب الذي قيل له الإجابة قبل الامتحان ، وهو "غش" صارخ.

بعد الاستجواب ، شرعوا على الفور في إكمال تشغيل GPT-4 ذي العينة الصفرية على مجموعة البيانات ، وسجلوا يدويًا أعلى 30٪ من البيانات. كانت النتيجة بعيدة عن الورقة الأصلية. ينبغي القول إنها الجنة وتحت الأرض.

كتب الثلاثي في منشور بالمدونة: "بصفتنا طلابًا جامعيين في معهد ماساتشوستس للتكنولوجيا ، على الأقل في تجربتنا ، فإن مجموعة الاختبار هذه لا تمثل بدقة اتساع وعمق الفهم المطلوب للحصول على درجة EECS في معهد ماساتشوستس للتكنولوجيا".

* التقدم الأخير: يمكن أن يصل معدل الدقة لعينة صفرية GPT-4 إلى 62.5٪ ، لكنه لا يزال بعيدًا عن نسبة 90٪ المطالب بها في الورقة. *

وشكك الثلاثي أيضًا في تيار "الإفراط في الدعاية": "غالبًا ما يتم تحميل هذه الأوراق على Arxiv ومشاركتها على نطاق واسع على Twitter قبل أي مراجعة شرعية من الأقران. مستقبل العمل يشكل سابقة سيئة".

كما دعم مقاتل "التعلم العميق" غاري ماركوس بشكل غير مفاجئ هذه الموجة من الشكوك:

في الوقت نفسه ، أشار الثلاثة أيضًا في مدوناتهم إلى أن العديد من المؤلفين المدرجين في ورقة "استكشاف مناهج MIT للرياضيات ومنهج EECS باستخدام نماذج اللغة الكبيرة" هم باحثون جامعيون ، مما يجعل هؤلاء الأشخاص مسؤولين عن أي أخطاء في عملهم. غير مناسب. بدلاً من ذلك ، يجب أن يقع العبء على عاتق المؤلفين الموجّهين - فهم الذين يُتوقع منهم التأكد من أن عملهم يتوافق مع معايير المنح العامة في مجالهم.

بعد ذلك ، دعنا نلقي نظرة على مشاكل هذه الورقة "المتفجرة".

ما هو الخطأ في مجموعة البيانات؟

أولاً ، كما هو معروف من الورقة الأصلية ، تحتوي مجموعة البيانات التي جمعها الباحثون على 4550 مشكلة وحلول مقابلة لـ 30 دورة في الرياضيات و EECS مطلوبة للحصول على امتحان درجة معهد ماساتشوستس للتكنولوجيا ، والتي تغطي الدورات الأساسية والدورات الاختيارية.

تقول الورقة البحثية: "تم اختيار مجموعة اختبار مكونة من 288 سؤالاً بشكل عشوائي من بين الأسئلة بدون صور ومع حلول".

تم إصدار مجموعة البيانات هذه (لا تشمل مجموعة التدريب المستخدمة لضبط LLM مفتوح المصدر) أيضًا على GitHub مع نشر الورقة ، جنبًا إلى جنب مع الكود المستخدم لإنشاء اختبار الأداء المبلغ عنه. ومع ذلك ، قام المؤلف ، البروفيسور دروري ، بإزالته في تقرير حديث.

بعد التدقيق والمقارنة ، يقتنع الثلاثة بأن هذا الملف المحذوف يمثل مجموعة الاختبار التي تم تحليلها في الورقة ، لأن مسار الملف لجميع البيانات في كود التقييم يشير إليه ، ولا يوجد كود لتعديل محتواه ، وكان في البداية الإصدار متاح في مستودع جيثب. بالإضافة إلى ذلك ، يفي الملف بجميع متطلبات المخطط (عدد الأسطر ، إلخ) المحددة في الورق. يبدو أن الأدلة تدعم بقوة جميع الادعاءات التالية ،

"ومع ذلك ، فإننا نقر بإمكانية استبدال هذا الملف بملف مختلف يُستخدم للاختبار. وإذا كان الأمر كذلك ، فنحن نعتقد أن عبء الإثبات يقع على عاتق المؤلفين لنشر هذه البيانات وجميع التحليلات التي تم إجراؤها بها. . "

إذن ، ما هي المشكلة التي يتم التستر عليها؟ أعطى الثلاثة تحليلهم الخاص.

مشاكل غير قابلة للحل (حوالي 4٪ من مجموعة الاختبار)

بالنظر إلى أن الورقة الأصلية ذكرت أن أي شكل من أشكال GPT-4 سينتج درجة مثالية في مجموعة الاختبار ، شرع الثلاثي في فحص نقاط البيانات الفردية. سرعان ما اكتشفوا أن النتيجة المثالية لم تكن ممكنة ببساطة ، حيث كان هناك ما لا يقل عن 10 أسئلة في مجموعة البيانات لا يمكن حلها بالمعلومات المقدمة ، والعديد من الأسئلة الأخرى كانت ببساطة أسئلة غير صحيحة في هذه الحالة.

مثل هذه "الأسئلة الإشكالية" شكلت 4٪ على الأقل من مجموعة الاختبار.

في مستند Excel ممتد ، تم العثور على الأمثلة الثلاثية المشروحة لمجموعات البيانات التي تم العثور عليها مشكلة. يمثل "الأحمر" مشكلة لا يمكن حلها بالمعلومات المقدمة ، ويمثل "الأصفر" جزءًا من المشكلة غير معقول.

عنوان الصفحة:

أسئلة مكررة (حوالي 5٪ من مجموعة الاختبار)

باستخدام اكتشاف التشابه النصي ، وجد الثلاثي أن 14 سؤالًا (7 أزواج) كانت مكررة في مجموعة الاختبار المكونة من 288 سؤالًا ، وفي هذه الحالات كان الاختلاف الوحيد بين سلاسل الأسئلة هو الحد الأدنى من الضوضاء على مستوى الأحرف ، أو حتى كاملة.

بالنظر إلى هذه المشكلات غير القابلة للحل ، فمن المذهل أن GPT-4 يمكن أن تحقق دقة بنسبة 100٪ بأي وسيلة. إما أن تكون هناك إجابة تسربت إلى الوسط في مرحلة ما ، أو لم يتم تصنيف السؤال بشكل صحيح.

دفعتهم هذه النتائج الأولية إلى إجراء مزيد من التحقيق بدءًا من أمثلة قليلة الطلقات (إذا فشل النموذج بدقة إطلاق النار الصفري) ، واكتشفوا في النهاية وجود تسرب لمعلومات حل المشكلات ومشكلة في الطريقة المستخدمة لتصنيف النموذج. انتاج. وفيما يلي التفاصيل:

الإفصاح عن المعلومات في أمثلة قليلة

ومن الجدير بالذكر أن الورقة الأصلية ذكرت أيضًا مسألة "نماذج قليلة من الأمثلة".

باختصار ، تُجري الورقة بحثًا عن تشابه جيب التمام حول مشكلات مماثلة ضمن مجموعة بيانات OpenAI المضمنة ، وتدمج هذه المشكلات والحلول في النموذج كسياق إضافي لمساعدة النموذج في حل المشكلة.

هذا النهج جيد في حد ذاته ، طالما أن الأمثلة مختلفة بما فيه الكفاية عن المشكلة المعنية ، وتجنب فضح المعلومات غير العادلة.

بمجرد مسح مجموعة بيانات الاختبار المنشورة بشكل عشوائي ، لاحظ الثلاثي شيئًا غريبًا: العديد من "الأمثلة القليلة اللقطات" المقدمة للنموذج كانت تقريبًا كلمة بكلمة للسؤال نفسه.

لفهم هذا الأمر بشكل أكبر ، كتبوا نصًا بسيطًا بحث في التداخل بين بيان المشكلة والمشكلات المدرجة لبعض الأمثلة المقدمة ورسموا مدرج تكراري:

قدم الكثيرون عينات قليلة كانت متطابقة تقريبًا مع السؤال نفسه ، مما يعني أن النموذج حصل على إجابة على السؤال أو سؤال مشابه جدًا للسؤال. عادة ، يأتي هذا من تكرار عدد كبير من الأسئلة متعددة الجلسات التي تشترك في الخلفية.

يجادلون بأنه من أجل تقييم قدرات GPT في حل المشكلات بشكل صحيح ، يجب استبعاد الأجزاء الأخرى من المشكلات متعددة المراحل تمامًا من أمثلة قليلة للمشكلة. في الواقع ، وجدوا أن حلول هذه المشكلات متعددة الأجزاء غالبًا ما تشير مباشرة أو تعطي إجابات لجزء آخر من المشكلة طُلب من النموذج حله.

ليس هذا فقط ، ولكن من خلال التنقيب في البيانات ، وجدوا حالات تكرر فيها السؤال بأكمله. على سبيل المثال:

في كلتا الحالتين ، الإجابة هي نفسها تمامًا. من الصعب القول إنه ليس تسريبًا للمعلومات.

التسجيل التلقائي GPT-4 ، هناك مشكلة

بالإضافة إلى ذلك ، وجد الثلاثة أيضًا مشاكل في آلية تسجيل المصدر المفتوح للورقة الأصلية:

def تكرار_grading (input_path ، output_path ، num_experts = 3 ، num_fs = 3 ، most_recent_q = 0):

df = pd.read_csv (مسار الإدخال)

df = df.iloc [most_recent_q:]

للفهرس ، صف في df.iterrows ():

طباعة ("إكمال السؤال" ، الفهرس)

question_output = row.values.tolist ()

course_name = row ['اسم المقرر']

question = row ['Question']

الحل = row ['Solution']

fs_qs = [[row ['Few shot question 1']]، row ['Few shot solution 1']]، [row ['Few shot question 2']، row ['Few shot solution 2']]، [row [ 'قليل من السؤال 3'] ، صف ['حل قليل بالرصاص 3']]]

الخبراء = get_experts (course_name، question، num_experts) .split ('،')

s = [lambda expert: zero_shot_response (سؤال ، خبير) ،

خبير lambda: few_shot_response (خبير ، سؤال ، fs_qs) ،

خبير lambda: few_shot_response (خبير ، سؤال ، fs_qs ، صحيح)

]

critiques = [["راجع إجابتك السابقة وابحث عن مشاكل في إجابتك." ، "استنادًا إلى المشكلات التي وجدتها ، حسِّن إجابتك."] ، ["الرجاء تقديم ملاحظات حول الإجابة غير الصحيحة التالية." ، "بالنظر إلى هذه التعليقات ، أجب مرة أخرى. "]]

للخبراء في الخبراء:

طباعة ("باستخدام خبير" ، خبير)

question_output.append (خبير)

crit = صحيح

في ق:

_response = (خبير) # مكالمات جديدة ChatCompletion.create

_grade = الدرجة (course_name ، السؤال ، الحل ، _response) # GPT-4 التقدير التلقائي لمقارنة الإجابة بالحل

question_output + = [_ response، _grade]

إذا كان صحيحًا (_ الدرجة):

crit = خطأ

استراحة

إذا كان النقد:

للنقد في النقد:

crit_response = self_critique_response (expert، course_name، question، question_output [-2]، Critique) # استدعاءات جديدة ChatCompletion.create

crit_grade = الدرجة (اسم الدورة ، سؤال ، حل ، crit_response) # تصنيف تلقائي لـ GPT-4 مقارنة الإجابة بالحل

question_output + = [crit_response، crit_grade]

إذا كان صحيحًا (crit_grade):

استراحة

تكرار_تقييم ('MIT_test_set.csv'، 'MIT_test_set_graded.csv')

في الكود ، يمكن ملاحظة وجود مشكلات خطيرة في عملية التقدير: يتم تقييم الورقة والتحقق منها باستخدام GPT-4 ، بما في ذلك أ) السؤال الأصلي ، ب) الحل ، ج) إجابة GPT الخاصة ، مثل معلمة في الدرجات.

في المجالات التقنية ، من المرجح أن يكون لدى GPT سوء فهم ضمني ، ومن المرجح أن يكون لهذا التقييم التلقائي نتائج "خداع الذات".

أيضًا ، في حين أن التسلسل هو أسلوب شائع في العديد من أوراق GPT الحديثة ، إلا أن هناك احتمالية كبيرة لتسرب البيانات هنا. لا يوفر كل مستوى معلومات ثنائية بناءً على الحقيقة الأساسية فحسب ، بل يستمر حتى الوصول إلى الإجابة الصحيحة.

على الرغم من أن هذه الأسئلة التي تم إنشاؤها لا ترى الإجابة الفعلية ، إلا أنه يكفي إعادة تشغيل النموذج حتى يتم الوصول إلى الإجابة الصحيحة ، خاصة في حالة أسئلة الاختيار من متعدد ، والتي تشكل 16٪ من مجموعة الاختبار ، حيث يوجد عدد لا حصر له من المحاولات (تقريبًا) يضمن أن الإجابة الصحيحة يجب أن تظهر.

هذا مثل شخص يحمل ورقة إجابة ويخبر الطلاب الذين يقومون بإجراء الاختبار ما إذا كانوا قد حصلوا على الإجابة الصحيحة أم لا ، واستمر في تذكير الطلاب حتى يحصلوا على الإجابة الصحيحة.

لخص

في نهاية المدونة كتب الثلاثة:

تتحدث الورقة عن اتجاه أكبر في الأبحاث الحديثة في مجال الذكاء الاصطناعي. مع تقدم المجال بشكل أسرع وأسرع ، يبدو أن الإيقاع الزمني للاكتشافات الجديدة يتضاءل ، والذي غالبًا ما يكون مصحوبًا باختصارات. الاتجاه المقلق بشكل خاص هو استخدام النماذج القائمة على اللغة مثل GPT-4 لتقييم دقة النموذج.

على الرغم من كونها أداة مفيدة ، لا ينبغي أبدًا المبالغة في استنتاجاتها ، ولا ينبغي اعتبارها حقيقة أساسية. أظهر العمل الأخير أنه بدون معلومات دقيقة عن الحقيقة الأساسية ، لا يمكن استخدام مقيمي GPT-4 بشكل موثوق للتحقق. كحد أدنى ، يجب اختيار مجموعة فرعية عشوائية من مجموعة البيانات لمقارنة أداء GPT-4 بالتقييمات البشرية. لا يمكن حتى الآن اعتبار النماذج اللغوية على أنها أوراكل لتوليد الحقيقة الأساسية.

علاوة على ذلك ، من المهم للغاية إعادة تقييم كل نقطة بيانات وإجراء فحوصات أساسية قبل استخدام البيانات ، سواء للتدريب أو الاستدلال أو القياس أو غير ذلك. نظرًا لصغر حجم مجموعة البيانات المعنية ، يمكن تحقيق التحقق اليدوي البسيط بسهولة في نطاق العمل.

نقدنا موجه في المقام الأول إلى منهجية هذه الدراسة وصرامتها ، وليس محتواها. ليس لدينا رأي في قدرة النماذج اللغوية الكبيرة على حل منهج معهد ماساتشوستس للتكنولوجيا فعليًا ، باستثناء أن الورقة فشلت في إثبات ذلك بطريقة صارمة علميًا.

رابط المرجع: *

شاهد النسخة الأصلية

المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.