GPT-4 score complet grâce aux mathématiques de premier cycle du MIT ? J'ai peur que ce soit faux, il y a quelque chose qui ne va pas avec l'ensemble de données lui-même

Question

Titre original : "L'article explosif "GPT-4 MIT Undergraduate Mathematics Full Score" triché, l'ensemble de données lui-même a des problèmes"

Au cours des deux derniers jours, un article sur GPT-4 réussissant les examens de premier cycle MIT EECS et mathématiques avec toutes les notes est devenu viral sur Twitter.

Adresse papier :

En bref, une équipe de recherche du MIT a compilé un ensemble de données complet de 4 550 problèmes et solutions à partir de questions de cours, de mi-session et d'examens finaux pour les majeures en mathématiques, en génie électrique et en informatique (EECS) de leur école.

Ensuite, l'équipe de recherche a demandé à divers grands modèles de langage de compléter le sujet de cet ensemble de données, et les résultats étaient trop effrayants : GPT-3.5 pouvait faire 1/3 correctement, et GPT-4 a passé presque toutes les notes.

L'auteur de l'article a déclaré que l'amélioration des performances du modèle dépend principalement de "l'ensemble en quatre parties": apprentissage en quelques coups, CoT, autocritique, expert.

Comme indiqué dans le tableau ci-dessus, plus il y a de façons d'ajouter GPT-4, plus le taux de réponses correctes du modèle est élevé. Le GPT-4 d'origine a pu obtenir un score de taux correct de 90. Après quelques opérations, il a même obtenu directement un score complet.

Mais la plupart des internautes qui ont une discussion animée n'ont peut-être pas remarqué que ce score lui-même a été marqué avec GPT-4...

Trois étudiants également du MIT ont découvert cet article pour la première fois.En tant que groupe presque dépassé par GPT-4, ils ont voulu comprendre immédiatement la méthodologie de l'article populaire.

Après une heure de recherche, ils ont eu des doutes sur les méthodes du journal.

Deux heures plus tard, ils ont réalisé : il y avait quelque chose qui n'allait pas avec l'ensemble de données lui-même.

Bien que les auteurs de l'article original aient affirmé avoir examiné manuellement la qualité de l'ensemble de données publié, le trio a trouvé des signes clairs qu'une partie importante de l'ensemble de données de test était contaminée.

En d'autres termes, le modèle est comme un étudiant à qui on a dit la réponse avant l'examen, ce qui est une "tricherie" flagrante.

Après avoir été interrogés, ils ont immédiatement entrepris de terminer l'analyse GPT-4 à échantillon zéro sur l'ensemble de données et ont noté manuellement les 30 % supérieurs des données. Le résultat était loin de l'article original. Il faut dire que c'est un ciel et un sous-sol.

"En tant qu'étudiants de premier cycle du MIT, du moins d'après notre expérience, cet ensemble de tests ne représente pas avec précision l'étendue et la profondeur de la compréhension requise pour obtenir un diplôme EECS au MIT", a écrit le trio dans un article de blog.

* Derniers progrès : le taux de précision du GPT-4 à échantillon zéro peut atteindre 62,5 %, mais il est encore loin des 90 % revendiqués dans l'article. *

Le trio a également remis en question la vague de "sur-publicité": "Ces articles sont souvent téléchargés sur Arxiv et largement partagés sur Twitter avant tout examen légitime par les pairs. L'avenir du travail crée un mauvais précédent."

Le combattant du "deep learning", Gary Marcus, a également soutenu sans surprise cette vague de doutes :

Dans le même temps, les trois ont également souligné dans le blog que plusieurs des auteurs répertoriés dans l'article "Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models" sont des chercheurs de premier cycle, et laissent ces personnes être responsables de toute erreur dans leur le travail est inapproprié. Au lieu de cela, la responsabilité devrait incomber aux auteurs mentors - ce sont eux qui sont censés s'assurer que leur travail est conforme aux normes de l'érudition publique dans leur domaine.

Ensuite, regardons les problèmes avec ce papier « explosif ».

Quel est le problème avec l'ensemble de données ?

Premièrement, comme le montre l'article original, l'ensemble de données collecté par les chercheurs contient 4550 problèmes et les solutions correspondantes pour 30 cours de mathématiques et EECS requis pour obtenir l'examen du diplôme du MIT, couvrant les cours de base et les cours au choix.

"Un ensemble de test de 288 questions a été sélectionné au hasard parmi les questions sans images et avec des solutions", indique le document.

Cet ensemble de données (à l'exclusion de l'ensemble de formation utilisé pour affiner le LLM open source) a également été publié sur GitHub avec la publication de l'article, ainsi que le code utilisé pour générer le test de performance rapporté. Cependant, l'auteur, le professeur Drori, l'a supprimé dans une soumission récente.

Après vérification et comparaison, les trois sont convaincus que ce fichier supprimé représente l'ensemble de test analysé dans l'article, car le chemin du fichier de toutes les données dans le code d'évaluation pointe vers lui, aucun code pour modifier son contenu n'est fourni, et il a été initialement La version est disponible dans le référentiel GitHub. De plus, le fichier répond à toutes les exigences du schéma (nombre de lignes, etc.) spécifiées dans l'article. Les preuves semblent étayer très fortement toutes les affirmations suivantes,

"Cependant, nous reconnaissons qu'il est possible que ce fichier ait été remplacé par un fichier différent utilisé pour les tests. Si tel est le cas, nous pensons que la charge de la preuve incombe aux auteurs de rendre publiques ces données et toutes les analyses effectuées avec. ."

Alors, quel est le problème qui est passé sous silence ? Les trois ont donné leur propre analyse.

Problèmes insolubles (environ 4 % de l'ensemble de tests)

Étant donné que l'article original indiquait que toute forme de GPT-4 produirait un score parfait sur l'ensemble de test, le trio a entrepris d'examiner des points de données individuels. Ils ont rapidement découvert qu'un score parfait n'était tout simplement pas possible, car il y avait au moins 10 questions dans l'ensemble de données qui ne pouvaient pas être résolues avec les informations fournies, et plusieurs autres n'étaient tout simplement pas des questions valides dans ce cas.

Ces "questions problématiques" représentaient au moins 4 % de l'ensemble de tests.

Dans un document Excel étendu, le trio a annoté des exemples d'ensembles de données qui s'étaient avérés problématiques. "Rouge" représente un problème qui ne peut pas être résolu avec les informations fournies, et "jaune" représente une partie du problème qui n'est pas raisonnable.

Adresse de la page :

Questions en double (environ 5 % de l'ensemble de tests)

En utilisant la détection de similarité textuelle, le trio a découvert que 14 questions (7 paires) étaient des doublons dans l'ensemble de test de 288 questions, et dans ces cas, la seule différence entre les chaînes de questions était un bruit minimal au niveau des caractères, voire même complet.

Compte tenu de ces problèmes insolubles, il est incroyable que GPT-4 puisse atteindre une précision de 100 % par tous les moyens. Soit il y a eu une fuite de réponse au milieu à un moment donné, soit la question n'a pas été notée correctement.

Ces découvertes initiales les ont incités à approfondir leurs recherches en commençant par des exemples à quelques coups (si le modèle échoue avec une précision à zéro coup), découvrant finalement qu'il y avait à la fois une fuite d'informations sur la résolution de problèmes et un problème avec la méthode utilisée pour classer le modèle. sortir. Les détails sont les suivants:

Divulgation d'informations dans quelques exemples

Il convient de noter que le document original mentionnait également la question de "quelques exemples d'exemples".

En bref, le document effectue une recherche de similarité cosinus sur des problèmes similaires dans l'ensemble de données intégré d'OpenAI, et intègre ces problèmes et solutions dans le modèle en tant que contexte supplémentaire pour aider le modèle à résoudre le problème.

Cette approche est bonne en soi, tant que les exemples sont suffisamment différents du problème en question et évitent d'exposer des informations injustes.

En parcourant au hasard l'ensemble de données de test publié, le trio a remarqué quelque chose d'étrange : bon nombre des "quelques exemples" présentés au modèle étaient presque mot pour mot pour la question elle-même.

Pour mieux comprendre cela, ils ont écrit un script simple qui examinait le chevauchement entre l'énoncé du problème et les problèmes répertoriés pour quelques exemples fournis et tracé un histogramme :

Beaucoup ont fourni peu d'échantillons presque identiques à la question elle-même, ce qui signifie que le modèle a obtenu une réponse à la question ou une question très similaire à la question. En règle générale, cela provient de la répétition d'un grand nombre de questions multi-sessions qui partagent le même contexte.

Ils soutiennent que pour évaluer correctement les capacités de résolution de problèmes de GPT, d'autres parties de problèmes à plusieurs étapes devraient être complètement exclues des exemples de problèmes en quelques coups. En fait, ils ont constaté que les solutions à ces problèmes en plusieurs parties faisaient souvent directement référence ou donnaient des réponses à une autre partie du problème que le modèle devait résoudre.

Non seulement cela, mais en explorant les données, ils ont trouvé des cas où la question entière était répétée. Par exemple:

Dans les deux cas, la réponse est exactement la même. Il est difficile de dire qu'il ne s'agit pas d'une fuite d'informations.

Score automatique GPT-4, il y a un problème

De plus, les trois ont également trouvé des problèmes dans le mécanisme de notation open source de l'article original :

def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):

df = pd.read_csv(chemin_entrée)

df = df.iloc[most_recent_q:]

pour index, ligne dans df.iterrows() :

print('Question complète', index)

question_output = row.values.tolist()

course_name = row['Nom du cours']

question = ligne['Question']

solution = ligne['Solution']

fs_qs = [[row['Few shot question 1'], row['Few shot solution 1']], [row['Few shot question 2'], row['Few shot solution 2']], [row[ 'Few shot question 3'], row['Few shot solution 3']]]

experts = get_experts(course_name, question, num_experts).split(', ')

s = [expert lambda : zero_shot_response(question, expert),

expert lambda : few_shot_response(expert, question, fs_qs),

expert lambda : few_shot_response(expert, question, fs_qs, True)

]

critiques = [["Examinez votre réponse précédente et trouvez des problèmes avec votre réponse.", "En fonction des problèmes que vous avez trouvés, améliorez votre réponse."], ["Veuillez fournir des commentaires sur la réponse incorrecte suivante.","Given this feedback , répondez à nouveau."]]

pour l'expert dans les experts :

print("Avec expert", expert)

question_output.append(expert)

critique = Vrai

pour en s :

_response = (expert) # appelle un nouveau ChatCompletion.create

_grade = grade(course_name, question, solution, _response) # GPT-4 notation automatique comparant la réponse à la solution

question_output+=[_response, _grade]

si correct (_grade):

crit = False

casser

si critique :

for critique in critiques:

crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # appelle un nouveau ChatCompletion.create

crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 notation automatique comparant la réponse à la solution

question_output+=[crit_response,crit_grade]

si correct (crit_grade):

casser

repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

Dans le code, on peut voir qu'il y a de sérieux problèmes dans le processus de notation : le papier est évalué et vérifié avec GPT-4, y compris a) la question d'origine, b) la solution et c) la propre réponse de GPT, comme un paramètre dans la notation.

Dans des domaines plus techniques, GPT est plus susceptible d'avoir des malentendus implicites, et cette notation automatique est plus susceptible d'avoir des résultats "d'auto-tromperie".

De plus, bien que la concaténation soit une technique courante dans de nombreux articles récents sur GPT, il existe ici un fort potentiel de fuite de données. Chaque niveau fournit non seulement des informations binaires basées sur la vérité terrain, mais continue jusqu'à ce que la bonne réponse soit atteinte.

Bien que ceux créés ne voient pas la réponse réelle, il suffit de rejouer le formulaire jusqu'à ce que la bonne réponse soit atteinte, en particulier dans le cas des questions à choix multiples, qui représentent 16 % de l'ensemble de test, où un nombre infini d'essais (presque) garantit que la bonne réponse doit être Apparaîtra.

C'est comme si quelqu'un tenait une feuille de réponses et disait aux élèves qui passent le test s'ils avaient obtenu la bonne réponse ou non, et continuait à le rappeler jusqu'à ce qu'ils obtiennent la bonne réponse.

Résumer

À la fin du blog, les trois ont écrit :

L'article parle d'une tendance plus large dans la recherche récente dans le domaine de l'intelligence artificielle. Au fur et à mesure que le domaine progresse de plus en plus vite, la cadence temporelle des nouvelles découvertes semble se raccourcir, ce qui s'accompagne souvent de raccourcis. Une tendance particulièrement inquiétante est l'utilisation de modèles basés sur le langage comme GPT-4 pour évaluer la précision d'un modèle.

Bien qu'il s'agisse d'un outil utile, ses conclusions ne doivent jamais être exagérées, ni considérées comme une vérité de terrain. Des travaux récents ont montré que sans informations exactes sur le terrain, les évaluateurs GPT-4 ne peuvent pas être utilisés de manière fiable pour la vérification. Au minimum, un sous-ensemble aléatoire de l'ensemble de données doit être choisi pour comparer les performances du GPT-4 aux évaluations humaines. Les modèles de langage ne peuvent pas encore être considérés comme des oracles pour générer une vérité de terrain.

De plus, il est extrêmement important de réévaluer chaque point de données et d'effectuer des vérifications de base avant d'utiliser les données, que ce soit pour la formation, l'inférence, l'analyse comparative ou autre. Compte tenu de la petite taille de l'ensemble de données en question, une simple vérification manuelle est facilement réalisable dans le cadre des travaux.

Notre critique porte principalement sur la méthodologie et la rigueur de cette étude, pas sur son contenu. Nous n'avons aucune opinion sur la capacité des grands modèles de langage à résoudre réellement le programme du MIT, sauf que l'article ne parvient pas à le démontrer de manière scientifiquement rigoureuse.

Lien de référence :

Voir l'original

GPT-4 score complet grâce aux mathématiques de premier cycle du MIT ? J'ai peur que ce soit faux, il y a quelque chose qui ne va pas avec l'ensemble de données lui-même

**Quel est le problème avec l'ensemble de données ? **

** Problèmes insolubles (environ 4 % de l'ensemble de tests) **

** Questions en double (environ 5 % de l'ensemble de tests) **

** Divulgation d'informations dans quelques exemples **