De manière inattendue, le test de mathématiques du MIT a été cassé par GPT-4 ? !
Soudain, quelqu'un a fait une annonce très médiatisée dans les derniers travaux papier :
GPT-4 Aux examens de premier cycle en mathématiques et EECS (département de génie électrique et informatique) du MIT, capacité démontrée à satisfaire pleinement aux exigences d'obtention du diplôme.
Et correctement obtenir tous les points !
Vous savez, ce n'est autre que l'équipe de recherche du MIT, de l'université de Boston et de l'université de Cornell qui a mesuré ce résultat.
Et il est plus fort que le roi de la génération précédente GPT-3.5.Dans le même test, il n'a réussi qu'un tiers.
△ Résultats des tests GPT-3.5
Dès que le papier est sorti, d'innombrables yeux ont été rapidement attirés.
Le comportement apparemment piraté de GPT-4 a naturellement suscité l'émotion de nombreux internautes.
Bien mieux que GPT-3.5, oui !
Disons simplement, est-il possible de résoudre des problèmes académiques sans un modèle plus fort que GPT-4 à l'avenir ?
Certains internautes ont montré leur navigation "à la pointe" sur Internet, jouant une tige dont Yann LeCun s'est plaint "GPT-4 IQ n'est pas aussi bon qu'un chien" ces deux derniers jours :
Examen MIT ouvert GPT-4
Plus précisément, GPT-4 a participé à un tel test cette fois :
L'équipe de recherche a organisé un ensemble de données contenant 4 550 problèmes et solutions.
Ces 4 550 problèmes et solutions proviennent des ensembles de problèmes de cours, des examens de mi-session et des examens finaux que les étudiants ** du département de mathématiques du MIT et de l'EECS doivent étudier pour obtenir un diplôme de premier cycle. **
inclure:
6-1 : Sciences et génie électrique ;
6-2 : Génie Electrique et Informatique ;
6-3 : Informatique et Ingénierie ;
6-4 : Intelligence artificielle et prise de décision ;
18-1 : Mathématiques générales ;
18-2 : Mathématiques Appliquées ;
18-3 : Mathématiques pures ;
18-C : Mathématiques et Informatique.
Résumé détaillé de la classification de chaque majeure
Les questions proviennent toutes de l'ensemble de données du MIT, à partir duquel 228 questions sont générées aléatoirement, problèmes qui n'impliquent pas d'images et de solutions existantes.
Le niveau de difficulté des sujets dans l'ordre de facile à difficile est : exercices, exercices, examens de mi-session, examens finaux, expériences et projets spéciaux.
Triées par type de réponse, la difficulté des questions de facile à difficile est : programmation, ouverte, choix multiple, numérique, expression et image.
Cette fois, non seulement GPT-4 et GPT-3.5, mais aussi StableVicuna-13B, LLaMA-30B et LLaMA-60B** participent au test.
Ces 4 grands modèles ont été choisis comme candidats au test parce qu'ils sont les "grands modèles de langage à la pointe de la technologie".
Résultat de l'examen final
Comme le montrent les données du tableau, le GPT-4 réglé a le score le plus élevé, avec un taux de notation de 100 % ; la performance la plus générale est LLaMA-30B, qui n'a obtenu que 30 % du score.
Il convient de noter que ** la version originale de GPT-4 a été utilisée telle quelle sans aucun réglage, et elle a également obtenu 90 % à cet examen MIT **.
Processus de réglage, y compris Few-Shot+CoT+Autocritique+Experts.
À partir des données tabulaires des résultats finaux du test, nous pouvons voir que chaque fois qu'un lien est ajouté de gauche à droite, le score GPT-4 réglé sera amélioré à un niveau supérieur.
De plus, l'équipe de recherche a également procédé à une optimisation technique dans la boîte de dialogue, les "sorts" spécifiques sont les suivants :
Attendez, l'évaluateur est GPT-4 lui-même ?
Voyant un tel résultat, de nombreux internautes ont estimé que la progression du LLM au test de mathématiques était un peu rapide.
Il y a 2 ans, AI était aux prises avec des problèmes de mathématiques à l'école primaire.
Semblable à ** "Xiao Ming a planté 5 citronniers et a obtenu 6 citrons de chaque arbre chaque année, combien de citrons il a obtenu au total en 10 ans" ** ce genre.
Au début de l'année dernière, une recherche conjointe du MIT + Harvard + Columbia University + Waterloo University a déclaré qu'en convertissant des problèmes mathématiques en problèmes de programmation équivalents, le frère de GPT-3, OpenAI's Codex, peut maîtriser des nombres élevés et atteindre le **niveau de premier cycle du MIT. **.
J'ai appris 6 exemples de questions sélectionnées au hasard dans les cours de mathématiques de base du premier cycle du MIT. 25 questions ont été sélectionnées au hasard pour chacun des 6 cours, plus 60 questions d'un ensemble de données de niveau ACT (American College Entry Examination).
**Un total de 210 questions, l'IA a répondu correctement à toutes. **
Cependant, certaines personnes ont suggéré que le "niveau de premier cycle du MIT" atteint par l'IA est en fait le Codex qui fait des problèmes de langue plutôt que des problèmes de mathématiques——
Parce que dans l'évaluation à l'époque, le Codex était responsable de la lecture et de l'écriture, et n'incluait pas la résolution.
Donc, cette fois, GPT-4 a extrêmement bien fonctionné, quel mot merveilleux ~
Eh bien, je sais que vous êtes impatient d'en faire l'éloge, mais ne vous précipitez pas pour en faire l'éloge, car quelqu'un a vite découvert quelque chose de "bizarre".
Il y a principalement 2 créneaux majeurs.
La première chose qui mérite d'être remise en question est que l'ensemble de données de formation d'OpenAI n'a pas été entièrement publié.
Cela signifie également que ** ne peut pas prouver que les 4550 problèmes et solutions de l'ensemble de données n'existent pas dans l'ensemble de formation GPT-4 **.
En d'autres termes, si GPT-4 a été exposé aux questions du test lors de la phase de pré-formation, il obtiendra finalement un score parfait et il n'y aura pas de surprises.
Il n'est pas étonnant que certains internautes yygq sans ménagement, et croient que GPT-4 a obtenu un tel résultat, il faut que l'ensemble de données ait été inclus dans les données d'entraînement.
Le deuxième emplacement est le taux de score final de 100 % du GPT-4. Qu'est-ce qui semble faux ? ? ?
Regardez de plus près, il y a un point clé dans la section 2.6 du document :
L'équipe affine le grand modèle open source sur l'ensemble de données : "Étant donné une question Q, une solution de vérité terrain S et une réponse LLM A, nous utilisons GPT-4 pour noter automatiquement les réponses du modèle."
En pratique, chaque grand modèle génère les réponses à ce test, puis envoie GPT-4 pour marquer, avec un score compris entre 0 et 5.
**Donc, celui qui a donné la note maximale à GPT-4 est en fait GPT-4 lui-même. **
Ah, ça... C'est difficile de dire qu'il n'y a aucun soupçon que Wang Po vende des melons et se vante.
En outre, de nombreuses personnes se sont plaintes de la nécessité de fournir de "bonnes indications" à GPT-4 pour qu'il obtienne la note maximale.
Certaines personnes ont même crié que ces questions devraient être posées aux étudiants en mathématiques du MIT et à l'EECS, et continuer à leur donner de "bons indices", afin que les étudiants humains puissent également obtenir 100 %...
Encore une chose
Un petit œuf de Pâques :
Tout au long du test, StableVicuna-13B, qui peut être déployé et exécuté sur un ordinateur portable, a également obtenu un score de 48 %.
Ce score est non seulement supérieur de près de 10 points de pourcentage à celui du LLaMA-65B avec un modèle plus grand, mais même le LLaMA-30B après les ajustements du MIT est encore plus élevé.
Les gens doivent réfléchir à la corrélation entre la taille du modèle et la capacité.
Lien de référence :
[1]
[2]
[3]
[4]
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
A réussi l'examen de mathématiques de premier cycle du MIT avec un score complet de GPT-4 ! Cet ensemble d'invites est en feu
Source : Qubit
De manière inattendue, le test de mathématiques du MIT a été cassé par GPT-4 ? !
Soudain, quelqu'un a fait une annonce très médiatisée dans les derniers travaux papier :
GPT-4 Aux examens de premier cycle en mathématiques et EECS (département de génie électrique et informatique) du MIT, capacité démontrée à satisfaire pleinement aux exigences d'obtention du diplôme.
Et correctement obtenir tous les points !
Vous savez, ce n'est autre que l'équipe de recherche du MIT, de l'université de Boston et de l'université de Cornell qui a mesuré ce résultat.
Et il est plus fort que le roi de la génération précédente GPT-3.5.Dans le même test, il n'a réussi qu'un tiers.
Dès que le papier est sorti, d'innombrables yeux ont été rapidement attirés.
Examen MIT ouvert GPT-4
Plus précisément, GPT-4 a participé à un tel test cette fois :
L'équipe de recherche a organisé un ensemble de données contenant 4 550 problèmes et solutions.
Ces 4 550 problèmes et solutions proviennent des ensembles de problèmes de cours, des examens de mi-session et des examens finaux que les étudiants ** du département de mathématiques du MIT et de l'EECS doivent étudier pour obtenir un diplôme de premier cycle. **
inclure:
6-1 : Sciences et génie électrique ; 6-2 : Génie Electrique et Informatique ; 6-3 : Informatique et Ingénierie ; 6-4 : Intelligence artificielle et prise de décision ; 18-1 : Mathématiques générales ; 18-2 : Mathématiques Appliquées ; 18-3 : Mathématiques pures ; 18-C : Mathématiques et Informatique.
Résumé détaillé de la classification de chaque majeure
Les questions proviennent toutes de l'ensemble de données du MIT, à partir duquel 228 questions sont générées aléatoirement, problèmes qui n'impliquent pas d'images et de solutions existantes.
Le niveau de difficulté des sujets dans l'ordre de facile à difficile est : exercices, exercices, examens de mi-session, examens finaux, expériences et projets spéciaux.
Triées par type de réponse, la difficulté des questions de facile à difficile est : programmation, ouverte, choix multiple, numérique, expression et image.
Cette fois, non seulement GPT-4 et GPT-3.5, mais aussi StableVicuna-13B, LLaMA-30B et LLaMA-60B** participent au test.
Ces 4 grands modèles ont été choisis comme candidats au test parce qu'ils sont les "grands modèles de langage à la pointe de la technologie".
Résultat de l'examen final
Comme le montrent les données du tableau, le GPT-4 réglé a le score le plus élevé, avec un taux de notation de 100 % ; la performance la plus générale est LLaMA-30B, qui n'a obtenu que 30 % du score.
Il convient de noter que ** la version originale de GPT-4 a été utilisée telle quelle sans aucun réglage, et elle a également obtenu 90 % à cet examen MIT **.
Processus de réglage, y compris Few-Shot+CoT+Autocritique+Experts.
De plus, l'équipe de recherche a également procédé à une optimisation technique dans la boîte de dialogue, les "sorts" spécifiques sont les suivants :
Attendez, l'évaluateur est GPT-4 lui-même ?
Voyant un tel résultat, de nombreux internautes ont estimé que la progression du LLM au test de mathématiques était un peu rapide.
Semblable à ** "Xiao Ming a planté 5 citronniers et a obtenu 6 citrons de chaque arbre chaque année, combien de citrons il a obtenu au total en 10 ans" ** ce genre.
J'ai appris 6 exemples de questions sélectionnées au hasard dans les cours de mathématiques de base du premier cycle du MIT. 25 questions ont été sélectionnées au hasard pour chacun des 6 cours, plus 60 questions d'un ensemble de données de niveau ACT (American College Entry Examination).
**Un total de 210 questions, l'IA a répondu correctement à toutes. **
Parce que dans l'évaluation à l'époque, le Codex était responsable de la lecture et de l'écriture, et n'incluait pas la résolution.
Donc, cette fois, GPT-4 a extrêmement bien fonctionné, quel mot merveilleux ~
Il y a principalement 2 créneaux majeurs.
La première chose qui mérite d'être remise en question est que l'ensemble de données de formation d'OpenAI n'a pas été entièrement publié.
Cela signifie également que ** ne peut pas prouver que les 4550 problèmes et solutions de l'ensemble de données n'existent pas dans l'ensemble de formation GPT-4 **.
En d'autres termes, si GPT-4 a été exposé aux questions du test lors de la phase de pré-formation, il obtiendra finalement un score parfait et il n'y aura pas de surprises.
Il n'est pas étonnant que certains internautes yygq sans ménagement, et croient que GPT-4 a obtenu un tel résultat, il faut que l'ensemble de données ait été inclus dans les données d'entraînement.
Regardez de plus près, il y a un point clé dans la section 2.6 du document :
L'équipe affine le grand modèle open source sur l'ensemble de données : "Étant donné une question Q, une solution de vérité terrain S et une réponse LLM A, nous utilisons GPT-4 pour noter automatiquement les réponses du modèle."
En pratique, chaque grand modèle génère les réponses à ce test, puis envoie GPT-4 pour marquer, avec un score compris entre 0 et 5.
**Donc, celui qui a donné la note maximale à GPT-4 est en fait GPT-4 lui-même. **
Ah, ça... C'est difficile de dire qu'il n'y a aucun soupçon que Wang Po vende des melons et se vante.
Qu'est-ce qu'un "bon conseil" exactement ? Cela semble impossible à définir.
Encore une chose
Un petit œuf de Pâques :
Tout au long du test, StableVicuna-13B, qui peut être déployé et exécuté sur un ordinateur portable, a également obtenu un score de 48 %.
Les gens doivent réfléchir à la corrélation entre la taille du modèle et la capacité.
Lien de référence : [1] [2] [3] [4]