¿GPT-4 puntaje completo a través de matemáticas de pregrado del MIT? Me temo que es falso, hay algo mal con el conjunto de datos en sí

Question

Título original: "El explosivo documento "GPT-4 MIT Undergraduate Mathematics Full Score" hizo trampa, el conjunto de datos en sí tiene problemas"

En los últimos dos días, un artículo sobre la aprobación del GPT-4 en los exámenes de grado MIT MIT EECS y matemáticas con la máxima puntuación se ha vuelto viral en Twitter.

Dirección en papel:

En breve resumen, un equipo de investigación del MIT compiló un conjunto de datos completo de 4550 problemas y soluciones de preguntas del curso, exámenes parciales y finales para las carreras de Matemáticas, Ingeniería Eléctrica e Informática (EECS) en su escuela.

Luego, el equipo de investigación pidió a varios modelos de lenguaje grande que completaran el tema de este conjunto de datos, y los resultados fueron demasiado aterradores: GPT-3.5 podía hacer 1/3 correctamente y GPT-4 pasó casi la máxima puntuación.

El autor del artículo dijo que mejorar el rendimiento del modelo depende principalmente del "conjunto de cuatro piezas": aprendizaje de pocos disparos, CdT, autocrítica, experto.

Como se muestra en la tabla anterior, cuantas más formas de agregar GPT-4, mayor será la tasa de respuestas correctas del modelo. El GPT-4 original fue capaz de obtener una puntuación de tasa correcta del 90% Después de algunas operaciones, incluso obtuvo una puntuación completa directamente.

Pero es posible que la mayoría de los internautas que tienen una discusión acalorada no se hayan dado cuenta de que este puntaje en sí se calificó con GPT-4...

Tres estudiantes que también son del MIT descubrieron este artículo por primera vez y, como grupo que casi fue superado por GPT-4, querían comprender de inmediato la metodología del popular artículo.

Después de una hora de investigación, tenían dudas sobre los métodos del artículo.

Dos horas más tarde, se dieron cuenta: había algo mal con el propio conjunto de datos.

Aunque los autores del artículo original afirmaron haber revisado manualmente la calidad del conjunto de datos publicado, el trío encontró signos claros de que una parte significativa del conjunto de datos de prueba estaba contaminado.

En otras palabras, el modelo es como un estudiante al que le dijeron la respuesta antes del examen, lo cual es una "trampa" flagrante.

Después de interrogarlos, inmediatamente se dispusieron a completar la ejecución de GPT-4 de muestra cero en el conjunto de datos y calificaron manualmente el 30% superior de los datos. El resultado estuvo lejos del documento original. Se debe decir que es un el cielo y un subterráneo.

“Como estudiantes universitarios del MIT, al menos en nuestra experiencia, este conjunto de pruebas no representa con precisión la amplitud y profundidad de comprensión requerida para obtener un título de EECS en el MIT”, escribió el trío en una publicación de blog.

*Progreso más reciente: la tasa de precisión de GPT-4 de muestra cero puede alcanzar el 62,5 %, pero todavía está lejos del 90 % declarado en el documento. *

El trío también cuestionó la marea de "publicidad excesiva": "Estos documentos a menudo se cargan en Arxiv y se comparten ampliamente en Twitter antes de cualquier revisión legítima por pares. El futuro del trabajo sienta un mal precedente".

El luchador de "aprendizaje profundo" Gary Marcus, como era de esperar, también apoyó esta ola de dudas:

Al mismo tiempo, los tres también señalaron en el blog que varios de los autores enumerados en el artículo "Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models" son investigadores de pregrado y dejan que estas personas sean responsables de cualquier error en su el trabajo es inapropiado. En cambio, la responsabilidad debe recaer en los autores tutores: son ellos quienes se espera que aseguren que su trabajo se ajuste a los estándares de la erudición pública en su campo.

A continuación, echemos un vistazo a los problemas con este papel "explosivo".

¿Qué está mal con el conjunto de datos?

Primero, como se sabe del documento original, el conjunto de datos recopilados por los investigadores contiene 4550 problemas y las soluciones correspondientes para 30 cursos de matemáticas y EECS necesarios para obtener el examen de grado del MIT, que cubre cursos básicos y cursos electivos.

"Se seleccionó aleatoriamente un conjunto de prueba de 288 preguntas entre las preguntas sin imágenes y con soluciones", se lee en el documento.

Este conjunto de datos (excluyendo el conjunto de entrenamiento utilizado para ajustar el LLM de código abierto) también se publicó en GitHub con la publicación del documento, junto con el código utilizado para generar la prueba de rendimiento informada. Sin embargo, el autor, el profesor Drori, lo eliminó en una presentación reciente.

Después de verificar y comparar, los tres están convencidos de que este archivo eliminado representa el conjunto de prueba analizado en el documento, porque la ruta del archivo de todos los datos en el código de evaluación apunta a él, no se proporciona ningún código para modificar su contenido y fue inicialmente El lanzamiento está disponible en el repositorio de GitHub. Además, el archivo cumple con todos los requisitos del esquema (número de líneas, etc.) especificados en el documento. La evidencia parece apoyar muy fuertemente todas las siguientes afirmaciones,

"Sin embargo, reconocemos que es posible que este archivo haya sido reemplazado por un archivo diferente utilizado para las pruebas. Si este es el caso, creemos que la carga de la prueba recae en los autores para publicar estos datos y todos los análisis realizados con ellos. ."

Entonces, ¿cuál es el problema que se está pasando por alto? Los tres dieron su propio análisis.

Problemas irresolubles (aproximadamente el 4% del conjunto de prueba)

Dado que el documento original decía que cualquier forma de GPT-4 produciría una puntuación perfecta en el conjunto de prueba, el trío se dispuso a examinar puntos de datos individuales. Pronto descubrieron que una puntuación perfecta simplemente no era posible, ya que había al menos 10 preguntas en el conjunto de datos que no podían resolverse con la información proporcionada, y varias otras simplemente no eran preguntas válidas en este caso.

Tales "preguntas problemáticas" representaron al menos el 4% del conjunto de prueba.

En un documento de Excel extendido, el trío anotó ejemplos de conjuntos de datos que resultaron ser problemáticos. "Rojo" representa un problema que no se puede resolver con la información proporcionada, y "amarillo" representa una parte del problema que no es razonable.

Dirección de la página:

Preguntas duplicadas (alrededor del 5 % del conjunto de pruebas)

Utilizando la detección de similitud textual, el trío descubrió que 14 preguntas (7 pares) estaban duplicadas en el conjunto de prueba de 288 preguntas y, en estos casos, la única diferencia entre las cadenas de preguntas era un ruido mínimo en el nivel de los caracteres, o incluso el mismo nivel.

Dados estos problemas irresolubles, es increíble que GPT-4 pueda alcanzar el 100 % de precisión por cualquier medio. O hubo una fuga de respuesta en el medio en algún momento, o la pregunta no se calificó correctamente.

Estos hallazgos iniciales los impulsaron a investigar más a fondo, comenzando con ejemplos de pocos disparos (si el modelo falla en la precisión de disparo cero), y finalmente descubrieron que había una fuga de información para resolver problemas y un problema con el método utilizado para clasificar el modelo. producción. Los detalles son los siguientes:

Divulgación de información en algunos ejemplos de muestra

Vale la pena señalar que el documento original también mencionó el tema de "algunos ejemplos de muestra".

En resumen, el documento realiza una búsqueda de similitud de coseno en problemas similares dentro del conjunto de datos integrado de OpenAI e incorpora estos problemas y soluciones en el modelo como contexto adicional para ayudar al modelo a resolver el problema.

Este enfoque está bien en sí mismo, siempre que los ejemplos sean lo suficientemente diferentes del problema en cuestión y eviten exponer información injusta.

Al escanear aleatoriamente el conjunto de datos de prueba publicado, el trío notó algo extraño: muchos de los "ejemplos de pocas tomas" presentados al modelo eran casi palabra por palabra para la pregunta en sí.

Para comprender mejor esto, escribieron un script simple que analizaba la superposición entre la declaración del problema y los problemas enumerados en algunos ejemplos proporcionados y trazaban un histograma:

Muchos proporcionaron pocas muestras que eran casi idénticas a la pregunta en sí, lo que significa que el modelo obtuvo una respuesta a la pregunta o una pregunta muy similar a la pregunta. Por lo general, esto proviene de la repetición de una gran cantidad de preguntas de varias sesiones que comparten antecedentes.

Argumentan que para evaluar adecuadamente las habilidades de resolución de problemas de GPT, otras partes de los problemas de múltiples etapas deben excluirse por completo de los ejemplos de un problema de pocas tomas. De hecho, encontraron que las soluciones a estos problemas de varias partes a menudo se referían directamente o daban respuestas a otra parte del problema que se le pedía al modelo que resolviera.

No solo eso, sino que al extraer los datos, encontraron casos en los que se repetía toda la pregunta. Por ejemplo:

En ambos casos, la respuesta es exactamente la misma. Es difícil decir que no es una fuga de información.

Puntuación automática de GPT-4, hay un problema

Además, los tres también encontraron problemas en el mecanismo de puntuación de código abierto del documento original:

def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):

df = pd.read_csv(ruta_de_entrada)

df = df.iloc[más_reciente_q:]

para índice, fila en df.iterrows():

print('Completando pregunta', índice)

salida_pregunta = fila.valores.tolist()

nombre_del_curso = fila['Nombre del curso']

pregunta = fila['Pregunta']

solución = fila['Solución']

fs_qs = [[fila['Pregunta de pocos disparos 1'], fila['Solución de pocos disparos 1']], [fila['Pregunta de pocos disparos 2'], fila['Solución de pocos disparos 2']], [fila[ 'Pregunta de pocos tiros 3'], fila['Solución de pocos tiros 3']]]

expertos = obtener_expertos(nombre_del_curso, pregunta, num_expertos).split(', ')

s = [experto lambda: zero_shot_response(pregunta, experto),

experto lambda: few_shot_response (experto, pregunta, fs_qs),

experto lambda: few_shot_response (experto, pregunta, fs_qs, True)

]

críticas = [["Revise su respuesta anterior y encuentre problemas con su respuesta.", "Basado en los problemas que encontró, mejore su respuesta."], ["Proporcione comentarios sobre la siguiente respuesta incorrecta.","Dado este comentario , responde de nuevo."]]

para experto en expertos:

print("Usando experto", experto)

question_output.append (experto)

crítico = Verdadero

para en s:

_response = (experto) # llamadas nuevas ChatCompletion.create

_grade = grade(course_name, question, solution, _response) # GPT-4 calificación automática comparando la respuesta con la solución

question_output+=[_respuesta, _calificación]

si es correcto (_grade):

crit=Falso

romper

si critico:

para la crítica en las críticas:

crit_response = self_critique_response(experto, nombre_del_curso, pregunta, salida_pregunta[-2], crítica) # llama a ChatCompletion.create fresco

crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 calificación automática comparando la respuesta con la solución

question_output+=[crit_response,crit_grade]

si es correcto (crit_grade):

romper

repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

En el código se puede ver que hay serios problemas en el proceso de calificación: el trabajo es evaluado y cotejado con GPT-4, incluyendo a) la pregunta original, b) la solución, y c) la propia respuesta de GPT, como un parámetro en la calificación.

En campos más técnicos, es más probable que GPT tenga malentendidos implícitos, y es más probable que esta puntuación automática tenga resultados de "autoengaño".

Además, si bien la concatenación es una técnica común en muchos documentos GPT recientes, aquí existe un gran potencial para la fuga de datos. Cada nivel no solo proporciona información binaria basada en datos reales, sino que continúa hasta que se alcanza la respuesta correcta.

Aunque estos creados no ven la respuesta real, es suficiente volver a reproducir el formulario hasta llegar a la respuesta correcta, especialmente en el caso de preguntas de opción múltiple, que constituyen el 16% del conjunto de prueba, donde un número infinito de intentos (casi) garantiza que la respuesta correcta debe ser Aparecerá.

Esto es como alguien que sostiene una hoja de respuestas y les dice a los estudiantes que están tomando la prueba si respondieron correctamente o no, y sigue recordándose a los estudiantes hasta que obtengan la respuesta correcta.

Resumir

Al final del blog, los tres escribieron:

El documento habla de una tendencia más amplia en la investigación reciente en el campo de la inteligencia artificial. A medida que el campo avanza cada vez más rápido, la cadencia de tiempo de los nuevos descubrimientos parece acortarse, lo que a menudo va acompañado de atajos. Una tendencia particularmente preocupante es el uso de modelos basados en lenguaje como GPT-4 para evaluar la precisión de un modelo.

Si bien es una herramienta útil, sus conclusiones nunca deben exagerarse, ni deben tomarse como verdades básicas. Un trabajo reciente ha demostrado que sin información veraz y precisa sobre el terreno, los evaluadores GPT-4 no se pueden utilizar de forma fiable para la verificación. Como mínimo, se debe elegir un subconjunto aleatorio del conjunto de datos para comparar el rendimiento de GPT-4 con las evaluaciones humanas. Los modelos de lenguaje aún no pueden considerarse como oráculos para generar la verdad básica.

Además, es extremadamente importante reevaluar cada punto de datos y realizar verificaciones básicas antes de usar los datos, ya sea para capacitación, inferencia, evaluación comparativa u otros. Dado el pequeño tamaño del conjunto de datos en cuestión, la verificación manual simple se logra fácilmente dentro del alcance del trabajo.

Nuestra crítica se dirige principalmente a la metodología y el rigor de este estudio, no a su contenido. No tenemos ninguna opinión sobre la capacidad de los grandes modelos lingüísticos para resolver realmente el currículo del MIT, excepto que el artículo no logra demostrar esto de una manera científicamente rigurosa.

Link de referencia:

Ver originales