¿Inesperadamente, la prueba de matemáticas del MIT fue rota por GPT-4? !
De repente, alguien hizo un anuncio de alto perfil en el último papeleo:
GPT-4 En los exámenes de pregrado de Matemáticas y EECS (Departamento de Ingeniería Eléctrica y Ciencias de la Computación) del MIT, capacidad demostrada para cumplir con los requisitos de graduación.
¡Y apropiadamente obtenga la máxima puntuación!
Ya sabes, no es otro que el equipo de investigación del MIT, la Universidad de Boston y la Universidad de Cornell quienes midieron este resultado.
Y es más fuerte que el rey GPT-3.5 de la generación anterior En la misma prueba, solo tuvo éxito en un tercio.
Puntuaciones de la prueba △GPT-3.5
Tan pronto como salió el papel, innumerables ojos se sintieron atraídos rápidamente.
El comportamiento aparentemente de piratería de GPT-4 naturalmente despertó la emoción de muchos internautas.
Mucho mejor que GPT-3.5, ¡sí!
Digamos, ¿es posible resolver problemas académicos sin un modelo más fuerte que GPT-4 en el futuro?
Algunos internautas mostraron su navegación "vanguardista" en Internet, jugando un tallo del que Yann LeCun se quejó sobre "GPT-4 IQ no es tan bueno como un perro" en los últimos dos días:
GPT-4 examen MIT abierto
Específicamente, GPT-4 participó en una prueba de este tipo esta vez:
El equipo de investigación seleccionó un conjunto de datos que contenía 4550 problemas y soluciones.
Estos 4550 problemas y soluciones provienen de los conjuntos de problemas del curso, los exámenes parciales y finales que los estudiantes** del Departamento de Matemáticas del MIT y EECS deben estudiar para obtener un título universitario. **
incluir:
6-1: Ciencias e Ingeniería Eléctrica;
6-2: Ingeniería Eléctrica e Informática;
6-3: Informática e Ingeniería;
6-4: Inteligencia artificial y toma de decisiones;
18-1: Matemáticas Generales;
18-2: Matemáticas Aplicadas;
18-3: Matemática Pura;
18-C: Matemáticas e Informática.
Resumen detallado de la clasificación de cada especialidad
Todas las preguntas provienen del conjunto de datos del MIT, a partir del cual se generan aleatoriamente 228 preguntas, problemas que no involucran imágenes y soluciones existentes.
El nivel de dificultad de los temas en orden de fácil a difícil es: ejercicios, ejercicios, exámenes parciales, exámenes finales, experimentos y proyectos especiales.
Ordenadas por tipo de respuesta, la dificultad de las preguntas de fácil a difícil es: programación, abierta, opción múltiple, numérica, expresión e imagen.
Esta vez, no solo GPT-4 y GPT-3.5, sino también StableVicuna-13B, LLaMA-30B y LLaMA-60B** participan en la prueba.
Estos 4 modelos grandes fueron elegidos como concursantes de prueba porque son los "modelos de lenguaje grande de última generación".
Puntuación del examen final
Como se puede ver en los datos de la tabla, el GPT-4 sintonizado tiene la puntuación más alta, con una tasa de puntuación del 100 %; el rendimiento más general es LLaMA-30B, que solo obtuvo el 30 % de la puntuación.
Vale la pena señalar que la versión original de GPT-4 se usó de fábrica sin ningún ajuste, y también obtuvo un 90 % en este examen del MIT.
Proceso de ajuste, incluyendo Pocas tomas+CoT+Autocrítica+Expertos.
A partir de los datos tabulares de los resultados finales de la prueba, podemos ver que cada vez que se agrega un enlace de izquierda a derecha, la puntuación GPT-4 ajustada mejorará a un nivel superior.
Además, el equipo de investigación también llevó a cabo una optimización de ingeniería en el cuadro de solicitud, "hechizos" específicos son los siguientes:
Espera, ¿el evaluador es el mismo GPT-4?
Al ver tal resultado, muchos internautas sintieron que el progreso de LLM en la prueba de matemáticas fue un poco rápido.
Hace 2 años, AI estaba luchando con problemas de matemáticas de la escuela primaria.
Similar a "Xiao Ming plantó 5 limoneros y obtuvo 6 limones de cada árbol cada año, cuántos limones obtuvo en total en 10 años" este tipo.
A principios del año pasado, una investigación conjunta del MIT+Harvard+Universidad de Columbia+Universidad de Waterloo indicó que al convertir problemas matemáticos en problemas de programación equivalentes, el hermano de GPT-3, el Codex de OpenAI, puede dominar números altos y alcanzar el **nivel de pregrado del MIT. **.
Aprendí 6 preguntas de muestra seleccionadas al azar de los cursos de matemáticas básicas de pregrado del MIT. Se seleccionaron al azar 25 preguntas para cada uno de los 6 cursos, más 60 preguntas de un conjunto de datos de nivel ACT (examen de ingreso a la universidad estadounidense).
** Un total de 210 preguntas, AI las respondió todas correctamente. **
Sin embargo, algunas personas han sugerido que el "nivel de pregrado del MIT" alcanzado por la IA es en realidad Codex que resuelve problemas de lenguaje en lugar de problemas matemáticos——
Porque en la evaluación en ese momento, Codex se encargaba de leer y escribir, y no incluía resolver.
Entonces, esta vez GPT-4 se desempeñó extremadamente bien, qué palabra tan maravillosa ~
Bueno, sé que estás ansioso por elogiarlo, pero no te apresures a elogiarlo, porque alguien pronto descubrió algo "raro".
Hay principalmente 2 tragamonedas principales.
Lo primero que vale la pena cuestionar es que el conjunto de datos de entrenamiento de OpenAI no se ha publicado por completo.
Esto también significa que no se puede probar que los 4550 problemas y soluciones en el conjunto de datos no existen en el conjunto de entrenamiento GPT-4.
En otras palabras, si GPT-4 ha sido expuesto a las preguntas de la prueba en la etapa previa al entrenamiento, finalmente obtendrá una puntuación perfecta y no habrá sorpresas.
No es de extrañar que algunos internautas yygq sin ceremonias y crean que GPT-4 obtuvo tal resultado, debe ser que el conjunto de datos se ha incluido en los datos de entrenamiento.
La segunda ranura es la tasa de puntuación final del 100 % de GPT-4. ¿Qué parece estar mal? ? ?
Eche un vistazo más de cerca, hay un punto clave en la Sección 2.6 del documento:
El equipo afina el modelo grande de código abierto en el conjunto de datos: "Dada una pregunta Q, una solución de verdad básica S y una respuesta A de LLM, usamos GPT-4 para calificar automáticamente las respuestas del modelo".
En la práctica, cada modelo grande genera las respuestas a esta prueba y luego envía GPT-4 para puntuar, con una puntuación entre 0 y 5.
** Entonces, el que le dio a GPT-4 la máxima puntuación es en realidad GPT-4. **
Ah, esto... Es difícil decir que no hay sospechas de que Wang Po esté vendiendo melones y alardeando.
Además, muchas personas se quejaron de la necesidad de proporcionar "buenas pistas" a GPT-4 para que alcance la máxima puntuación.
¿Qué es exactamente un "buen consejo"? Parece imposible de definir.
Algunas personas incluso gritaron que estas preguntas deberían lanzarse a los estudiantes de matemáticas y EECS del MIT para que las hagan, y seguir dándoles "buenas pistas", para que los estudiantes humanos también puedan obtener un puntaje del 100%...
Una cosa más
Un pequeño huevo de Pascua:
A lo largo de la prueba, StableVicuna-13B, que básicamente se puede implementar y ejecutar en una computadora portátil, también tiene una puntuación del 48 %.
Este puntaje no solo es casi 10 puntos porcentuales más alto que el LLaMA-65B con un modelo más grande, sino que incluso el LLaMA-30B después del ajuste fino del MIT es aún más alto.
La gente tiene que pensar en la correlación entre el tamaño del modelo y la capacidad.
Link de referencia:
[1]
[2]
[3]
[4]
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
¡Aprobó el examen de matemáticas de pregrado del MIT con una puntuación total de GPT-4! Este conjunto de avisos está en llamas
Fuente: Qubit
¿Inesperadamente, la prueba de matemáticas del MIT fue rota por GPT-4? !
De repente, alguien hizo un anuncio de alto perfil en el último papeleo:
GPT-4 En los exámenes de pregrado de Matemáticas y EECS (Departamento de Ingeniería Eléctrica y Ciencias de la Computación) del MIT, capacidad demostrada para cumplir con los requisitos de graduación.
¡Y apropiadamente obtenga la máxima puntuación!
Ya sabes, no es otro que el equipo de investigación del MIT, la Universidad de Boston y la Universidad de Cornell quienes midieron este resultado.
Y es más fuerte que el rey GPT-3.5 de la generación anterior En la misma prueba, solo tuvo éxito en un tercio.
Tan pronto como salió el papel, innumerables ojos se sintieron atraídos rápidamente.
GPT-4 examen MIT abierto
Específicamente, GPT-4 participó en una prueba de este tipo esta vez:
El equipo de investigación seleccionó un conjunto de datos que contenía 4550 problemas y soluciones.
Estos 4550 problemas y soluciones provienen de los conjuntos de problemas del curso, los exámenes parciales y finales que los estudiantes** del Departamento de Matemáticas del MIT y EECS deben estudiar para obtener un título universitario. **
incluir:
6-1: Ciencias e Ingeniería Eléctrica; 6-2: Ingeniería Eléctrica e Informática; 6-3: Informática e Ingeniería; 6-4: Inteligencia artificial y toma de decisiones; 18-1: Matemáticas Generales; 18-2: Matemáticas Aplicadas; 18-3: Matemática Pura; 18-C: Matemáticas e Informática.
Resumen detallado de la clasificación de cada especialidad
Todas las preguntas provienen del conjunto de datos del MIT, a partir del cual se generan aleatoriamente 228 preguntas, problemas que no involucran imágenes y soluciones existentes.
El nivel de dificultad de los temas en orden de fácil a difícil es: ejercicios, ejercicios, exámenes parciales, exámenes finales, experimentos y proyectos especiales.
Ordenadas por tipo de respuesta, la dificultad de las preguntas de fácil a difícil es: programación, abierta, opción múltiple, numérica, expresión e imagen.
Esta vez, no solo GPT-4 y GPT-3.5, sino también StableVicuna-13B, LLaMA-30B y LLaMA-60B** participan en la prueba.
Estos 4 modelos grandes fueron elegidos como concursantes de prueba porque son los "modelos de lenguaje grande de última generación".
Puntuación del examen final
Como se puede ver en los datos de la tabla, el GPT-4 sintonizado tiene la puntuación más alta, con una tasa de puntuación del 100 %; el rendimiento más general es LLaMA-30B, que solo obtuvo el 30 % de la puntuación.
Vale la pena señalar que la versión original de GPT-4 se usó de fábrica sin ningún ajuste, y también obtuvo un 90 % en este examen del MIT.
Proceso de ajuste, incluyendo Pocas tomas+CoT+Autocrítica+Expertos.
Además, el equipo de investigación también llevó a cabo una optimización de ingeniería en el cuadro de solicitud, "hechizos" específicos son los siguientes:
Espera, ¿el evaluador es el mismo GPT-4?
Al ver tal resultado, muchos internautas sintieron que el progreso de LLM en la prueba de matemáticas fue un poco rápido.
Similar a "Xiao Ming plantó 5 limoneros y obtuvo 6 limones de cada árbol cada año, cuántos limones obtuvo en total en 10 años" este tipo.
Aprendí 6 preguntas de muestra seleccionadas al azar de los cursos de matemáticas básicas de pregrado del MIT. Se seleccionaron al azar 25 preguntas para cada uno de los 6 cursos, más 60 preguntas de un conjunto de datos de nivel ACT (examen de ingreso a la universidad estadounidense).
** Un total de 210 preguntas, AI las respondió todas correctamente. **
Porque en la evaluación en ese momento, Codex se encargaba de leer y escribir, y no incluía resolver.
Entonces, esta vez GPT-4 se desempeñó extremadamente bien, qué palabra tan maravillosa ~
Hay principalmente 2 tragamonedas principales.
Lo primero que vale la pena cuestionar es que el conjunto de datos de entrenamiento de OpenAI no se ha publicado por completo.
Esto también significa que no se puede probar que los 4550 problemas y soluciones en el conjunto de datos no existen en el conjunto de entrenamiento GPT-4.
En otras palabras, si GPT-4 ha sido expuesto a las preguntas de la prueba en la etapa previa al entrenamiento, finalmente obtendrá una puntuación perfecta y no habrá sorpresas.
No es de extrañar que algunos internautas yygq sin ceremonias y crean que GPT-4 obtuvo tal resultado, debe ser que el conjunto de datos se ha incluido en los datos de entrenamiento.
Eche un vistazo más de cerca, hay un punto clave en la Sección 2.6 del documento:
El equipo afina el modelo grande de código abierto en el conjunto de datos: "Dada una pregunta Q, una solución de verdad básica S y una respuesta A de LLM, usamos GPT-4 para calificar automáticamente las respuestas del modelo".
En la práctica, cada modelo grande genera las respuestas a esta prueba y luego envía GPT-4 para puntuar, con una puntuación entre 0 y 5.
** Entonces, el que le dio a GPT-4 la máxima puntuación es en realidad GPT-4. **
Ah, esto... Es difícil decir que no hay sospechas de que Wang Po esté vendiendo melones y alardeando.
¿Qué es exactamente un "buen consejo"? Parece imposible de definir.
Una cosa más
Un pequeño huevo de Pascua:
A lo largo de la prueba, StableVicuna-13B, que básicamente se puede implementar y ejecutar en una computadora portátil, también tiene una puntuación del 48 %.
La gente tiene que pensar en la correlación entre el tamaño del modelo y la capacidad.
Link de referencia: [1] [2] [3] [4]