Inesperadamente, o teste de matemática do MIT foi quebrado pelo GPT-4? !
De repente, alguém fez um anúncio de alto perfil na última papelada:
GPT-4 Nos exames de graduação de Matemática e EECS (Departamento de Engenharia Elétrica e Ciência da Computação) do MIT, demonstrou capacidade de atender plenamente aos requisitos de graduação.
E corretamente obtenha nota máxima!
Você sabe, não é outro senão a equipe de pesquisa do MIT, da Universidade de Boston e da Universidade de Cornell que mediu esse resultado.
E é mais forte do que o rei da geração anterior GPT-3.5.No mesmo teste, conseguiu apenas um terço.
△ Pontuações do teste GPT-3.5
Assim que o jornal saiu, inúmeros olhares foram rapidamente atraídos.
O comportamento aparentemente hacker do GPT-4 naturalmente despertou a emoção de muitos internautas.
Muito melhor que GPT-3.5, sim!
Vamos apenas dizer, é possível resolver problemas acadêmicos sem um modelo mais forte do que o GPT-4 no futuro?
Alguns internautas mostraram sua navegação "de ponta" na Internet, jogando um talo que Yann LeCun reclamou de "QI GPT-4 não é tão bom quanto um cachorro" nos últimos dois dias:
GPT-4 exame MIT aberto
Especificamente, o GPT-4 participou de tal teste desta vez:
A equipe de pesquisa selecionou um conjunto de dados contendo 4.550 problemas e soluções.
Esses 4.550 problemas e soluções são dos conjuntos de problemas do curso, intermediários e exames finais que os alunos** do Departamento de Matemática do MIT e EECS precisam estudar para obter um diploma de graduação. **
incluir:
6-1: Ciência e Engenharia Elétrica;
6-2: Engenharia Elétrica e Ciência da Computação;
6-3: Ciência e Engenharia da Computação;
6-4: Inteligência artificial e tomada de decisão;
18-1: Matemática Geral;
18-2: Matemática Aplicada;
18-3: Matemática Pura;
18-C: Matemática e Ciência da Computação.
Resumo detalhado da classificação de cada major
As perguntas são todas do conjunto de dados do MIT, do qual 228 perguntas são geradas aleatoriamente, problemas que não envolvem imagens e soluções existentes.
O nível de dificuldade dos tópicos em ordem de fácil a difícil é: exercícios, exercícios, exames intermediários, exames finais, experimentos e projetos especiais.
Classificadas por tipo de resposta, a dificuldade das questões de fácil a difícil é: programação, aberta, múltipla escolha, numérica, expressão e imagem.
Desta vez, não apenas GPT-4 e GPT-3.5, mas também StableVicuna-13B, LLaMA-30B e LLaMA-60B** estão participando do teste.
Esses 4 modelos grandes foram escolhidos como concorrentes do teste porque são os "modelos de linguagem grande de última geração".
Pontuação do Exame Final
Como pode ser visto nos dados da tabela, o GPT-4 ajustado tem a pontuação mais alta, com uma taxa de pontuação de 100%; o desempenho mais geral é o LLaMA-30B, que obteve apenas 30% da pontuação.
Vale a pena notar que a versão original do GPT-4 foi usada imediatamente sem ajuste e também obteve 90% neste exame do MIT.
Processo de ajuste, incluindo Few-Shot+CoT+Autocrítica+Experts.
A partir dos dados tabulares dos resultados finais do teste, podemos ver que toda vez que um link é adicionado da esquerda para a direita, a pontuação ajustada do GPT-4 será aprimorada para um nível mais alto.
Além disso, a equipe de pesquisa também realizou otimização de engenharia na caixa de prompt, ** "feitiços" específicos ** são os seguintes:
Espere, o avaliador é o próprio GPT-4?
Vendo tal resultado, muitos internautas sentiram que o progresso do LLM no teste de matemática foi um pouco rápido.
Há 2 anos, a IA estava lutando com problemas de matemática do ensino fundamental.
Semelhante a "Xiao Ming plantou 5 limoeiros e obteve 6 limões de cada árvore todos os anos, quantos limões ele obteve no total em 10 anos" deste tipo.
No início do ano passado, a pesquisa conjunta do MIT+Harvard+Columbia University+Waterloo University afirmou que, ao converter problemas matemáticos em problemas de programação equivalentes, o irmão do GPT-3, o OpenAI's Codex, pode dominar números elevados e atingir o nível de **Graduação do MIT **.
Eu aprendi 6 questões selecionadas aleatoriamente dos cursos de matemática básica do MIT.25 questões foram selecionadas aleatoriamente para cada um dos 6 cursos, mais 60 questões de um conjunto de dados de nível ACT (exame de admissão em faculdade americana).
**Um total de 210 perguntas, AI respondeu todas elas corretamente. **
No entanto, algumas pessoas sugeriram que o "nível de graduação do MIT" alcançado pela IA é, na verdade, o Codex resolvendo problemas de linguagem em vez de problemas de matemática——
Porque na avaliação daquela época, o Codex era responsável pela leitura e escrita, e não incluía a resolução.
Então, desta vez o GPT-4 teve um desempenho extremamente bom, que palavra maravilhosa~
Bem, eu sei que você está ansioso para elogiá-lo, mas não se apresse em elogiá-lo, porque alguém logo descobriu algo "estranho".
Existem principalmente 2 slots principais.
A primeira coisa que vale a pena questionar é que o conjunto de dados de treinamento do OpenAI não foi totalmente liberado.
Isso também significa que não pode provar que os 4550 problemas e soluções no conjunto de dados não existem no conjunto de treinamento GPT-4.
Em outras palavras, se o GPT-4 foi exposto às perguntas do teste na fase de pré-treinamento, ele finalmente obterá uma pontuação perfeita e não haverá surpresas.
Não é de admirar que alguns internautas yygq sem cerimônia e acreditem que o GPT-4 obteve tal resultado, deve ser que o conjunto de dados tenha sido incluído nos dados de treinamento.
O segundo slot é a taxa de pontuação final de 100% do GPT-4. O que parece errado? ? ?
Dê uma olhada mais de perto, há um ponto-chave na Seção 2.6 do artigo:
A equipe ajusta o modelo grande de código aberto no conjunto de dados: "Dada uma pergunta Q, uma solução de verdade S e uma resposta LLM A, usamos o GPT-4 para pontuar automaticamente as respostas do modelo".
Na prática, cada modelo grande gera as respostas desse teste, e então envia o GPT-4 para pontuar, com uma pontuação entre 0-5.
**Portanto, quem deu nota máxima ao GPT-4 é, na verdade, o próprio GPT-4. **
Ah, isso... É difícil dizer que não há suspeita de que Wang Po esteja vendendo melões e se gabando.
Além disso, muitas pessoas reclamaram da necessidade de fornecer "boas dicas" ao GPT-4 para que ele atinja a nota máxima.
O que exatamente é uma "boa dica"? Parece impossível definir.
Algumas pessoas até gritaram que essas questões deveriam ser lançadas para os alunos de matemática do MIT e EECS fazerem, e continuar dando "boas dicas", para que os alunos humanos também possam pontuar 100% ...
Mais uma coisa
Um pequeno ovo de páscoa:
Ao longo do teste, o StableVicuna-13B, que basicamente pode ser implantado e executado em um laptop, também obteve uma pontuação de 48%.
Essa pontuação não é apenas quase 10 pontos percentuais maior do que o LLaMA-65B com um modelo maior, mas mesmo o LLaMA-30B após o ajuste fino do MIT é ainda maior.
As pessoas precisam pensar sobre a correlação entre o tamanho do modelo e a capacidade.
Link de referência:
[1]
[2]
[3]
[4]
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
Passou no exame de matemática de graduação do MIT com uma pontuação total de GPT-4! Este conjunto de prompts está pegando fogo
Fonte: Qubit See More
Inesperadamente, o teste de matemática do MIT foi quebrado pelo GPT-4? !
De repente, alguém fez um anúncio de alto perfil na última papelada:
GPT-4 Nos exames de graduação de Matemática e EECS (Departamento de Engenharia Elétrica e Ciência da Computação) do MIT, demonstrou capacidade de atender plenamente aos requisitos de graduação.
E corretamente obtenha nota máxima!
Você sabe, não é outro senão a equipe de pesquisa do MIT, da Universidade de Boston e da Universidade de Cornell que mediu esse resultado.
E é mais forte do que o rei da geração anterior GPT-3.5.No mesmo teste, conseguiu apenas um terço.
Assim que o jornal saiu, inúmeros olhares foram rapidamente atraídos.
GPT-4 exame MIT aberto
Especificamente, o GPT-4 participou de tal teste desta vez:
A equipe de pesquisa selecionou um conjunto de dados contendo 4.550 problemas e soluções.
Esses 4.550 problemas e soluções são dos conjuntos de problemas do curso, intermediários e exames finais que os alunos** do Departamento de Matemática do MIT e EECS precisam estudar para obter um diploma de graduação. **
incluir:
6-1: Ciência e Engenharia Elétrica; 6-2: Engenharia Elétrica e Ciência da Computação; 6-3: Ciência e Engenharia da Computação; 6-4: Inteligência artificial e tomada de decisão; 18-1: Matemática Geral; 18-2: Matemática Aplicada; 18-3: Matemática Pura; 18-C: Matemática e Ciência da Computação.
Resumo detalhado da classificação de cada major
As perguntas são todas do conjunto de dados do MIT, do qual 228 perguntas são geradas aleatoriamente, problemas que não envolvem imagens e soluções existentes.
O nível de dificuldade dos tópicos em ordem de fácil a difícil é: exercícios, exercícios, exames intermediários, exames finais, experimentos e projetos especiais.
Classificadas por tipo de resposta, a dificuldade das questões de fácil a difícil é: programação, aberta, múltipla escolha, numérica, expressão e imagem.
Desta vez, não apenas GPT-4 e GPT-3.5, mas também StableVicuna-13B, LLaMA-30B e LLaMA-60B** estão participando do teste.
Esses 4 modelos grandes foram escolhidos como concorrentes do teste porque são os "modelos de linguagem grande de última geração".
Pontuação do Exame Final
Como pode ser visto nos dados da tabela, o GPT-4 ajustado tem a pontuação mais alta, com uma taxa de pontuação de 100%; o desempenho mais geral é o LLaMA-30B, que obteve apenas 30% da pontuação.
Vale a pena notar que a versão original do GPT-4 foi usada imediatamente sem ajuste e também obteve 90% neste exame do MIT.
Processo de ajuste, incluindo Few-Shot+CoT+Autocrítica+Experts.
Além disso, a equipe de pesquisa também realizou otimização de engenharia na caixa de prompt, ** "feitiços" específicos ** são os seguintes:
Espere, o avaliador é o próprio GPT-4?
Vendo tal resultado, muitos internautas sentiram que o progresso do LLM no teste de matemática foi um pouco rápido.
Semelhante a "Xiao Ming plantou 5 limoeiros e obteve 6 limões de cada árvore todos os anos, quantos limões ele obteve no total em 10 anos" deste tipo.
Eu aprendi 6 questões selecionadas aleatoriamente dos cursos de matemática básica do MIT.25 questões foram selecionadas aleatoriamente para cada um dos 6 cursos, mais 60 questões de um conjunto de dados de nível ACT (exame de admissão em faculdade americana).
**Um total de 210 perguntas, AI respondeu todas elas corretamente. **
Porque na avaliação daquela época, o Codex era responsável pela leitura e escrita, e não incluía a resolução.
Então, desta vez o GPT-4 teve um desempenho extremamente bom, que palavra maravilhosa~
Existem principalmente 2 slots principais.
A primeira coisa que vale a pena questionar é que o conjunto de dados de treinamento do OpenAI não foi totalmente liberado.
Isso também significa que não pode provar que os 4550 problemas e soluções no conjunto de dados não existem no conjunto de treinamento GPT-4.
Em outras palavras, se o GPT-4 foi exposto às perguntas do teste na fase de pré-treinamento, ele finalmente obterá uma pontuação perfeita e não haverá surpresas.
Não é de admirar que alguns internautas yygq sem cerimônia e acreditem que o GPT-4 obteve tal resultado, deve ser que o conjunto de dados tenha sido incluído nos dados de treinamento.
Dê uma olhada mais de perto, há um ponto-chave na Seção 2.6 do artigo:
A equipe ajusta o modelo grande de código aberto no conjunto de dados: "Dada uma pergunta Q, uma solução de verdade S e uma resposta LLM A, usamos o GPT-4 para pontuar automaticamente as respostas do modelo".
Na prática, cada modelo grande gera as respostas desse teste, e então envia o GPT-4 para pontuar, com uma pontuação entre 0-5.
**Portanto, quem deu nota máxima ao GPT-4 é, na verdade, o próprio GPT-4. **
Ah, isso... É difícil dizer que não há suspeita de que Wang Po esteja vendendo melões e se gabando.
O que exatamente é uma "boa dica"? Parece impossível definir.
Mais uma coisa
Um pequeno ovo de páscoa:
Ao longo do teste, o StableVicuna-13B, que basicamente pode ser implantado e executado em um laptop, também obteve uma pontuação de 48%.
As pessoas precisam pensar sobre a correlação entre o tamanho do modelo e a capacidade.
Link de referência: [1] [2] [3] [4]