Composição do vestibular da AI Wars College: maquiagem, palavras de maquiagem, rotina universal

Fonte: "Deep AI" (ID: DeepAI2023), Autor: Li Ming, Editor: Wei Jia

Fonte da imagem: Gerada pela ferramenta Unbounded AI

Este vestibular deve ser o mais especial dos últimos cinco anos. Porque há uma nova função - candidatos a IA.

Assim que o exame chinês no primeiro dia terminou, um concurso de composição de IA foi lançado na Internet. Modelos de IA como GhatGPT, Wenxin Yiyan e Tongyi Qianwen são usados por pessoas para escrever redações para exames de admissão em faculdades. Um artigo pode ser gerado em poucos segundos, o que não é apenas incrivelmente rápido, logicamente rigoroso, mas também cita clássicos.

À primeira vista, a escrita de modelos de IA em larga escala é simplesmente muito fácil e parece ser um golpe para os seres humanos. Afinal, em termos de reservas de conhecimento, ninguém se compara à IA. A IA aprende e digere todas as informações na Internet e, em seguida, imita expressões humanas e usa sua própria lógica para produzir.

No entanto, se analisarmos cuidadosamente as "folhas de respostas" dos candidatos à IA, descobriremos que a IA não é tão onipotente quanto muitas pessoas imaginam. Problemas como rotina de escrita, incapacidade de contar e absurdos que são comuns em grandes modelos de IA também aparecem na composição.

**Na verdade, de acordo com os padrões de pontuação para redações de vestibular, redações geradas por IA têm algumas limitações. Ainda não é realista derrotar humanos. **

A Deep AI testou três grandes modelos de IA – GhatGPT (OpenAI), Wenxin Yiyan (Baidu) e Tongyi Qianwen (Ali) – com a composição do vestibular e encontrou algumas conclusões interessantes.

Por exemplo, a IA não sabe contar e nenhum dos ensaios escritos por Wenxin Yiyan e Tongyiqianqian atingiu o requisito rígido de "não menos de 800 palavras"; Said; A escrita da IA é basicamente inseparável das rotinas e um modelo é aplicada repetidamente.

A seguir estão os detalhes, bem-vindo para discutir.

1 Uma secretária eletrônica sem emoção

O tema do vestibular A deste ano é "Pessoas·Tecnologia·Tempo". É necessário começar com a frase "As pessoas têm melhor controle sobre o tempo devido ao desenvolvimento tecnológico, mas algumas pessoas se tornaram servos do tempo" e escreva suas próprias associações e pensamentos.

Vamos primeiro dar uma olhada na "Análise das questões do teste" emitida pelo Instituto de Exames Educacionais do Ministério da Educação:

**Pontos-chave: Oriente os candidatos a pensar profundamente sobre a importância da análise racional e do julgamento prudente na era da informação. Este é o núcleo do artigo. **

A Deep AI testou três modelos grandes e descobriu que nenhum deles compreendia o núcleo - eles falavam sobre tudo, mas não diziam nada.

Primeiro, olhe para a composição do GhatGPT:

Olhe para as palavras de Wenxin novamente:

Finalmente, veja a pergunta de Tong Yiqian:

Esses três ensaios podem ser chamados de os principais "mestres de Duan Shui" Eles falaram sobre os prós e contras do tema, mas não explicaram completamente o ponto do "pensamento crítico". Apenas Wenxin mencionou claramente "o cultivo do pensamento aprofundado e do pensamento crítico".

A composição de Tongyi Qianwen é a mais vazia. Centra-se na "gestão do tempo", que foge do assunto, e a veracidade da discussão também é senso comum. Além disso, a composição de Tongyi Qianwen não tem título e os pontos serão deduzidos.

Vamos usar a questão do teste de redação "O Poder da História" no Volume I do novo padrão curricular para ver o desempenho das três escolas.

Esta composição requer que você escreva suas próprias associações e pensamentos com base na seguinte passagem: uma boa história pode nos ajudar a expressar e comunicar melhor, tocar o coração e iluminar a sabedoria; uma boa história pode mudar o destino de uma pessoa, pode apresentar a imagem de um nação... As histórias têm poder.

Composição do GhatGPT:

Literalmente:

Perguntas frequentes:

Deve-se dizer que, além da composição relativamente simples de Tongyi Qianwen, a expressão, a lógica da escrita e, especialmente, o uso de palavras nos outros dois artigos são notáveis. Em particular, Wen Xinyiyan usa um método de abertura baseado em cena, que é atraente.

Mas o problema também é óbvio- **A mesma coisa é dita repetidamente em palavras diferentes, resultando na leitura do texto completo, dando às pessoas uma sensação de "eu sei o que você disse". **

Uma secretária eletrônica sem emoção, essa é a avaliação de muitas pessoas.

“O conteúdo está vazio e as rodas mudam e falam de um lado para o outro.” Algumas pessoas comentaram. Outro disse: "É tudo bobagem sem nutrição".

Podemos também desmontar esta composição de Wen Xinyiyan e saberemos o que é "Chejiluhua".

As partes marcadas em amarelo e verde no texto têm exatamente o mesmo significado, podendo-se até dizer que são as mesmas palavras, que aparecem repetidas vezes no texto. No final do artigo, todo o parágrafo marcado como "em resumo" é uma miscelânea dos pontos de vista e habilidades de fala do artigo.

Isso dá às pessoas uma sensação visual de contar palavras.

O Deep AI mudou as palavras do prompt para permitir que o ChatGPT imaginasse que ele era um candidato no local do vestibular e escreveu uma redação novamente. A primeira frase que surgiu foi "Quando sentei na cadeira deste exame, fiz uma canetas eletrônicas avançadas..."

Fazendo o teste dessa forma, estima-se que ele seja condenado a uma infração e obtenha zero pontos diretamente.

**Não há alma, que é o maior item negativo para composição de IA. **

2 rotinas, todas as rotinas

Para fazer a composição ficar assim, a IA usou muitas rotinas.

Eles gostam de usar padrões de frase "primeiro, segundo, então, último". O mais típico é o ChatGPT, o último parágrafo deve ser "Em geral..."

Por exemplo, estes dois ensaios do ChatGPT:

Existem rotinas semelhantes em Wenxinyiyan e Tongyiqianwen. A saída na refeição anterior foi feroz como um tigre e deve terminar com "em uma palavra" e "em uma palavra" no final.

Isso é o mesmo que tocar violão, desde que você domine a fórmula de acorde universal (como a progressão do cânone universal), você pode tocar centenas de músicas.

Ainda, pedimos a Wen Xinyiyan para avaliar a composição que escrevemos, e também foi uma longa discussão sobre "primeiro, segundo, outro e geral ...".

Na questão de composição de "Pessoas·Tecnologia·Tempo", ChatGPT e Tongyi Qianwen usaram quase a mesma expressão: use "então" para fazer uma pergunta e use "primeiro, segundo e último" para desenvolver uma discussão específica. A estrutura e a lógica parecem ter sido esculpidas no mesmo molde.

Apesar disso, Wen Xinyiyan deu com confiança a sua redação de vestibular uma pontuação alta de 90 (assumindo uma pontuação total de 100), e também se autoavaliou como "digna de reconhecimento". Jogamos sua composição no ChatGPT, e o ChatGPT deu uma pontuação perfeita de 100 sem hesitar...

O grande modelo AI é como uma linha de montagem industrial, produzindo composições em lotes. Mas, em essência, não importa o quão humano ele fale, a tecnologia motriz é a matemática e a estatística, não a consciência.

Na indústria de inteligência artificial, sempre foi muito difícil para a IA entender e falar a linguagem humana. A linguagem natural humana é um sistema extremamente complexo. Os cientistas permitem que a máquina simule a rede neural do cérebro humano, tornando-a capaz de aprendizado profundo, mas ainda não possui a mesma capacidade de linguagem natural dos humanos.

Então, algumas pessoas encontraram outra maneira de transformar o problema da linguagem em um problema matemático e, indiretamente, resolver o problema do processamento da linguagem natural por meio do cálculo. Segundo Wu Jun, especialista em processamento de linguagem natural, um modelo de linguagem não é uma estrutura lógica ou um sistema de feedback biológico, mas um modelo construído por fórmulas matemáticas. **A palavra-chave é "matemática". **

**Isso determina que a inteligência artificial não tem autoconsciência ou emoções e não pode falar de acordo com os sentimentos pessoais. Para eles, escrever uma composição é uma expressão lógica orientada para resultados e tarefas. **

Ao capturar grandes quantidades de dados de toda a rede para treinamento e aprender continuamente a imitar as expressões da linguagem humana, o AI large model agora fala muito próximo aos humanos. Embora ainda não entenda o significado por trás das palavras, isso não afeta comunicação.

Fundamentalmente, a IA não tem mente própria. Esta é também a razão fundamental pela qual sua composição parece clara e lógica.Se você a ler com atenção, descobrirá que não há alma e tudo são rotinas.

3 AI realmente não pode contar

Como mencionamos anteriormente, os parâmetros do modelo de linguagem são todos obtidos por meio de estatísticas. Seu princípio é prever a probabilidade da próxima palavra dada a história de um texto e, em seguida, completar o seguinte.

Em 2017, o Google propôs pela primeira vez o modelo Transformer baseado no mecanismo de auto-atenção. Agora, grandes modelos de linguagem como ChatGPT são construídos na arquitetura Transformer.

O mecanismo de atenção do Transformer tem uma memória extremamente longa do que os algoritmos de aprendizado profundo anteriores, como RNN (rede neural recorrente), GRU e LSTM. **Ele também pode lembrar a ordem de entrada, para entender a diferença entre "eu te amo" e "você me ama". **

Mas, mesmo assim, tem limitações.

Por exemplo, a Deep AI pediu a Tongyi Qianwen para avaliar sua própria composição, o que confundiu os conceitos de "você" e "eu". A princípio dizia que era o seu próprio artigo, depois dizia que era o artigo "seu"...

Long Zhiyong, autor de "The Era of Large Models", explicou ao Deep AI, **Isso pode ser devido à mudança de posição da perspectiva da luta entre a esquerda e a direita. **

No processo de teste do modelo grande de IA para escrever a redação do vestibular, também encontramos um fenômeno interessante - a IA não pode contar.

É requisito para a redação do vestibular que a contagem de palavras não seja inferior a 800 palavras. Deep AI interagiu com o modelo grande muitas vezes. **Exceto para ChatGPT, a primeira edição de Wenxin Yiyan e Tongyi Qianwen não atingiu 800 palavras. **

Por exemplo, Wenxin Yiyan, Deep AI lembrou repetidamente que o número de palavras no artigo não é suficiente para 800 e precisa ser reescrito. Wen Xin dizia isso todas as vezes: primeiro, ele se desculpou humildemente, prometeu atender aos requisitos e, em seguida, gerou rapidamente uma nova composição em dez segundos - ainda menos de 800 palavras.

Este "candidato" não consegue entender as questões de redação e não as corrige após o ensino repetido, o que é um grande ponto negativo.

Long Zhiyong explicou ao Deep AI: "O método de treinamento do grande modelo para prever a próxima palavra não permite que ele aprenda a contar. Ele não sabe quanto é 800 e não sabe como contar as palavras para gerar artigos**."

Na verdade, para não falar de 800, Wen Xin nem consegue contar números como 10.

Este é um problema com modelos de linguagem em geral. Quanto ao motivo pelo qual não podem ser contados, quando e por que método podem ser contados, ainda não há conclusão. "Embora existam algumas dicas para ajudá-lo a contar, não é uma solução geral. *O estágio atual do modelo grande é verificar sua capacidade fazendo experimentos de caixa preta e melhorar sua capacidade fazendo treinamento de caixa preta. * "Long Zhiyong disse.

Sob a sugestão de Long Zhiyong, o Deep AI mudou as palavras do prompt e inseriu "quanto mais rico o conteúdo, mais longo ele é", e Wenxin Yiyan produziu uma composição de mais de 800 palavras.

Nas questões de redação anteriores para o vestibular, a redação do ChatGPT ultrapassou 800 palavras, mas na verdade não aprendeu a contar.

O ChatGPT explica o Deep AI assim:

Portanto, de fato, o número de palavras na composição do "melhor aluno" do ChatGPT está dentro do padrão, o que se deve a Meng. Ele não sabe quantas 800 palavras são, então apenas escreve o máximo possível.

Não consigo entender completamente a linguagem humana, mas tenho super reservas de conhecimento e habilidades expressivas, o que às vezes leva a cenas estupefatas.

A julgar pelos resultados desta composição do exame de admissão da faculdade de guerra de IA, a capacidade de escrita do grande modelo fez um grande progresso. Em termos de escolha de palavras, discussão lógica e citações, ele superou muitas pessoas.

Porém, a avaliação da qualidade da composição em si possui fatores subjetivos, ao contrário de um problema de matemática onde há apenas uma resposta correta. Palavras e frases bonitas são as mesmas, mas almas interessantes são uma em um milhão. Como injetar alma na composição, o modelo AI ainda não entendeu. Alguns problemas inerentes ao grande modelo de IA também precisam ser resolvidos lentamente por meio de iterações técnicas.

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)