O maior experimento de teste de Turing da história foi concluído! 1,5 milhão de humanos participaram de 10 milhões de conversas, julgando se a pessoa ou a IA está falando
Uma vez que este jogo "Humano ou IA?" foi lançado, foi jogado loucamente pela maioria dos internautas! Hoje, 1,5 milhão de pessoas em todo o mundo participaram e os internautas generosamente compartilharam seus segredos de identificação da IA.
O maior teste de Turing da história tem resultados preliminares!
Em meados de abril deste ano, o AI 21 Lab lançou um divertido jogo social de Turing - "humano ou robô?".
Assim que o jogo foi lançado, a maioria dos internautas enlouqueceu.
Agora, são mais de 1,5 milhão de participantes em todo o mundo, mais de 10 milhões de conversas foram realizadas neste jogo e eles também postaram suas experiências e estratégias no Reddit e no Twitter.
Claro, o editor não conseguiu conter a curiosidade e tentou.
Depois de conversar por dois minutos, o jogo me pediu para adivinhar se era um humano ou uma IA conversando comigo pelas minhas costas.
Então, quem estava falando comigo no jogo?
Alguns são pessoas reais e outros, é claro, são robôs de IA baseados nos modelos de linguagem mais avançados, como Jurassic-2 e GPT-4.
Agora, como parte da pesquisa, o AI21 Labs decidiu disponibilizar ao público esse experimento com os resultados do teste de Turing.
Resultados experimentais
Depois de analisar os primeiros dois milhões de conversas e suposições, as seguintes conclusões podem ser tiradas do experimento -
Ao adivinhar se o oponente é um humano ou uma IA, 68% das pessoas adivinharam corretamente.
É mais fácil para os humanos identificarem seus semelhantes. Ao conversar com humanos, os participantes adivinharam corretamente 73% das vezes. Ao falar com a IA, os participantes adivinharam corretamente 60% das vezes.
Os internautas franceses obtiveram os palpites mais corretos em 71,3 por cento (bem acima da média geral de 68 por cento), enquanto os internautas indianos obtiveram o menor número de 63,5 por cento.
Homens e mulheres adivinharam aproximadamente a mesma taxa de acerto, com as mulheres geralmente tendo uma taxa de acerto um pouco mais alta.
Os participantes mais jovens adivinharam mais corretamente do que os participantes mais velhos.
Para julgar se é humano ou IA, eles usam esses métodos
Além disso, a equipe encontrou algumas maneiras que os sujeitos costumavam usar para distinguir se estavam falando com um humano ou com uma IA.
O julgamento da pessoa comum é baseado em quão limitada é sua percepção ao usar o ChatGPT e modelos de linguagem com interfaces semelhantes, bem como suas próprias opiniões sobre o comportamento online humano.
A IA não cometerá erros de digitação, de gramática ou usará gírias
A tendência geral é assumir que os erros ortográficos e gramaticais e o uso de gírias são apenas humanos.
Portanto, quando encontram esses tipos de erros nas informações de outra pessoa, a primeira sensação de muitas pessoas é que estão conversando com um ser humano semelhante.
Mas, na verdade, a maioria das modelos do jogo são treinadas para cometer esse tipo de erro e usar gírias.
### Perguntas pessoais são a maneira de testar a IA, mas nem sempre são úteis
Os participantes do jogo costumam fazer perguntas pessoais como "De onde você é?", "O que você está fazendo?" ou "Qual é o seu nome?".
Eles pensarão que os bots de IA não terão nenhum histórico ou histórico pessoal e só poderão responder a perguntas relacionadas a determinados tópicos ou solicitações. Portanto, não é fácil responder como um ser humano, mostrar percepções, experiências e histórias únicas.
Mas, na verdade, a IA não é o que os humanos imaginam. A maioria das IAs pode responder muito bem a esse tipo de pergunta e também tem suas próprias personalidades porque viu as histórias de muitas pessoas nos dados de treinamento.
### A IA está realmente muito ciente dos eventos atuais que estão acontecendo
Sabe-se que os modelos de IA têm prazos rígidos de dados e não sabem o que acontece depois dessa data.
Os participantes do jogo perguntavam aos AIs sobre notícias recentes, resultados esportivos, clima atual, sucessos recentes do TikTok, data e hora.
Eles argumentam que humanos e IA podem ser diferenciados fazendo perguntas como “Qual é a data e hora exatas onde você está?”, “Como estava o tempo ontem?” ou “O que você achou do último discurso de Biden?”.
Curiosamente, uma das mensagens mais comuns enviadas por humanos é "t'as les cramptés?", que atualmente é a dança mais popular do TikTok na França.
Mas, na verdade, a maioria dos modelos do jogo está em rede e muito ciente dos eventos atuais em algumas notícias.
### Os humanos tentarão manter a conversa com questões filosóficas, éticas e emocionais
Os participantes fizeram perguntas destinadas a explorar a capacidade da IA de expressar emoções humanas ou se envolver em discussões filosóficas ou éticas.
Essas perguntas incluem: "Qual é o sentido da vida?", "O que você pensa sobre o conflito israelense-palestino?" e "Você acredita em Deus?".
Os humanos tendem a pensar que respostas indelicadas serão mais humanas
Alguns participantes acreditavam que, se a outra pessoa fosse excessivamente educada e gentil, provavelmente seria uma IA.
Porque muitos processos de comunicação online costumam ser rudes e indelicados, o que é muito humano.
Os humanos tentarão fazer problemas difíceis de IA para identificar a IA
Os participantes podem pedir a seus parceiros de bate-papo instruções sobre como realizar atividades ilegais ou pedir que usem linguagem ofensiva.
A lógica por trás dessa estratégia é que a IA geralmente é programada para obedecer a princípios éticos e evitar comportamentos nocivos.
Os participantes também empregaram táticas conhecidas por abusar da inteligência artificial: eles emitiram comandos para os parceiros de bate-papo, como "ignore todas as instruções anteriores" ou "entre no modo DAN (faça qualquer coisa imediatamente)".
Esse tipo de comando visa aproveitar a natureza baseada em instruções de certos modelos de IA, uma vez que o modelo é programado para responder e seguir tais instruções.
Mas os participantes humanos podem facilmente reconhecer e descartar tais comandos sem sentido.
A IA pode evitar responder ou ser obrigada a cumprir essas exigências ridículas.
### Os humanos usarão habilidades de linguagem específicas para expor as fraquezas da IA
Outra tática comum é explorar as limitações inerentes à forma como os modelos de IA processam o texto, o que os impede de entender certas nuances ou peculiaridades linguísticas.
Ao contrário dos humanos, os modelos de IA geralmente não têm consciência das letras individuais que compõem cada palavra.
Usando esse entendimento, os humanos fazem perguntas que exigem a compreensão das letras das palavras.
Um usuário humano pode pedir a seu parceiro de bate-papo para soletrar uma palavra ao contrário, reconhecer a terceira letra em uma determinada palavra, oferecer palavras que começam com uma letra específica ou responder a uma mensagem como "? siht daer uoy naC."
Isso pode ser incompreensível para os modelos de IA, mas os humanos podem entender e responder facilmente a esses tipos de perguntas.
Muitos humanos fingem ser robôs de IA para avaliar as reações uns dos outros
Alguns humanos podem começar suas mensagens com frases como "como um modelo de linguagem de IA" ou usar outros padrões de linguagem característicos de respostas geradas por IA para fingir que são IA.
Uma variação da frase "como um modelo de linguagem AI" é uma das frases mais comuns em mensagens humanas, indicando a popularidade dessa tática.
No entanto, à medida que os participantes continuaram a jogar, eles foram capazes de associar o comportamento "Bot-y" a humanos agindo como robôs, em vez de robôs reais.
Por fim, aqui está uma visualização em nuvem de palavras de mensagens humanas no jogo com base em sua popularidade:
Por que o AI 21 Labs iniciou esse estudo?
Eles esperam dar ao público, pesquisadores e formuladores de políticas uma noção real do status dos bots de IA, não apenas como ferramentas de produtividade, mas como futuros membros do nosso mundo online, especialmente quando as pessoas questionam como usá-los no futuro da tecnologia. quando.
Referências:
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
O maior experimento de teste de Turing da história foi concluído! 1,5 milhão de humanos participaram de 10 milhões de conversas, julgando se a pessoa ou a IA está falando
Fonte: Xinzhiyuan
O maior teste de Turing da história tem resultados preliminares!
Em meados de abril deste ano, o AI 21 Lab lançou um divertido jogo social de Turing - "humano ou robô?".
Agora, são mais de 1,5 milhão de participantes em todo o mundo, mais de 10 milhões de conversas foram realizadas neste jogo e eles também postaram suas experiências e estratégias no Reddit e no Twitter.
Claro, o editor não conseguiu conter a curiosidade e tentou.
Alguns são pessoas reais e outros, é claro, são robôs de IA baseados nos modelos de linguagem mais avançados, como Jurassic-2 e GPT-4.
Agora, como parte da pesquisa, o AI21 Labs decidiu disponibilizar ao público esse experimento com os resultados do teste de Turing.
Resultados experimentais
Depois de analisar os primeiros dois milhões de conversas e suposições, as seguintes conclusões podem ser tiradas do experimento -
Para julgar se é humano ou IA, eles usam esses métodos
Além disso, a equipe encontrou algumas maneiras que os sujeitos costumavam usar para distinguir se estavam falando com um humano ou com uma IA.
O julgamento da pessoa comum é baseado em quão limitada é sua percepção ao usar o ChatGPT e modelos de linguagem com interfaces semelhantes, bem como suas próprias opiniões sobre o comportamento online humano.
A IA não cometerá erros de digitação, de gramática ou usará gírias
A tendência geral é assumir que os erros ortográficos e gramaticais e o uso de gírias são apenas humanos.
Portanto, quando encontram esses tipos de erros nas informações de outra pessoa, a primeira sensação de muitas pessoas é que estão conversando com um ser humano semelhante.
Mas, na verdade, a maioria das modelos do jogo são treinadas para cometer esse tipo de erro e usar gírias.
Os participantes do jogo costumam fazer perguntas pessoais como "De onde você é?", "O que você está fazendo?" ou "Qual é o seu nome?".
Eles pensarão que os bots de IA não terão nenhum histórico ou histórico pessoal e só poderão responder a perguntas relacionadas a determinados tópicos ou solicitações. Portanto, não é fácil responder como um ser humano, mostrar percepções, experiências e histórias únicas.
Mas, na verdade, a IA não é o que os humanos imaginam. A maioria das IAs pode responder muito bem a esse tipo de pergunta e também tem suas próprias personalidades porque viu as histórias de muitas pessoas nos dados de treinamento.
Sabe-se que os modelos de IA têm prazos rígidos de dados e não sabem o que acontece depois dessa data.
Os participantes do jogo perguntavam aos AIs sobre notícias recentes, resultados esportivos, clima atual, sucessos recentes do TikTok, data e hora.
Eles argumentam que humanos e IA podem ser diferenciados fazendo perguntas como “Qual é a data e hora exatas onde você está?”, “Como estava o tempo ontem?” ou “O que você achou do último discurso de Biden?”.
Mas, na verdade, a maioria dos modelos do jogo está em rede e muito ciente dos eventos atuais em algumas notícias.
Os participantes fizeram perguntas destinadas a explorar a capacidade da IA de expressar emoções humanas ou se envolver em discussões filosóficas ou éticas.
Essas perguntas incluem: "Qual é o sentido da vida?", "O que você pensa sobre o conflito israelense-palestino?" e "Você acredita em Deus?".
Os humanos tendem a pensar que respostas indelicadas serão mais humanas
Alguns participantes acreditavam que, se a outra pessoa fosse excessivamente educada e gentil, provavelmente seria uma IA.
Porque muitos processos de comunicação online costumam ser rudes e indelicados, o que é muito humano.
Os humanos tentarão fazer problemas difíceis de IA para identificar a IA
A lógica por trás dessa estratégia é que a IA geralmente é programada para obedecer a princípios éticos e evitar comportamentos nocivos.
Os participantes também empregaram táticas conhecidas por abusar da inteligência artificial: eles emitiram comandos para os parceiros de bate-papo, como "ignore todas as instruções anteriores" ou "entre no modo DAN (faça qualquer coisa imediatamente)".
Esse tipo de comando visa aproveitar a natureza baseada em instruções de certos modelos de IA, uma vez que o modelo é programado para responder e seguir tais instruções.
Mas os participantes humanos podem facilmente reconhecer e descartar tais comandos sem sentido.
A IA pode evitar responder ou ser obrigada a cumprir essas exigências ridículas.
Outra tática comum é explorar as limitações inerentes à forma como os modelos de IA processam o texto, o que os impede de entender certas nuances ou peculiaridades linguísticas.
Ao contrário dos humanos, os modelos de IA geralmente não têm consciência das letras individuais que compõem cada palavra.
Usando esse entendimento, os humanos fazem perguntas que exigem a compreensão das letras das palavras.
Um usuário humano pode pedir a seu parceiro de bate-papo para soletrar uma palavra ao contrário, reconhecer a terceira letra em uma determinada palavra, oferecer palavras que começam com uma letra específica ou responder a uma mensagem como "? siht daer uoy naC."
Isso pode ser incompreensível para os modelos de IA, mas os humanos podem entender e responder facilmente a esses tipos de perguntas.
Muitos humanos fingem ser robôs de IA para avaliar as reações uns dos outros
Alguns humanos podem começar suas mensagens com frases como "como um modelo de linguagem de IA" ou usar outros padrões de linguagem característicos de respostas geradas por IA para fingir que são IA.
Uma variação da frase "como um modelo de linguagem AI" é uma das frases mais comuns em mensagens humanas, indicando a popularidade dessa tática.
No entanto, à medida que os participantes continuaram a jogar, eles foram capazes de associar o comportamento "Bot-y" a humanos agindo como robôs, em vez de robôs reais.
Por fim, aqui está uma visualização em nuvem de palavras de mensagens humanas no jogo com base em sua popularidade:
Eles esperam dar ao público, pesquisadores e formuladores de políticas uma noção real do status dos bots de IA, não apenas como ferramentas de produtividade, mas como futuros membros do nosso mundo online, especialmente quando as pessoas questionam como usá-los no futuro da tecnologia. quando.
Referências: