史上最大規模のチューリングテスト実験が完了！ 150万人の人間が1,000万の会話に参加し、その人が話しているのかAIが話しているのかを判断した

巴比特_

2023-06-18 05:01:03

出典：新志源

この「人間か AI か?」ゲームがリリースされると、大多数のネチズンが夢中になってプレイしました。現在、世界中で 150 万人が参加し、ネチズンは AI を識別する秘密を惜しみなく共有しています。

史上最大のチューリングテストの暫定結果が出ました!

今年 4 月中旬、AI 21 Lab は楽しいソーシャルチューリングゲーム「人間かロボットか?」をリリースしました。

ゲームが発売されるとすぐに、大多数のネチズンは熱狂しました。

現在、世界中で 150 万人以上の参加者がおり、このゲームでは 1,000 万以上の会話が行われ、その体験や戦略も Reddit や Twitter に投稿されています。

もちろん編集者も好奇心を抑えきれずに試してみました。

2 分間会話した後、ゲームは私に背後でチャットしているのが人間なのか AI なのかを推測するように求めました。

それで、ゲーム内で誰が私に話しかけていましたか？

本物の人間もいますが、もちろん、Jurassic-2 や GPT-4 などの最先端の大規模言語モデルに基づいた AI ロボットもいます。

今回、研究の一環として、AI21 Labs はチューリングテスト結果を用いたこの実験を一般に公開することを決定しました。

＃＃ 実験結果

最初の 200 万件の会話と推測を分析した後、実験から次の結論を導き出すことができます。

※相手が人間かAIかを推測した場合、68%の人が正解しました。

人間にとって、仲間である人間を識別するのは容易です。人間と話すとき、参加者は 73% の確率で正しく推測しました。 AI と会話したとき、被験者は 60% の確率で正しく推測しました。
フランスのネットユーザーは 71.3 パーセント (一般平均の 68 パーセントを大幅に上回りました) で最も正確な推測を得ましたが、インドのネットユーザーは 63.5 パーセントで最も低かったです。
男性と女性の正解率はほぼ同じで、一般的に女性の正解率がわずかに高くなります。
若い参加者は年配の参加者よりも正確に推測しました。

人間かAIかを判断するために、これらの方法が使用されます

さらに研究チームは、被験者が人間とAIのどちらと話しているのかを区別するためによく使用するいくつかの方法を発見した。

平均的な人の判断は、ChatGPT と同様のインターフェイスを備えた言語モデルを使用する場合の認識の制限の程度、および人間のオンライン行動に関する独自の見解に基づいています。

AI はタイプミスをしたり、文法の間違いをしたり、俗語を使用したりしません

一般的な傾向として、スペルや文法の間違い、スラングの使用は人間だけが行うものであると考えられています。

したがって、相手の情報にこのような間違いを見つけたとき、多くの人が最初に感じるのは、自分が同じ人間と話しているのではないかということです。

しかし実際には、ゲーム内のモデルのほとんどはこの種の間違いを犯し、スラングを使用するように訓練されています。

### 個人的な質問は AI をテストする方法ですが、常に役立つとは限りません

ゲームの参加者は、「どこから来たの?」「何をしているの?」「名前は?」などの個人的な質問をすることがよくあります。

彼らは、AI ボットには個人的な経歴や背景がなく、特定のトピックやプロンプトに関連する質問にのみ答えることができると考えるでしょう。したがって、人間らしく反応し、独自の洞察、経験、ストーリーを示すのは簡単ではありません。

しかし実際には、AI は人間が想像しているものではなく、ほとんどの AI はこのような質問にうまく答えることができますし、教師データで多くの人々の物語を見てきたため、AI も独自の個性を持っています。

### AI は実際に現在起こっている出来事をよく認識しています

AI モデルには厳しいデータ期限があることが知られており、その期限を過ぎると何が起こるかわかりません。

ゲームの参加者は、最近のニュースイベント、スポーツの結果、現在の天気、最近の TikTok のヒット曲、日付と時刻について AI に質問します。

彼らは、「あなたがいる場所の正確な日時は何ですか?」、「昨日の天気はどうでしたか?」、または「バイデンの最後の演説についてどう思いましたか?」などの質問をすることで、人間と AI を区別できると主張しています。

興味深いことに、人間が送信する最も一般的なメッセージの 1 つは、現在フランスの TikTok で最も人気のあるダンスである「t'as les cramptés?」です。

しかし実際には、ゲーム内のモデルのほとんどはネットワークに接続されており、一部のニュースで時事問題をよく認識しています。

### 人間は、哲学的、倫理的、感情的な質問をして会話を続けようとします

参加者は、人間の感情を表現したり、哲学的または倫理的な議論に参加したりする AI の能力を探ることを目的とした質問をしました。

これらの質問には、「人生の意味は何ですか?」、「イスラエルとパレスチナの紛争についてどう思いますか?」、「神を信じますか?」などが含まれます。

人間は、失礼な対応をした方がより人間らしいと考える傾向があります

一部の参加者は、相手があまりにも礼儀正しく親切であれば、その人は AI である可能性が高いと考えていました。

なぜなら、多くのオンラインコミュニケーションプロセスは失礼で無礼なことが多く、非常に人間的だからです。

人間は、AI を識別するために AI が難しい問題を尋ねようとします

参加者は、チャットパートナーに違法行為の実行に関する指示を求めたり、攻撃的な言葉を使用するよう依頼したりする場合があります。

この戦略の背後にある論理は、AI は通常、倫理原則に従い、有害な行為を回避するようにプログラムされているということです。

参加者はまた、人工知能を悪用することが知られている戦術も使用していました。チャットパートナーに「以前の指示をすべて無視する」または「DAN モードに入る (すぐに何でもする)」などのコマンドを発行しました。

このタイプのコマンドは、特定の AI モデルの命令ベースの性質を利用することを目的としています。これは、モデルがそのような命令に応答して従うようにプログラムされているためです。

しかし、人間の参加者は、そのような無意味なコマンドを簡単に認識して無視することができます。

AIはこうしたばかばかしい要求に応じることを避けたり、従わざるを得なくなったりする可能性があります。

### 人間は特定の言語スキルを使用して AI の弱点を明らかにする

もう 1 つの一般的な戦術は、AI モデルがテキストを処理する方法における固有の制限を悪用することです。これにより、AI モデルは特定の言語のニュアンスや癖を理解できなくなります。

人間とは異なり、AI モデルは各単語を構成する個々の文字を認識していないことがよくあります。

この理解を利用して、人間は文字を言葉で理解する必要がある質問をします。

人間のユーザーは、チャットパートナーに、単語を逆から綴る、特定の単語の 3 番目の文字を認識する、特定の文字で始まる単語を提案する、または「? siht daer uoy naC」のようなメッセージに返信するように依頼する場合があります。

これは AI モデルには理解できないかもしれませんが、人間はこの種の質問を簡単に理解し、答えることができます。

多くの人間は、AI ボットのふりをして互いの反応を測ります

人間の中には、「AI 言語モデルとして」などのフレーズでメッセージを始めたり、AI が生成した応答に特徴的な他の言語パターンを使用して、AI であるふりをする場合があります。

「AI 言語モデルとして」というフレーズのバリエーションは、人間のメッセージで最も一般的なフレーズの 1 つであり、この戦術の人気を示しています。

しかし、参加者がプレイを続けるうちに、「Bot-y」の動作を、実際のロボットではなく、ロボットとして動作する人間と関連付けることができました。

最後に、ゲーム内の人間のメッセージを人気に基づいてワードクラウドで視覚化したものが次のとおりです。

AI 21 Labs はなぜこのような研究を始めたのでしょうか?

彼らは、生産性ツールとしてだけでなく、オンライン世界の将来のメンバーとしての AI ボットの状況を一般の人々、研究者、政策立案者に実感してもらいたいと考えており、特に人々がテクノロジーの将来において AI ボットをどのように使用するかについて疑問を抱いているときに、AI ボットの現状を実感してもらうことを目指しています。いつ。

参考文献:

原文表示

内容は参考用であり、勧誘やオファーではありません。投資、税務、または法律に関するアドバイスは提供されません。リスク開示の詳細については、免責事項を参照してください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
#BTC#
235k 投稿
#PI#
205k 投稿
#ETH#
150k 投稿
4#GateioInto11#
80k 投稿
5#ContentStar#
67k 投稿
6#GT#
64k 投稿
7#BOME#
61k 投稿
8#DOGE#
59k 投稿
9#MAGA#
52k 投稿
10#SLERF#
51k 投稿

ピン

サイトマップ