出典: 量子ビット意外なことに、MIT の数学テストは GPT-4 によって破られました? !突然、誰かが最新の論文で注目を集める発表を行いました。GPT-4 MIT の数学および EECS (電気工学およびコンピュータ サイエンス学科) の学位試験において、**卒業要件を完全に満たす能力を実証**。そしてちゃんと**満点を獲得**してください!ご存知のとおり、この結果を測定したのは他でもない、MIT、ボストン大学、コーネル大学の研究チームです。前世代の王者 GPT-3.5 よりも強力で、同じテストでは 3 分の 1 しか成功しませんでした。 △GPT-3.5テストのスコアこの紙が出てくるとすぐに、数え切れないほどの視線が集まりました。 GPT-4 の一見ハッキング行為は、当然多くのネチズンの感情を呼び起こしました。> GPT-3.5 よりもはるかに優れています。> 言っておきますが、将来的に GPT-4 よりも強力なモデルなしで学術問題を解決することは可能でしょうか? 一部のネチズンは、過去 2 日間でヤン・ルカンが「GPT-4 の IQ は犬ほど優れていない」と不満を漏らしたのをネタにして、インターネットでの「最先端」のサーフィンを披露しました。## GPT-4 オープン MIT 試験具体的には、今回 GPT-4 は次のようなテストに参加しました。研究チームは、4,550 の問題と解決策を含むデータセットを厳選しました。これらの 4,550 の問題と解答は、MIT 数学学部および EECS の学生**が学士号を取得するために勉強する必要があるコースの問題セット、中間試験、および最終試験からのものです。 **含む:6-1: 電気科学および工学;6-2: 電気工学とコンピュータサイエンス。6-3: コンピュータサイエンスとエンジニアリング。6-4: 人工知能と意思決定。18-1: 一般数学;18-2: 応用数学;18-3: 純粋数学。18-C: 数学とコンピューターサイエンス。## 各専攻の詳細な分類まとめ質問はすべて MIT データセットからのもので、そこから 228 個の質問がランダムに生成されます。**画像や既存の解決策を含まない問題**です。トピックの難易度は、簡単なものから難しいものの順に、演習、演習、中間試験、期末試験、実験、特別プロジェクトとなっています。質問の難易度は、答えの種類ごとに簡単なものから難しいものまで、プログラミング、オープン、多肢選択、数値、表現、画像の順に並べられています。今回はGPT-4とGPT-3.5だけでなく、StableVicuna-13B、LLaMA-30B、LLaMA-60B**もテストに参加しています。これら 4 つの大型モデルは、「最先端の大型言語モデル」であるため、テスト対象として選ばれました。## 最終試験のスコア表のデータからわかるように、調整された GPT-4 はスコア率 100% で最も高いスコアを持っていますが、最も一般的なパフォーマンスは LLaMA-30B であり、スコアの 30% のみをスコアしています。**GPT-4 のオリジナル バージョンはまったくチューニングせずにそのまま使用され、この MIT 試験でも 90% のスコアを獲得した**ことは注目に値します。少数ショット + CoT + 自己批評 + 専門家を含むチューニング プロセス。 最終テスト結果の表形式のデータから、リンクが左から右に追加されるたびに、調整された GPT-4 スコアがより高いレベルに改善されることがわかります。さらに、研究チームはプロンプト ボックスでエンジニアリングの最適化も実行しました。**具体的な「呪文」**は次のとおりです。## 待って、評価者は GPT-4 自身ですか?このような結果を見て、多くのネチズンは数学試験におけるLLMの進歩が少し速いと感じました。 2年前、AIは小学校の算数の問題に苦戦していた。**「シャオミンは 5 本のレモンの木を植え、毎年各木から 6 個のレモンを収穫しました。10 年間で合計で何個のレモンを収穫しましたか?」** に似ています。 昨年初め、MIT+ハーバード大学+コロンビア大学+ウォータールー大学の共同研究では、数学の問題を同等のプログラミング問題に変換することで、GPT-3の兄弟であるOpenAIのCodexは高い数値を習得し、**MITの学部レベルに達することができると発表されました。 **。MIT の学部基礎数学コースからランダムに選択された 6 つのサンプル問題を学習しました。6 つのコースのそれぞれがランダムに生成した 25 問と、ACT レベル (アメリカの大学入学試験) のデータセットからの 60 問をランダムに生成しました。**合計 210 問、AI が全問正解しました。 ** しかし、AI によって達成される「MIT 学部レベル」は、実際には Codex が数学の問題ではなく言語の問題を行っているのではないかと示唆する人もいます。なぜなら、当時の評価ではコーデックスは読み書きを担当しており、解くことは含まれていなかったからです。ということで、今回のGPT-4は大活躍で、素晴らしいの一言でした~。 そうですね、褒めたくなるのはわかりますが、急いで褒めないでください。すぐに誰かが「奇妙な」ものを発見したからです。主に **2 つの主要スロット**があります。まず疑問に思うべきことは、OpenAI のトレーニング データセットが完全にはリリースされていないということです。これは、**データセット内の 4550 の問題と解決策が GPT-4 トレーニング セットに存在しないことを証明できない**ことも意味します。言い換えれば、GPT-4 が事前トレーニング段階でテスト問題にさらされていれば、最終的には満点を獲得し、驚くようなことはありません。一部のネチズンが不謹慎に yygq を行い、GPT-4 がそのような結果を得たと信じているのも不思議ではありません。データセットがトレーニング データに含まれているに違いありません。 2 番目のスロットは GPT-4 の最終的な 100% スコア率です。何が間違っていると思われますか? ? ?詳しく見てみると、この論文のセクション 2.6 に重要なポイントがあります。チームは、データセット上のオープンソースの大規模モデルを微調整します。「質問 Q、グラウンド トゥルース ソリューション S、LLM 回答 A が与えられた場合、GPT-4 を使用してモデルの応答を自動的にスコアリングします。」実際には、各大規模モデルがこのテストの回答を生成し、GPT-4 を送信してスコアを 0 ~ 5 の間でスコア付けします。**つまり、GPT-4 に満点を与えたのは、実際には GPT-4 自体です。 **ああ、これは…王坡がメロンを売って自慢している疑いがないとは言い難い。 さらに、GPT-4 が満点を獲得するには「良いヒント」を GPT-4 に提供する必要があると多くの人が不満を述べました。「良いヒント」とは一体何でしょうか?定義するのは不可能のようです。 これらの問題をMITの数学やEECSの学生に投げかけ、人間の学生も100%解けるように「良いヒント」を与え続けるべきだと叫ぶ人もいた…。## もう一つ小さなイースターエッグ:基本的にラップトップ上で展開して実行できる **StableVicuna-13B** も、テスト全体を通じて 48% のスコアを獲得しました。 このスコアは、より大きなモデルの LLaMA-65B よりも 10 パーセント近く高いだけでなく、MIT 微調整後の LLaMA-30B でさえもさらに高くなります。モデルのサイズと機能の相関関係について、人々は何らかの考え方に陥る必要があります。参考リンク:[1][2][3][4]
MIT の学部数学試験に GPT-4 の満点で合格しました。この一連のプロンプトは有効です
出典: 量子ビット
意外なことに、MIT の数学テストは GPT-4 によって破られました? !
突然、誰かが最新の論文で注目を集める発表を行いました。
GPT-4 MIT の数学および EECS (電気工学およびコンピュータ サイエンス学科) の学位試験において、卒業要件を完全に満たす能力を実証。
そしてちゃんと満点を獲得してください!
ご存知のとおり、この結果を測定したのは他でもない、MIT、ボストン大学、コーネル大学の研究チームです。
前世代の王者 GPT-3.5 よりも強力で、同じテストでは 3 分の 1 しか成功しませんでした。
この紙が出てくるとすぐに、数え切れないほどの視線が集まりました。
GPT-4 オープン MIT 試験
具体的には、今回 GPT-4 は次のようなテストに参加しました。
研究チームは、4,550 の問題と解決策を含むデータセットを厳選しました。
これらの 4,550 の問題と解答は、MIT 数学学部および EECS の学生**が学士号を取得するために勉強する必要があるコースの問題セット、中間試験、および最終試験からのものです。 **
含む:
6-1: 電気科学および工学; 6-2: 電気工学とコンピュータサイエンス。 6-3: コンピュータサイエンスとエンジニアリング。 6-4: 人工知能と意思決定。 18-1: 一般数学; 18-2: 応用数学; 18-3: 純粋数学。 18-C: 数学とコンピューターサイエンス。
各専攻の詳細な分類まとめ
質問はすべて MIT データセットからのもので、そこから 228 個の質問がランダムに生成されます。画像や既存の解決策を含まない問題です。
トピックの難易度は、簡単なものから難しいものの順に、演習、演習、中間試験、期末試験、実験、特別プロジェクトとなっています。
質問の難易度は、答えの種類ごとに簡単なものから難しいものまで、プログラミング、オープン、多肢選択、数値、表現、画像の順に並べられています。
今回はGPT-4とGPT-3.5だけでなく、StableVicuna-13B、LLaMA-30B、LLaMA-60B**もテストに参加しています。
これら 4 つの大型モデルは、「最先端の大型言語モデル」であるため、テスト対象として選ばれました。
最終試験のスコア
表のデータからわかるように、調整された GPT-4 はスコア率 100% で最も高いスコアを持っていますが、最も一般的なパフォーマンスは LLaMA-30B であり、スコアの 30% のみをスコアしています。
GPT-4 のオリジナル バージョンはまったくチューニングせずにそのまま使用され、この MIT 試験でも 90% のスコアを獲得したことは注目に値します。
少数ショット + CoT + 自己批評 + 専門家を含むチューニング プロセス。
さらに、研究チームはプロンプト ボックスでエンジニアリングの最適化も実行しました。**具体的な「呪文」**は次のとおりです。
待って、評価者は GPT-4 自身ですか?
このような結果を見て、多くのネチズンは数学試験におけるLLMの進歩が少し速いと感じました。
「シャオミンは 5 本のレモンの木を植え、毎年各木から 6 個のレモンを収穫しました。10 年間で合計で何個のレモンを収穫しましたか?」 に似ています。
MIT の学部基礎数学コースからランダムに選択された 6 つのサンプル問題を学習しました。6 つのコースのそれぞれがランダムに生成した 25 問と、ACT レベル (アメリカの大学入学試験) のデータセットからの 60 問をランダムに生成しました。
**合計 210 問、AI が全問正解しました。 **
なぜなら、当時の評価ではコーデックスは読み書きを担当しており、解くことは含まれていなかったからです。
ということで、今回のGPT-4は大活躍で、素晴らしいの一言でした~。
主に 2 つの主要スロットがあります。
まず疑問に思うべきことは、OpenAI のトレーニング データセットが完全にはリリースされていないということです。
これは、データセット内の 4550 の問題と解決策が GPT-4 トレーニング セットに存在しないことを証明できないことも意味します。
言い換えれば、GPT-4 が事前トレーニング段階でテスト問題にさらされていれば、最終的には満点を獲得し、驚くようなことはありません。
一部のネチズンが不謹慎に yygq を行い、GPT-4 がそのような結果を得たと信じているのも不思議ではありません。データセットがトレーニング データに含まれているに違いありません。
詳しく見てみると、この論文のセクション 2.6 に重要なポイントがあります。
チームは、データセット上のオープンソースの大規模モデルを微調整します。「質問 Q、グラウンド トゥルース ソリューション S、LLM 回答 A が与えられた場合、GPT-4 を使用してモデルの応答を自動的にスコアリングします。」
実際には、各大規模モデルがこのテストの回答を生成し、GPT-4 を送信してスコアを 0 ~ 5 の間でスコア付けします。
**つまり、GPT-4 に満点を与えたのは、実際には GPT-4 自体です。 **
ああ、これは…王坡がメロンを売って自慢している疑いがないとは言い難い。
「良いヒント」とは一体何でしょうか?定義するのは不可能のようです。
## もう一つ
小さなイースターエッグ:
基本的にラップトップ上で展開して実行できる StableVicuna-13B も、テスト全体を通じて 48% のスコアを獲得しました。
モデルのサイズと機能の相関関係について、人々は何らかの考え方に陥る必要があります。
参考リンク: [1] [2] [3] [4]