GPT-4 は 8x2200 億パラメータの混合モデルですか?今日はこのゴシップがおかしくなった

Question

出典: ハート・オブ・ザ・マシン> ジョージ・ホッツ: Apple を除いて、ほとんどの企業が秘密にする理由は、ブラックテクノロジーを隠すためではなく、「あまりクールではない」ものを隠すためです。「GPT-4のパラメータ量は100兆にも及ぶ」 今年初めに画面を駆け巡った「重い」ニュースと、バイラルに拡散したチャートをまだ覚えている人も多いのではないだろうか。![](https://img.gateio.im/social/moments-bab2147faf-c6ea22b629-dd1a6f-62a40f) しかし間もなく、OpenAIの最高経営責任者（CEO）サム・アルトマン氏が出てきてこの噂に反論し、これがフェイクニュースであることを認め、「GPT-4に関する噂はばかげている。どこから来たのかさえ分からない」と述べた。実際、近年 AI コミュニティが AI モデルのパラメータサイズを増加させているため、多くの人がそのような噂を信じて広めています。 Googleが2021年1月にリリースしたSwitch Transformerは、AI大型モデルのパラメータを1兆6000億まで引き上げた。それ以来、多くの機関が独自の数兆パラメータの大規模モデルを次々と立ち上げてきました。これに基づいて、人々は GPT-4 が数兆のパラメーターを持つ巨大なモデルになると信じるのに十分な理由があり、100 兆のパラメーターを使用することも不可能ではありません。Sam Altman 氏の噂は誤った答えを取り除くのに役立ちましたが、彼の背後にある OpenAI チームは GPT-4 の実際のパラメータについては口を閉ざしており、GPT-4 の公式技術レポートでさえ情報を開示していませんでした。最近まで、この謎は「天才ハッカー」ジョージ・ホッツによって解明されたのではないかと疑われていました。ジョージ・ホッツは、17 歳で iPhone をクラッキングし、21 歳でソニー PS3 をハッキングしたことで有名です。彼は現在、自動運転支援システムを開発する会社 (comma.ai) の社長です。彼は最近、Latent Space と呼ばれる AI テクノロジー ポッドキャストのインタビューを受けました。インタビューの中で彼はGPT-4について語り、GPT-4は実はハイブリッドモデルであると語った。具体的には、それぞれ 2,200 億個のパラメーター (GPT-3 の 1,750 億個のパラメーターよりわずかに多い) を持つ 8 つのエキスパート モデルのアンサンブル システムを使用しており、これらのモデルはさまざまなデータとタスク分散トレーニングでトレーニングされています。![](https://img.gateio.im/social/moments-bab2147faf-7913ab5955-dd1a6f-62a40f) このポッドキャストが放送された後、PyTorch の作成者である Soumith Chintala 氏は、同じ「噂」を聞いたようで、多くの人が聞いたことがあるかもしれないが、公の場でそれを言ったのは George Hotz だけであると述べました。![](https://img.gateio.im/social/moments-bab2147faf-e857d562e9-dd1a6f-62a40f) 「ハイブリッド モデルは、何もすることがないときに検討するものです。ハイブリッド モデルが生まれたのは、モデルを 2,200 億パラメータより大きくすることができないためです。彼らはモデルをより良くしたいと考えていますが、もしそれが可能であれば、 「トレーニング時間が長くなり、効果が薄れただけです。そのため、パフォーマンスを向上させるために 8 つのエキスパート モデルを採用しました。」 このハイブリッド モデルがどのように機能するかについて、ジョージ ホッツ氏は詳しく述べませんでした。![](https://img.gateio.im/social/moments-bab2147faf-20616686e1-dd1a6f-62a40f) OpenAI はなぜこれについてそれほど秘密主義なのでしょうか?ジョージ・ホッツは、Apple を除いて、ほとんどの企業が秘密を守る理由は、ブラックテクノロジーを隠すためではなく、「それほどクールではない」ものを隠すためであり、「お金をかけている限り、それを他人に知られたくない」と考えています。 8倍のお金でこのモデルを手に入れることができます。」将来の傾向については、人々は長期にわたる微調整やさまざまなトリックの発見を通じて、より小さなモデルをトレーニングし、パフォーマンスを向上させるだろうと彼は考えています。同氏は、以前と比較して、コンピューティングリソースは変わらないにもかかわらず、トレーニング効果が大幅に向上していると述べ、トレーニング方法の改善が大きな役割を果たしていることがわかりました。現在、George Hotz 氏による GPT-4 に関する「速報」が Twitter 上で広く拡散されています。![](https://img.gateio.im/social/moments-bab2147faf-195a7471f0-dd1a6f-62a40f) 誰かがこれに触発され、GPT-4 に対して LLaMA アンサンブルをトレーニングすると主張しました。![](https://img.gateio.im/social/moments-bab2147faf-caf5535cca-dd1a6f-62a40f) また、George Hotz 氏が述べたように、GPT-4 が 2,200 億のパラメーターを持つ 8 つのエキスパート モデルで構成されるハイブリッド モデルである場合、その背後にある理由がどれほど高価であるかを想像するのは難しいとも言われています。![](https://img.gateio.im/social/moments-bab2147faf-f62695f724-dd1a6f-62a40f) ジョージ・ホッツ氏は出典について言及していないため、現時点では上記の主張が正しいかどうか判断できないことを指摘しておきます。