GPT-4 - це змішана модель 8x220 мільярдів параметрів? Ця плітка сьогодні зійшла з розуму

Question

Джерело: Heart of the Machine> Джордж Хотц: За винятком Apple, причина, чому більшість компаній зберігають таємниці, полягає не в тому, щоб приховати деякі чорні технології, а в тому, щоб приховати деякі «не дуже круті» речі.«Обсяг параметрів GPT-4 досягає 100 трильйонів.» Гадаю, багато людей досі пам’ятають «важкі» новини, які згорнули на екрані на початку цього року, і діаграму, яка була вірусно поширена.![](https://img.gateio.im/social/moments-bab2147faf-c6ea22b629-dd1a6f-62a40f) Але незабаром генеральний директор OpenAI Сем Альтман виступив, щоб спростувати чутки, підтвердивши, що це фейкова новина, і сказав: «Чутки про GPT-4 смішні. Я навіть не знаю, звідки вони взялися».Насправді, багато людей вірять і поширюють такі чутки, тому що спільнота ШІ збільшувала розмір параметрів моделей ШІ в останні роки. Switch Transformer, випущений Google у січні 2021 року, підвищив параметри великої моделі ШІ до 1,6 трильйона. Відтоді багато установ послідовно випустили власні великі моделі з трильйонами параметрів. Виходячи з цього, у людей є всі підстави вважати, що GPT-4 буде величезною моделлю з трильйонами параметрів, і 100 трильйонів параметрів не є неможливим.Хоча чутки Сема Альтмана допомогли нам позбутися неправильної відповіді, команда OpenAI, яка стоїть за ним, не говорила про справжні параметри GPT-4, і навіть офіційний технічний звіт GPT-4 не розкривав жодної інформації.Донедавна цю таємницю підозрював у розгадуванні «геніальний хакер» Джордж Хотц.Джордж Хоц відомий тим, що зламав iPhone у віці 17 років і зламав Sony PS3 у віці 21 року. Зараз він очолює компанію (comma.ai), яка розробляє автоматичні системи допомоги водієві.Нещодавно у нього взяли інтерв’ю технічний подкаст AI під назвою Latent Space. В інтерв'ю він розповів про GPT-4, сказавши, що GPT-4 насправді є гібридною моделлю. Зокрема, він використовує систему ансамблю з 8 експертних моделей, кожна з яких має 220 мільярдів параметрів (трохи більше, ніж 175 мільярдів параметрів GPT-3), і ці моделі були навчені на різних даних і навчанні розподілу завдань.![](https://img.gateio.im/social/moments-bab2147faf-7913ab5955-dd1a6f-62a40f) Після того, як цей подкаст вийшов в ефір, творець PyTorch Соміт Чинтала сказав, що він, схоже, чув ту саму «чутку», і багато людей, можливо, чули її, але тільки Джордж Хоц сказав це публічно.![](https://img.gateio.im/social/moments-bab2147faf-e857d562e9-dd1a6f-62a40f) «Гібридні моделі — це ті, про які ти думаєш, коли тобі нема чого робити, — пожартував Джордж Хотц. — Гібридні моделі з’являються тому, що не можна зробити модель більшою, ніж 220 мільярдів параметрів. Вони хочуть, щоб модель була кращою, але якщо це просто час навчання довший, а ефект зменшився. Тому вони прийняли вісім експертних моделей для покращення продуктивності».![](https://img.gateio.im/social/moments-bab2147faf-20616686e1-dd1a6f-62a40f) Чому OpenAI такий секретний щодо цього? Джордж Хоц вважає, що, за винятком Apple, причина, чому більшість компаній зберігають таємницю, полягає не в тому, щоб приховати деякі чорні технології, а в тому, щоб приховати деякі «не дуже круті» речі, і не хочуть, щоб інші знали, що «поки ви витрачаєте У 8 разів більше грошей, ви можете отримати цю модель».Що стосується майбутньої тенденції, він вважає, що люди навчатимуть менші моделі та покращуватимуть продуктивність шляхом тривалого тонкого налаштування та відкриття різних хитрощів. Він зазначив, що порівняно з минулим ефект навчання значно покращився, хоча обчислювальні ресурси не змінилися, що свідчить про те, що вдосконалення методу навчання відіграло велику роль.На даний момент "термінові новини" Джорджа Хотца про GPT-4 широко поширені в Twitter.![](https://img.gateio.im/social/moments-bab2147faf-195a7471f0-dd1a6f-62a40f) Хтось надихнувся цим і заявив, що тренує ансамбль LLaMA проти GPT-4.![](https://img.gateio.im/social/moments-bab2147faf-caf5535cca-dd1a6f-62a40f) Інші сказали, що якщо, як сказав Джордж Хотц, GPT-4 є гібридною моделлю, що складається з 8 експертних моделей із 220 мільярдами параметрів, важко уявити, наскільки дорогою є аргументація, що стоїть за цим.![](https://img.gateio.im/social/moments-bab2147faf-f62695f724-dd1a6f-62a40f) Слід зазначити, що оскільки Джордж Хотц не згадав джерело, ми не можемо наразі судити про правильність наведеного вище твердження.