GPT-4, 8x220 milyar parametreden oluşan karma bir model mi? Bu dedikodu bugün çıldırdı

Question

Kaynak: Makinenin Kalbi> George Hotz: Apple hariç, çoğu şirketin sır tutmasının nedeni bazı karanlık teknolojileri saklamak değil, bazı "çok havalı olmayan" şeyleri saklamaktır."GPT-4'ün parametre hacmi 100 trilyon kadar yüksek." Bu yılın başında ekranları kasıp kavuran "ağır" haberleri ve viral bir şekilde yayılan grafiği birçok kişinin hala hatırladığına inanıyorum.![](https://img.gateio.im/social/moments-bab2147faf-c6ea22b629-dd1a6f-62a40f) Ancak kısa süre sonra OpenAI CEO'su Sam Altman ortaya çıkıp söylentileri yalanlayarak bunun bir yalan haber olduğunu doğruladı ve "GPT-4 ile ilgili söylentiler çok saçma. Nereden geldiğini bile bilmiyorum" dedi.Aslında birçok kişi bu tür söylentilere inanıyor ve yayıyor çünkü AI topluluğu son yıllarda AI modellerinin parametre boyutunu artırıyor. Google tarafından Ocak 2021'de piyasaya sürülen Switch Transformer, AI büyük modelinin parametrelerini 1,6 trilyona çıkardı. O zamandan beri, birçok kurum art arda kendi trilyon parametreli büyük modellerini piyasaya sürdü. Buna dayanarak, insanlar GPT-4'ün trilyonlarca parametreye sahip devasa bir model olacağına inanmak için her türlü nedene sahipler ve 100 trilyon parametre imkansız değil.Sam Altman'ın söylentisi yanlış bir cevaptan kurtulmamıza yardımcı olsa da, arkasındaki OpenAI ekibi GPT-4'ün gerçek parametreleri konusunda ağzı sıkıydı ve GPT-4'ün resmi teknik raporu bile herhangi bir bilgi ifşa etmedi.Yakın zamana kadar, bu gizemin "dahi bilgisayar korsanı" George Hotz tarafından delindiğinden şüpheleniliyordu.George Hotz, 17 yaşında iPhone'u kırmasıyla ve 21 yaşında Sony PS3'ü hacklemesiyle ünlüdür. Şu anda otomatik sürüş destek sistemleri geliştiren bir şirketin (comma.ai) patronudur.Son zamanlarda, Latent Space adlı bir AI teknoloji podcast'i ile röportaj yaptı. Röportajda GPT-4'ten bahsetti ve GPT-4'ün aslında hibrit bir model olduğunu söyledi. Spesifik olarak, her biri 220 milyar parametreye (GPT-3'ün 175 milyar parametresinden biraz daha fazla) sahip 8 uzman modelden oluşan bir topluluk sistemi kullanır ve bu modeller farklı veri ve görev dağıtım eğitimi konusunda eğitilmiştir.![](https://img.gateio.im/social/moments-bab2147faf-7913ab5955-dd1a6f-62a40f) Bu podcast yayınlandıktan sonra, PyTorch'un yaratıcısı Soumith Chintala, aynı "söylentiyi" duymuş gibi göründüğünü ve birçok kişinin duymuş olabileceğini, ancak bunu yalnızca George Hotz'un toplum içinde söylediğini söyledi.![](https://img.gateio.im/social/moments-bab2147faf-e857d562e9-dd1a6f-62a40f) George Hotz, "Hibrit modeller, ipinizin sonuna geldiğinizde düşündüğünüz modellerdir. Hibrit modeller, modeli 220 milyar parametreden daha büyük yapamadığınız için ortaya çıkar. Modelin daha iyi olmasını isterler." , ancak eğitim süresi uzadı ve etkisi azaldı. Bu nedenle, performansı artırmak için sekiz uzman modeli benimsediler.” Bu hibrit modelin nasıl çalıştığına gelince, George Hotz ayrıntı vermedi.![](https://img.gateio.im/social/moments-bab2147faf-20616686e1-dd1a6f-62a40f) OpenAI bu konuda neden bu kadar ketum? George Hotz, Apple dışında çoğu şirketin sır tutmasının nedeninin bazı kara teknolojileri saklamak değil, bazı "çok havalı olmayan" şeyleri gizlemek ve "harcadığınız sürece" başkalarının bunu bilmesini istememek olduğuna inanıyor. 8 katı paraya bu modeli alabilirsin”.Gelecekteki eğilime gelince, insanların daha küçük modelleri eğiteceklerine ve uzun vadeli ince ayar yaparak ve çeşitli hileler keşfederek performansı artıracaklarına inanıyor. Geçmişe kıyasla, bilgi işlem kaynaklarının değişmemesine rağmen, eğitim etkisinin önemli ölçüde iyileştirildiğinden bahsetti, bu da eğitim yönteminin iyileştirilmesinin büyük rol oynadığını gösteriyor.Şu anda, George Hotz'un GPT-4 hakkındaki "son dakika haberi" Twitter'da geniş çapta yayıldı.![](https://img.gateio.im/social/moments-bab2147faf-195a7471f0-dd1a6f-62a40f) Birisi bundan ilham aldı ve GPT-4'e karşı bir LLaMA topluluğu eğittiğini iddia etti.![](https://img.gateio.im/social/moments-bab2147faf-caf5535cca-dd1a6f-62a40f) Diğerleri, George Hotz'un dediği gibi, GPT-4'ün 220 milyar parametreli 8 uzman modelden oluşan hibrit bir model olması durumunda, arkasındaki mantığın ne kadar pahalı olduğunu hayal etmenin zor olduğunu söylediler.![](https://img.gateio.im/social/moments-bab2147faf-f62695f724-dd1a6f-62a40f) George Hotz kaynağı belirtmediği için, yukarıdaki iddianın doğru olup olmadığına şu anda karar veremiyoruz.