Beklenmedik bir şekilde, MIT matematik testi GPT-4 tarafından mı kırıldı? !
Aniden birisi son gazete çalışmasında yüksek profilli bir duyuru yaptı:
GPT-4 MIT'nin Matematik ve EECS (Elektrik Mühendisliği ve Bilgisayar Bilimleri Bölümü) lisans derecesi sınavlarında mezuniyet gerekliliklerini tam olarak karşılayabildiğini kanıtlamıştır.
Ve düzgün bir şekilde tam not alın!
Biliyorsunuz bu sonucu ölçen MIT, Boston Üniversitesi ve Cornell Üniversitesi'nden araştırma ekibinden başkası değil.
Ve önceki nesil kral GPT-3.5'ten daha güçlü.Aynı testte sadece üçte bir oranında başarılı oldu.
△GPT-3.5 test puanları
Kâğıt çıkar çıkmaz sayısız göz hızla üzerine çevrildi.
GPT-4'ün görünüşte bilgisayar korsanlığı davranışı, doğal olarak birçok netizenin duygularını uyandırdı.
GPT-3.5'ten çok daha iyi, evet!
Şöyle diyelim, gelecekte GPT-4'ten daha güçlü bir model olmadan akademik problemleri çözmek mümkün mü?
Bazı netizenler, Yann LeCun'un son iki gün içinde "GPT-4 IQ'su bir köpek kadar iyi değil" hakkında şikayet ettiği bir sapı çalarak internette "son teknoloji" sörf yaptıklarını gösterdiler:
GPT-4 açık MIT sınavı
Spesifik olarak, GPT-4 bu sefer böyle bir teste katıldı:
Araştırma ekibi, 4.550 sorun ve çözüm içeren bir veri kümesi oluşturdu.
Bu 4.550 problem ve çözümleri, MIT Matematik Bölümü ve EECS öğrencilerinin** bir lisans derecesi kazanmak için çalışmaları gereken ders problem setleri, ara sınavlar ve final sınavlarından alınmıştır. **
katmak:
6-1: Elektrik Bilimi ve Mühendisliği;
6-2: Elektrik Mühendisliği ve Bilgisayar Bilimi;
6-3: Bilgisayar Bilimi ve Mühendisliği;
6-4: Yapay zeka ve karar verme;
18-1: Genel Matematik;
18-2: Uygulamalı Matematik;
18-3: Saf Matematik;
18-C: Matematik ve Bilgisayar Bilimleri.
Her ana dalın ayrıntılı sınıflandırma özeti
Soruların tümü, 228 sorunun rastgele oluşturulduğu MIT veri kümesinden alınmıştır, görüntüleri ve mevcut çözümleri içermeyen sorunlar.
Konuların zorluk derecesi kolaydan zora doğru sırasıyla alıştırmalar, alıştırmalar, ara sınavlar, final sınavları, deneyler ve özel projeler şeklindedir.
Cevap türüne göre sıralanmış soruların zorluğu kolaydan zora doğru: programlama, açık, çoktan seçmeli, sayısal, ifade ve görsel.
Bu sefer sadece GPT-4 ve GPT-3.5 değil, aynı zamanda StableVicuna-13B, LLaMA-30B ve LLaMA-60B** de teste katılıyor.
Bu 4 büyük model, "son teknoloji büyük dil modelleri" oldukları için test yarışmacısı olarak seçildi.
Final Sınav Puanı
Tablodaki verilerden de görülebileceği gibi, ayarlanmış GPT-4 %100 puanlama oranıyla en yüksek puana sahiptir; en genel performans, puanın yalnızca %30'unu alan LLaMA-30B'dir.
GPT-4'ün orijinal sürümünün kutudan çıktığı haliyle hiç ayar yapılmadan kullanıldığını ve ayrıca bu MIT sınavında %90 puan aldığını belirtmekte fayda var.
Few-Shot+CoT+Özeleştiri+Uzmanlar dahil ayarlama süreci.
Nihai test sonuçlarının tablo verilerinden, soldan sağa her bağlantı eklendiğinde, ayarlanmış GPT-4 puanının daha yüksek bir seviyeye yükseltileceğini görebiliriz.
Ayrıca, araştırma ekibi bilgi istemi kutusunda mühendislik optimizasyonu da gerçekleştirmiştir, belirli "büyüler" aşağıdaki gibidir:
Bekle, değerlendirici GPT-4'ün kendisi mi?
Böyle bir sonucu gören birçok netizen, LLM'nin matematik testindeki ilerlemesinin biraz hızlı olduğunu hissetti.
2 yıl önce, AI ilkokul matematik problemleriyle mücadele ediyordu.
"Xiao Ming her yıl 5 limon ağacı dikti ve her ağaçtan 6 limon aldı, 10 yılda toplam kaç limon aldı" benzeri.
Geçen yılın başında MIT+Harvard+Columbia University+Waterloo University tarafından yapılan ortak bir araştırma, GPT-3'ün kardeşi OpenAI Codex'in matematik problemlerini eşdeğer programlama problemlerine dönüştürerek yüksek sayılara hakim olabileceğini ve **MIT Lisans seviyesine ulaşabileceğini belirtti. **.
MIT lisans düzeyindeki temel matematik derslerinden rastgele seçilmiş 6 örnek soru öğrendim. 6 dersin her biri için 25 soru artı bir ACT düzeyi (Amerikan üniversite giriş sınavı) veri setinden 60 soru rastgele seçildi.
**Toplam 210 soru, yapay zeka hepsini doğru yanıtladı. **
Bununla birlikte, bazı insanlar yapay zeka tarafından elde edilen "MIT lisans seviyesi"nin aslında matematik problemleri yerine dil problemleri çözen Kodeks olduğunu öne sürdüler——
Çünkü o zamanki değerlendirmede Codex okuma ve yazmadan sorumluydu ve çözmeyi içermiyordu.
Yani, bu sefer GPT-4 son derece iyi performans gösterdi, ne harika bir kelime~
Bunu övmek için can attığını biliyorum ama övmek için acele etme, çünkü çok geçmeden birisi "tuhaf" bir şey keşfetti.
Esas olarak 2 ana yuva vardır.
Sorgulamaya değer ilk şey, OpenAI'nin eğitim veri setinin tam olarak yayınlanmamış olmasıdır.
Bu aynı zamanda şu anlama gelir veri setindeki 4550 problem ve çözümünün GPT-4 eğitim setinde bulunmadığı kanıtlanamaz.
Başka bir deyişle, GPT-4 eğitim öncesi aşamada test sorularına maruz kaldıysa, sonunda mükemmel bir puan alacak ve sürpriz olmayacak.
Bazı netizenlerin kararsız bir şekilde yygq yapmasına ve GPT-4'ün böyle bir sonuç aldığına inanmasına şaşmamalı, veri setinin eğitim verilerine dahil edilmiş olması gerekir.
İkinci yuva, GPT-4'ün son %100 puanlama oranıdır. Yanlış görünen ne? ? ?
Daha yakından bakın, makalenin 2.6. Bölümünde önemli bir nokta var:
Ekip, veri kümesindeki açık kaynaklı büyük modelin ince ayarını yapıyor, "Bir Q sorusu, bir temel gerçek çözümü S ve bir LLM yanıtı A verildiğinde, model yanıtlarını otomatik olarak puanlamak için GPT-4 kullanıyoruz."
Uygulamada, her büyük model bu testin yanıtlarını üretir ve ardından 0-5 arasında bir puanla GPT-4'ü puanlamaya gönderir.
**Yani GPT-4'e tam not veren aslında GPT-4'ün kendisidir. **
Ah, bu... Wang Po'nun kavun satıp böbürlendiğine dair hiçbir şüphe olmadığını söylemek zor.
Ayrıca pek çok kişi GPT-4'ün tam not alması için "iyi ipuçları" verilmesi gerektiğinden şikayet etti.
"İyi bir ipucu" tam olarak nedir? Tanımlamak imkansız görünüyor.
Hatta bazı insanlar, insan öğrencilerin de %100 puan alabilmeleri için bu soruların MIT matematiğine ve EECS öğrencilerine atılması ve onlara "iyi ipuçları" vermeye devam edilmesi gerektiğini haykırdı...
Bir şey daha
Küçük bir paskalya yumurtası:
Test boyunca temel olarak bir dizüstü bilgisayarda kurulabilen ve çalıştırılabilen StableVicuna-13B de %48 puan aldı.
Bu puan, daha büyük bir modele sahip LLaMA-65B'den yalnızca yaklaşık yüzde 10 daha yüksek değil, aynı zamanda MIT ince ayarından sonra LLaMA-30B bile daha da yüksek.
İnsanların, model boyutu ile yetenek arasındaki ilişki hakkında biraz düşünmesi gerekiyor.
Referans bağlantısı:
[1]
[2]
[3]
[4]
View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
MIT lisans matematik sınavını GPT-4'ten tam puan alarak geçti! Bu bilgi istemleri grubu yanıyor
Kaynak: Qubit
Beklenmedik bir şekilde, MIT matematik testi GPT-4 tarafından mı kırıldı? !
Aniden birisi son gazete çalışmasında yüksek profilli bir duyuru yaptı:
GPT-4 MIT'nin Matematik ve EECS (Elektrik Mühendisliği ve Bilgisayar Bilimleri Bölümü) lisans derecesi sınavlarında mezuniyet gerekliliklerini tam olarak karşılayabildiğini kanıtlamıştır.
Ve düzgün bir şekilde tam not alın!
Biliyorsunuz bu sonucu ölçen MIT, Boston Üniversitesi ve Cornell Üniversitesi'nden araştırma ekibinden başkası değil.
Ve önceki nesil kral GPT-3.5'ten daha güçlü.Aynı testte sadece üçte bir oranında başarılı oldu.
Kâğıt çıkar çıkmaz sayısız göz hızla üzerine çevrildi.
GPT-4 açık MIT sınavı
Spesifik olarak, GPT-4 bu sefer böyle bir teste katıldı:
Araştırma ekibi, 4.550 sorun ve çözüm içeren bir veri kümesi oluşturdu.
Bu 4.550 problem ve çözümleri, MIT Matematik Bölümü ve EECS öğrencilerinin** bir lisans derecesi kazanmak için çalışmaları gereken ders problem setleri, ara sınavlar ve final sınavlarından alınmıştır. **
katmak:
6-1: Elektrik Bilimi ve Mühendisliği; 6-2: Elektrik Mühendisliği ve Bilgisayar Bilimi; 6-3: Bilgisayar Bilimi ve Mühendisliği; 6-4: Yapay zeka ve karar verme; 18-1: Genel Matematik; 18-2: Uygulamalı Matematik; 18-3: Saf Matematik; 18-C: Matematik ve Bilgisayar Bilimleri.
Her ana dalın ayrıntılı sınıflandırma özeti
Soruların tümü, 228 sorunun rastgele oluşturulduğu MIT veri kümesinden alınmıştır, görüntüleri ve mevcut çözümleri içermeyen sorunlar.
Konuların zorluk derecesi kolaydan zora doğru sırasıyla alıştırmalar, alıştırmalar, ara sınavlar, final sınavları, deneyler ve özel projeler şeklindedir.
Cevap türüne göre sıralanmış soruların zorluğu kolaydan zora doğru: programlama, açık, çoktan seçmeli, sayısal, ifade ve görsel.
Bu sefer sadece GPT-4 ve GPT-3.5 değil, aynı zamanda StableVicuna-13B, LLaMA-30B ve LLaMA-60B** de teste katılıyor.
Bu 4 büyük model, "son teknoloji büyük dil modelleri" oldukları için test yarışmacısı olarak seçildi.
Final Sınav Puanı
Tablodaki verilerden de görülebileceği gibi, ayarlanmış GPT-4 %100 puanlama oranıyla en yüksek puana sahiptir; en genel performans, puanın yalnızca %30'unu alan LLaMA-30B'dir.
GPT-4'ün orijinal sürümünün kutudan çıktığı haliyle hiç ayar yapılmadan kullanıldığını ve ayrıca bu MIT sınavında %90 puan aldığını belirtmekte fayda var.
Few-Shot+CoT+Özeleştiri+Uzmanlar dahil ayarlama süreci.
Ayrıca, araştırma ekibi bilgi istemi kutusunda mühendislik optimizasyonu da gerçekleştirmiştir, belirli "büyüler" aşağıdaki gibidir:
Bekle, değerlendirici GPT-4'ün kendisi mi?
Böyle bir sonucu gören birçok netizen, LLM'nin matematik testindeki ilerlemesinin biraz hızlı olduğunu hissetti.
"Xiao Ming her yıl 5 limon ağacı dikti ve her ağaçtan 6 limon aldı, 10 yılda toplam kaç limon aldı" benzeri.
MIT lisans düzeyindeki temel matematik derslerinden rastgele seçilmiş 6 örnek soru öğrendim. 6 dersin her biri için 25 soru artı bir ACT düzeyi (Amerikan üniversite giriş sınavı) veri setinden 60 soru rastgele seçildi.
**Toplam 210 soru, yapay zeka hepsini doğru yanıtladı. **
Çünkü o zamanki değerlendirmede Codex okuma ve yazmadan sorumluydu ve çözmeyi içermiyordu.
Yani, bu sefer GPT-4 son derece iyi performans gösterdi, ne harika bir kelime~
Esas olarak 2 ana yuva vardır.
Sorgulamaya değer ilk şey, OpenAI'nin eğitim veri setinin tam olarak yayınlanmamış olmasıdır.
Bu aynı zamanda şu anlama gelir veri setindeki 4550 problem ve çözümünün GPT-4 eğitim setinde bulunmadığı kanıtlanamaz.
Başka bir deyişle, GPT-4 eğitim öncesi aşamada test sorularına maruz kaldıysa, sonunda mükemmel bir puan alacak ve sürpriz olmayacak.
Bazı netizenlerin kararsız bir şekilde yygq yapmasına ve GPT-4'ün böyle bir sonuç aldığına inanmasına şaşmamalı, veri setinin eğitim verilerine dahil edilmiş olması gerekir.
Daha yakından bakın, makalenin 2.6. Bölümünde önemli bir nokta var:
Ekip, veri kümesindeki açık kaynaklı büyük modelin ince ayarını yapıyor, "Bir Q sorusu, bir temel gerçek çözümü S ve bir LLM yanıtı A verildiğinde, model yanıtlarını otomatik olarak puanlamak için GPT-4 kullanıyoruz."
Uygulamada, her büyük model bu testin yanıtlarını üretir ve ardından 0-5 arasında bir puanla GPT-4'ü puanlamaya gönderir.
**Yani GPT-4'e tam not veren aslında GPT-4'ün kendisidir. **
Ah, bu... Wang Po'nun kavun satıp böbürlendiğine dair hiçbir şüphe olmadığını söylemek zor.
"İyi bir ipucu" tam olarak nedir? Tanımlamak imkansız görünüyor.
Bir şey daha
Küçük bir paskalya yumurtası:
Test boyunca temel olarak bir dizüstü bilgisayarda kurulabilen ve çalıştırılabilen StableVicuna-13B de %48 puan aldı.
İnsanların, model boyutu ile yetenek arasındaki ilişki hakkında biraz düşünmesi gerekiyor.
Referans bağlantısı: [1] [2] [3] [4]