Tanpa diduga, tes matematika MIT dipatahkan oleh GPT-4? !
Tiba-tiba seseorang membuat pengumuman profil tinggi di kertas kerja terbaru:
GPT-4 Pada ujian gelar sarjana Matematika dan EECS (Departemen Teknik Elektro dan Ilmu Komputer) MIT, mendemonstrasikan kemampuan untuk sepenuhnya memenuhi persyaratan kelulusan.
Dan dengan benar dapatkan nilai penuh!
Tahukah Anda, tak lain tim peneliti dari MIT, Boston University, dan Cornell University yang mengukur hasil ini.
Dan itu lebih kuat dari raja generasi sebelumnya GPT-3.5.Dalam pengujian yang sama, hanya berhasil sepertiga.
△Skor ujian GPT-3.5
Begitu kertas itu keluar, mata yang tak terhitung jumlahnya dengan cepat tertarik.
Perilaku peretasan GPT-4 yang tampaknya secara alami membangkitkan emosi banyak netizen.
Jauh lebih baik dari GPT-3.5, ya!
Anggap saja, apakah mungkin memecahkan masalah akademik tanpa model yang lebih kuat dari GPT-4 di masa mendatang?
Beberapa netizen menunjukkan "canggih" mereka berselancar di Internet, memainkan tangkai yang dikeluhkan Yann LeCun tentang "GPT-4 IQ tidak sebagus anjing" dalam dua hari terakhir:
Ujian MIT terbuka GPT-4
Secara khusus, GPT-4 berpartisipasi dalam tes seperti ini kali ini:
Tim peneliti mengumpulkan dataset yang berisi 4.550 masalah dan solusi.
4.550 soal dan solusi ini berasal dari rangkaian soal kursus, ujian tengah semester, dan ujian akhir yang perlu dipelajari oleh mahasiswa** dari Departemen Matematika MIT dan EECS untuk mendapatkan gelar sarjana. **
termasuk:
6-1: Ilmu dan Teknik Listrik;
6-2: Teknik Elektro dan Ilmu Komputer;
6-3: Ilmu dan Teknik Komputer;
6-4: Kecerdasan buatan dan pengambilan keputusan;
18-1: Matematika Umum;
18-2: Matematika Terapan;
18-3: Matematika Murni;
18-C: Matematika dan Ilmu Komputer.
Ringkasan klasifikasi terperinci dari setiap jurusan
Semua pertanyaan berasal dari kumpulan data MIT, dari mana 228 pertanyaan dihasilkan secara acak, masalah yang tidak melibatkan gambar dan solusi yang ada.
Tingkat kesulitan topik diurutkan dari mudah ke sulit adalah: latihan, latihan, ujian tengah semester, ujian akhir, percobaan dan proyek khusus.
Diurutkan berdasarkan jenis jawaban, tingkat kesulitan soal dari mudah ke sulit adalah: pemrograman, terbuka, pilihan ganda, numerik, ekspresi, dan gambar.
Kali ini, tidak hanya GPT-4 dan GPT-3.5, tetapi juga StableVicuna-13B, LLaMA-30B dan LLaMA-60B** yang berpartisipasi dalam pengujian.
Keempat model besar ini dipilih sebagai kontestan uji karena mereka adalah "model bahasa besar yang canggih".
Nilai Ujian Akhir
Seperti dapat dilihat dari data dalam tabel, GPT-4 yang disetel memiliki skor tertinggi, dengan tingkat skor 100%; performa paling umum adalah LLaMA-30B, yang hanya mencetak skor 30%.
Perlu dicatat bahwa versi asli GPT-4 digunakan di luar kotak tanpa penyetelan sama sekali, dan juga mendapat skor 90% dalam ujian MIT ini.
Proses penyetelan, termasuk Few-Shot+CoT+Self-critique+Experts.
Dari data tabular hasil tes akhir, kita dapat melihat bahwa setiap kali tautan ditambahkan dari kiri ke kanan, skor GPT-4 yang disetel akan ditingkatkan ke level yang lebih tinggi.
Selain itu, tim peneliti juga melakukan optimalisasi teknik di kotak petunjuk, "mantra" khusus adalah sebagai berikut:
Tunggu, penilainya adalah GPT-4 sendiri?
Melihat hasil tersebut, banyak netizen yang merasa progres LLM di soal matematika agak cepat.
2 tahun yang lalu, AI berkutat dengan soal matematika sekolah dasar.
Mirip dengan "Xiao Ming menanam 5 pohon lemon, dan mendapat 6 lemon dari setiap pohon setiap tahun, berapa total lemon yang dia dapatkan dalam 10 tahun" jenis ini.
Pada awal tahun lalu, penelitian bersama oleh MIT+Harvard+Columbia University+Waterloo University menyatakan bahwa dengan mengubah masalah matematika menjadi masalah pemrograman yang setara, saudara GPT-3, Codex OpenAI, dapat menguasai angka tinggi dan mencapai tingkat **S1 MIT **.
Saya belajar 6 pertanyaan sampel yang dipilih secara acak dari kursus matematika dasar sarjana MIT. 25 pertanyaan dipilih secara acak untuk masing-masing dari 6 kursus, ditambah 60 pertanyaan dari kumpulan data tingkat ACT (ujian masuk perguruan tinggi Amerika).
**Sebanyak 210 soal, AI menjawab semuanya dengan benar. **
Namun, beberapa orang berpendapat bahwa "tingkat sarjana MIT" yang dicapai oleh AI sebenarnya adalah Codex yang mengerjakan soal bahasa daripada soal matematika——
Karena dalam penilaian saat itu, Codex bertanggung jawab untuk membaca dan menulis, dan tidak termasuk penyelesaian.
Jadi, kali ini GPT-4 bekerja dengan sangat baik, kata yang luar biasa~
Yah, saya tahu Anda sangat ingin memujinya, tapi jangan terburu-buru memujinya, karena seseorang segera menemukan sesuatu yang "aneh".
Terutama ada 2 slot utama.
Hal pertama yang perlu dipertanyakan adalah kumpulan data pelatihan OpenAI belum sepenuhnya dirilis.
Ini juga berarti bahwa tidak dapat membuktikan bahwa 4550 masalah dan solusi dalam kumpulan data tidak ada dalam kumpulan pelatihan GPT-4.
Dengan kata lain, jika GPT-4 sudah dipaparkan soal-soal tes pada tahap pra-pelatihan, maka akhirnya akan mendapatkan skor sempurna, dan tidak akan ada kejutan.
Tidak heran jika beberapa netizen yygq begitu saja, dan percaya bahwa GPT-4 mendapatkan hasil seperti itu, pastilah kumpulan data tersebut telah dimasukkan ke dalam data pelatihan.
Slot kedua adalah tingkat penilaian 100% akhir dari GPT-4. Apa yang salah? ? ?
Perhatikan lebih dekat, ada poin kunci di Bagian 2.6 makalah ini:
Tim menyempurnakan model besar sumber terbuka pada kumpulan data, "Mengingat pertanyaan Q, solusi kebenaran dasar S, dan jawaban LLM A, kami menggunakan GPT-4 untuk menilai respons model secara otomatis."
Dalam praktiknya, setiap model besar menghasilkan jawaban untuk tes ini, lalu mengirimkan GPT-4 ke skor, dengan skor antara 0-5.
**Jadi yang memberi nilai penuh GPT-4 sebenarnya adalah GPT-4 itu sendiri. **
Ah, ini... Sulit untuk mengatakan bahwa tidak ada kecurigaan bahwa Wang Po menjual melon dan menyombongkan diri.
Selain itu, banyak orang mengeluh tentang perlunya memberikan "petunjuk yang baik" kepada GPT-4 agar dapat mencapai nilai penuh.
Apa sebenarnya "tip bagus" itu? Tampaknya tidak mungkin untuk didefinisikan.
Beberapa orang bahkan meneriakkan bahwa pertanyaan-pertanyaan ini harus dilemparkan ke siswa matematika MIT dan EECS untuk dikerjakan, dan terus memberi mereka "petunjuk yang baik", sehingga siswa manusia juga dapat memperoleh skor 100%...
Satu hal lagi
Sedikit telur paskah:
Sepanjang pengujian, StableVicuna-13B, yang pada dasarnya dapat diterapkan dan dijalankan di laptop, juga memiliki skor 48%.
Skor ini tidak hanya hampir 10 poin persentase lebih tinggi dari LLaMA-65B dengan model yang lebih besar, tetapi bahkan LLaMA-30B setelah penyempurnaan MIT bahkan lebih tinggi.
Orang-orang harus berpikir tentang korelasi antara ukuran model dan kemampuan.
Tautan referensi:
[1]
[2]
[3]
[4]
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Lulus ujian matematika sarjana MIT dengan skor penuh GPT-4! Serangkaian petunjuk ini menyala
Sumber: Qubit
Tanpa diduga, tes matematika MIT dipatahkan oleh GPT-4? !
Tiba-tiba seseorang membuat pengumuman profil tinggi di kertas kerja terbaru:
GPT-4 Pada ujian gelar sarjana Matematika dan EECS (Departemen Teknik Elektro dan Ilmu Komputer) MIT, mendemonstrasikan kemampuan untuk sepenuhnya memenuhi persyaratan kelulusan.
Dan dengan benar dapatkan nilai penuh!
Tahukah Anda, tak lain tim peneliti dari MIT, Boston University, dan Cornell University yang mengukur hasil ini.
Dan itu lebih kuat dari raja generasi sebelumnya GPT-3.5.Dalam pengujian yang sama, hanya berhasil sepertiga.
Begitu kertas itu keluar, mata yang tak terhitung jumlahnya dengan cepat tertarik.
Ujian MIT terbuka GPT-4
Secara khusus, GPT-4 berpartisipasi dalam tes seperti ini kali ini:
Tim peneliti mengumpulkan dataset yang berisi 4.550 masalah dan solusi.
4.550 soal dan solusi ini berasal dari rangkaian soal kursus, ujian tengah semester, dan ujian akhir yang perlu dipelajari oleh mahasiswa** dari Departemen Matematika MIT dan EECS untuk mendapatkan gelar sarjana. **
termasuk:
6-1: Ilmu dan Teknik Listrik; 6-2: Teknik Elektro dan Ilmu Komputer; 6-3: Ilmu dan Teknik Komputer; 6-4: Kecerdasan buatan dan pengambilan keputusan; 18-1: Matematika Umum; 18-2: Matematika Terapan; 18-3: Matematika Murni; 18-C: Matematika dan Ilmu Komputer.
Ringkasan klasifikasi terperinci dari setiap jurusan
Semua pertanyaan berasal dari kumpulan data MIT, dari mana 228 pertanyaan dihasilkan secara acak, masalah yang tidak melibatkan gambar dan solusi yang ada.
Tingkat kesulitan topik diurutkan dari mudah ke sulit adalah: latihan, latihan, ujian tengah semester, ujian akhir, percobaan dan proyek khusus.
Diurutkan berdasarkan jenis jawaban, tingkat kesulitan soal dari mudah ke sulit adalah: pemrograman, terbuka, pilihan ganda, numerik, ekspresi, dan gambar.
Kali ini, tidak hanya GPT-4 dan GPT-3.5, tetapi juga StableVicuna-13B, LLaMA-30B dan LLaMA-60B** yang berpartisipasi dalam pengujian.
Keempat model besar ini dipilih sebagai kontestan uji karena mereka adalah "model bahasa besar yang canggih".
Nilai Ujian Akhir
Seperti dapat dilihat dari data dalam tabel, GPT-4 yang disetel memiliki skor tertinggi, dengan tingkat skor 100%; performa paling umum adalah LLaMA-30B, yang hanya mencetak skor 30%.
Perlu dicatat bahwa versi asli GPT-4 digunakan di luar kotak tanpa penyetelan sama sekali, dan juga mendapat skor 90% dalam ujian MIT ini.
Proses penyetelan, termasuk Few-Shot+CoT+Self-critique+Experts.
Selain itu, tim peneliti juga melakukan optimalisasi teknik di kotak petunjuk, "mantra" khusus adalah sebagai berikut:
Tunggu, penilainya adalah GPT-4 sendiri?
Melihat hasil tersebut, banyak netizen yang merasa progres LLM di soal matematika agak cepat.
Mirip dengan "Xiao Ming menanam 5 pohon lemon, dan mendapat 6 lemon dari setiap pohon setiap tahun, berapa total lemon yang dia dapatkan dalam 10 tahun" jenis ini.
Saya belajar 6 pertanyaan sampel yang dipilih secara acak dari kursus matematika dasar sarjana MIT. 25 pertanyaan dipilih secara acak untuk masing-masing dari 6 kursus, ditambah 60 pertanyaan dari kumpulan data tingkat ACT (ujian masuk perguruan tinggi Amerika).
**Sebanyak 210 soal, AI menjawab semuanya dengan benar. **
Karena dalam penilaian saat itu, Codex bertanggung jawab untuk membaca dan menulis, dan tidak termasuk penyelesaian.
Jadi, kali ini GPT-4 bekerja dengan sangat baik, kata yang luar biasa~
Terutama ada 2 slot utama.
Hal pertama yang perlu dipertanyakan adalah kumpulan data pelatihan OpenAI belum sepenuhnya dirilis.
Ini juga berarti bahwa tidak dapat membuktikan bahwa 4550 masalah dan solusi dalam kumpulan data tidak ada dalam kumpulan pelatihan GPT-4.
Dengan kata lain, jika GPT-4 sudah dipaparkan soal-soal tes pada tahap pra-pelatihan, maka akhirnya akan mendapatkan skor sempurna, dan tidak akan ada kejutan.
Tidak heran jika beberapa netizen yygq begitu saja, dan percaya bahwa GPT-4 mendapatkan hasil seperti itu, pastilah kumpulan data tersebut telah dimasukkan ke dalam data pelatihan.
Perhatikan lebih dekat, ada poin kunci di Bagian 2.6 makalah ini:
Tim menyempurnakan model besar sumber terbuka pada kumpulan data, "Mengingat pertanyaan Q, solusi kebenaran dasar S, dan jawaban LLM A, kami menggunakan GPT-4 untuk menilai respons model secara otomatis."
Dalam praktiknya, setiap model besar menghasilkan jawaban untuk tes ini, lalu mengirimkan GPT-4 ke skor, dengan skor antara 0-5.
**Jadi yang memberi nilai penuh GPT-4 sebenarnya adalah GPT-4 itu sendiri. **
Ah, ini... Sulit untuk mengatakan bahwa tidak ada kecurigaan bahwa Wang Po menjual melon dan menyombongkan diri.
Apa sebenarnya "tip bagus" itu? Tampaknya tidak mungkin untuk didefinisikan.
Satu hal lagi
Sedikit telur paskah:
Sepanjang pengujian, StableVicuna-13B, yang pada dasarnya dapat diterapkan dan dijalankan di laptop, juga memiliki skor 48%.
Orang-orang harus berpikir tentang korelasi antara ukuran model dan kemampuan.
Tautan referensi: [1] [2] [3] [4]