Penampilan model dunia LeCun! Meta mengejutkan rilis model "humanoid" pertama, yang melengkapi setengah gambar setelah memahami dunia, dan pembelajaran mandiri diharapkan oleh semua orang
**Pengantar:**Model dunia LeCun akhirnya hadir, bisa dikatakan seperti yang diharapkan semua orang. Sekarang model besar telah belajar memahami dunia dan alasan seperti manusia, bukankah AGI tidak jauh?
Sejak lama, AI ideal LeCun selalu menjadi AI yang mengarah ke level manusia, untuk itu ia mengusulkan konsep "model dunia".
Baru-baru ini, dalam pidato publiknya, LeCun sekali lagi mengkritik model besar GPT: model besar generasi autoregresif berdasarkan probabilitas sama sekali tidak dapat memecahkan masalah halusinasi. Bahkan secara langsung menegaskan bahwa model GPT tidak akan bertahan 5 tahun.
Hari ini, LeCun akhirnya selangkah lebih dekat dengan mimpinya!
Meta shock merilis model kecerdasan buatan "mirip manusia" I-JEPA, yang dapat menganalisis dan melengkapi gambar yang hilang dengan lebih akurat daripada model yang ada.
Alamat kertas:
Intinya: Ketika I-JEPA mengisi bagian yang hilang, itu menggunakan latar belakang pengetahuan tentang dunia! Alih-alih hanya melihat piksel terdekat seperti yang dilakukan model lain.
Sudah lebih dari setahun sejak konsep "model dunia" diusulkan, dan LeCun akan mewujudkan lautan bintangnya sendiri.
Saat ini, kode dan model pelatihan bersifat open-source. Makalah tersebut akan dipresentasikan pada CVPR 2023 minggu depan.
Model dunia LeCun ada di sini
Bahkan sistem AI tercanggih saat ini tidak mampu menembus beberapa batasan utama.
Untuk menembus lapisan belenggu ini, kepala ilmuwan AI Meta Yann LeCun mengusulkan arsitektur baru.
Visinya adalah menciptakan mesin yang dapat mempelajari model internal tentang cara kerja dunia, sehingga dapat belajar lebih cepat, merencanakan tugas yang rumit, dan merespons situasi baru dan asing kapan saja.
Model I-JEPA kerangka prediksi bersama gambar yang diluncurkan oleh Meta hari ini adalah model AI pertama dalam sejarah berdasarkan bagian penting dari visi model dunia LeCun.
I-JEPA belajar dengan membuat model internal dari dunia luar. Dalam proses menyelesaikan gambar, ini membandingkan representasi abstrak dari gambar, bukan membandingkan piksel itu sendiri.
I-JEPA telah menunjukkan kinerja yang kuat pada beberapa tugas visi komputer dan jauh lebih efisien secara komputasi daripada model CV lainnya yang banyak digunakan.
Evaluasi Linear ImageNet: Metode I-JEPA tidak menggunakan augmentasi data visual apa pun selama pra-pelatihan untuk mempelajari representasi gambar semantik, menggunakan perhitungan yang lebih sedikit daripada metode lainnya
Representasi yang dipelajari oleh I-JEPA dapat digunakan dalam banyak aplikasi yang berbeda tanpa penyesuaian ekstensif.
Misalnya, para peneliti menggunakan 16 GPU A100 dalam waktu 72 jam untuk melatih model Transformer visual dengan parameter 632M.
Pada tugas klasifikasi low-shot di ImageNet, ini mencapai state-of-the-art, hingga 12 contoh berlabel per kelas.
Metode lain biasanya membutuhkan 2 hingga 10 kali lebih banyak jam GPU dan memiliki tingkat kesalahan yang lebih tinggi saat dilatih dengan jumlah data yang sama.
Dapatkan akal sehat melalui pembelajaran mandiri
Secara umum, manusia dapat mempelajari banyak latar belakang pengetahuan tentang dunia hanya dengan observasi pasif.
Secara spekulatif, tampaknya informasi akal sehat semacam ini adalah kunci untuk mengaktifkan perilaku cerdas, seperti memperoleh sampel konsep, fondasi, dan rencana baru yang valid.
Model pembelajaran konsep seperti pembelajaran pembacaan linier
Pekerjaan Meta pada I-JEPA (dan lebih umum model JEPA Arsitektur Prediksi Penyematan Bersama) didasarkan pada fakta ini.
Apa yang telah dicoba oleh para peneliti adalah merancang algoritme pembelajaran yang menangkap pengetahuan latar belakang akal sehat tentang dunia dan kemudian menyandikannya menjadi representasi digital yang dapat diakses oleh algoritme.
Agar cukup efisien, sistem harus mempelajari representasi ini dengan cara yang diawasi sendiri—yaitu, langsung dari data yang tidak berlabel seperti gambar atau suara, bukan dari kumpulan data berlabel yang dirakit secara manual.
Pada tingkat yang lebih tinggi, JEPA bertujuan untuk memprediksi representasi dari bagian input berdasarkan representasi dari bagian lain dari input yang sama (gambar atau teks).
Karena tidak melibatkan penciutan beberapa tampilan/representasi gambar yang diperbesar menjadi satu titik, JEPA sangat menjanjikan untuk menghindari bias dan masalah yang muncul dalam metode yang digunakan secara luas (yaitu, pra-pelatihan berbasis invarian).
Pendekatan penyematan bersama menghindari keruntuhan representasi
Pada saat yang sama, dengan memprediksi representasi pada tingkat yang sangat abstrak, daripada memprediksi nilai piksel secara langsung, JEPA berjanji untuk dapat secara langsung mempelajari representasi yang berguna sambil menghindari keterbatasan metode generatif.Bersemangat untuk model bahasa besar.
Sebaliknya, model generatif umum belajar dengan menghilangkan atau mendistorsi bagian dari model masukan.
Misalnya, hapus sebagian foto, atau sembunyikan kata-kata tertentu dalam paragraf teks, lalu coba prediksi piksel atau kata yang rusak atau hilang.
Tetapi kelemahan signifikan dari pendekatan ini adalah bahwa meskipun dunia itu sendiri tidak dapat diprediksi, model tersebut mencoba untuk mengisi setiap bagian informasi yang hilang.
Akibatnya, pendekatan semacam itu dapat membuat kesalahan yang tidak akan pernah dilakukan manusia, karena mereka terlalu fokus pada detail yang tidak relevan alih-alih menangkap konsep tingkat tinggi yang dapat diprediksi.
Contoh yang terkenal adalah model generatif mengalami kesulitan menghasilkan tangan kanan.
Dalam arsitektur umum pembelajaran mandiri, sistem belajar menangkap hubungan antara input yang berbeda.
Tujuannya adalah menetapkan energi tinggi ke input yang tidak kompatibel dan energi rendah ke input yang kompatibel.
Arsitektur Umum untuk Pembelajaran yang Diawasi Sendiri
Perbedaan antara ketiga struktur ini adalah-
(a) Arsitektur penyematan bersama (invarian) belajar menghasilkan penyematan serupa untuk input yang kompatibel x, y dan penyematan berbeda untuk input yang tidak kompatibel.
(b) Arsitektur generatif belajar merekonstruksi sinyal y langsung dari sinyal x yang kompatibel, menggunakan jaringan dekoder yang dikondisikan pada variabel tambahan z (mungkin variabel laten) untuk memfasilitasi rekonstruksi.
(c) Arsitektur prediksi penyisipan bersama belajar memprediksi penyisipan sinyal y dari sinyal x yang kompatibel, menggunakan jaringan prediksi yang dikondisikan pada variabel tambahan z (mungkin variabel laten) untuk memfasilitasi prediksi.
arsitektur prediksi penyematan bersama
Prinsip di balik I-JEPA adalah memprediksi informasi yang hilang melalui representasi abstrak yang lebih mirip dengan pemahaman manusia.
Untuk memandu I-JEPA menghasilkan representasi semantik, salah satu desain intinya adalah strategi masking multi-blok.
Secara khusus, tim menunjukkan pentingnya memprediksi bongkahan besar yang berisi informasi semantik. Potongan-potongan ini memiliki ukuran yang cukup untuk mencakup fitur semantik yang penting.
Keuntungan dari strategi ini adalah mengurangi detail yang tidak perlu dan memberikan tingkat pemahaman semantik yang lebih tinggi.
Dengan berfokus pada bongkahan besar informasi semantik, model dapat menangkap konsep-konsep penting dalam gambar atau teks dengan lebih baik, yang mengarah ke kemampuan prediktif yang lebih kuat.
Arsitektur Prediksi Penyematan Bersama Berbasis Gambar (I-JEPA) menggunakan blok kontekstual tunggal untuk memprediksi representasi dari gambar yang sama
Diantaranya, pembuat enkode konteks adalah Transformer visual (ViT), yang hanya memproses tambalan konteks yang terlihat.
Prediktor adalah ViT sempit yang mengambil output dari encoder konteks dan memprediksi representasi blok target berdasarkan token posisi target.
Representasi target sesuai dengan keluaran encoder target, yang bobotnya diperbarui pada setiap iterasi dengan rata-rata pergerakan eksponensial dari bobot encoder konteks.
Dalam I-JEPA, prediktor dapat dilihat sebagai model dunia primitif (dan dibatasi) yang mampu mengeksploitasi informasi konteks yang diketahui untuk menyimpulkan konten dari wilayah yang tidak diketahui.
Kemampuan ini memungkinkan model untuk berpikir tentang gambar statis, membangun pemahaman tentang ketidakpastian spasial dalam gambar.
Berbeda dari metode yang hanya berfokus pada detail tingkat piksel, I-JEPA mampu memprediksi informasi semantik tingkat tinggi dari wilayah yang tidak terlihat, sehingga dapat menangkap konten semantik gambar dengan lebih baik.
Proses di mana seorang prediktor belajar memodelkan semantik dunia
Untuk setiap gambar, bagian di luar kotak biru dikodekan dan diberikan kepada prediktor sebagai konteks. Sebaliknya, prediktor menampilkan representasi yang mewakili apa yang diharapkan di dalam kotak biru.
Untuk memahami apa yang ditangkap model, tim melatih dekoder stokastik untuk memetakan representasi prediksi I-JEPA kembali ke ruang piksel, menunjukkan keluaran model saat membuat prediksi di dalam kotak biru.
Jelas, prediktor mampu mengidentifikasi informasi semantik yang harus diisi (atas kepala anjing, kaki burung, kaki serigala, sisi lain bangunan).
Diberikan gambar, sampel acak 4 patch target, sampel acak patch konteks skala rentang, dan hapus patch target yang tumpang tindih. Di bawah strategi ini, blok target relatif semantik, dan blok konteks memiliki sejumlah besar informasi, tetapi sangat jarang, sehingga efisiensi pemrosesannya tinggi
Singkatnya, I-JEPA dapat mempelajari representasi bagian objek tingkat tinggi tanpa membuang informasi lokasi lokalnya di dalam gambar.
Efisiensi lebih tinggi, performa lebih kuat
Pada pra pelatihan, perhitungan I-JEPA lebih efisien.
Pertama, tidak perlu menerapkan augmentasi data yang lebih intensif secara komputasi untuk menghasilkan banyak tampilan, sehingga tidak menimbulkan biaya tambahan.
Kedua, pembuat enkode target hanya perlu memproses satu tampilan gambar, dan pembuat enkode konteks hanya perlu memproses blok konteks.
Eksperimen menunjukkan bahwa I-JEPA dapat mempelajari representasi semantik yang kuat tanpa augmentasi tampilan buatan.
Selain itu, I-JEPA juga mengungguli metode rekonstruksi piksel dan rekonstruksi token dalam deteksi linier ImageNet-1K dan evaluasi semi-diawasi.
Performa Evaluasi Linear Tolok Ukur pada ImageNet-1k sebagai Fungsi Jam GPU Selama Prapelatihan
Pada tugas semantik, I-JEPA mengungguli metode pra-pelatihan sebelumnya yang mengandalkan data buatan untuk augmentasi.
Dibandingkan dengan metode ini, I-JEPA mencapai kinerja yang lebih baik pada tugas penglihatan tingkat rendah seperti penghitungan objek dan prediksi kedalaman.
Dengan menggunakan model bias induktif yang lebih sederhana dan lebih fleksibel, I-JEPA dapat digunakan pada berbagai tugas yang lebih luas.
Akurasi klasifikasi bidikan rendah: evaluasi semi-diawasi pada ImageNet-1k dengan 1% label (sekitar 12 gambar berlabel per kelas)
AI membawa kecerdasan manusia selangkah lebih maju
I-JEPA mendemonstrasikan potensi arsitektur untuk mempelajari representasi gambar siap pakai tanpa bantuan tambahan dari pengetahuan kerajinan tangan.
Memajukan JEPA untuk mempelajari model dunia yang lebih umum dari modalitas yang lebih kaya akan menjadi pekerjaan yang sangat bermanfaat.
Misalnya, dari konteks singkat, buat prediksi spasial dan temporal jarak jauh pada video dan kondisikan prediksi tersebut berdasarkan isyarat audio atau teks.
Visualisasi representasi prediktor I-JEPA: kolom pertama berisi gambar asli, kolom kedua berisi gambar konteks, dan kotak pembatas berwarna hijau berisi sampel dari model generatif yang didekodekan oleh output prediktor. Prediktor dengan tepat menangkap ketidakpastian posisi, menghasilkan bagian objek tingkat tinggi dengan pose yang benar, membuang detail tingkat rendah yang tepat dan informasi latar belakang
Tim mengatakan berharap untuk memperluas pendekatan JEPA ke domain lain, seperti data pasangan gambar-teks dan data video.
Di masa mendatang, model JEPA mungkin memiliki aplikasi menarik dalam tugas-tugas seperti pemahaman video. Dan itu akan menjadi langkah penting untuk menerapkan dan memperluas metode yang diawasi sendiri untuk mempelajari model dunia.
Model terlatih
### Pelatihan GPU Tunggal
Dalam satu pengaturan GPU, implementasi dimulai di main.py.
Misalnya, untuk menjalankan prapelatihan I-JEPA pada GPU 0, 1, dan 2 di mesin lokal Anda menggunakan konfigurasi configs/in1k_vith14_ep300.yaml, masukkan perintah berikut:
CATATAN: Konfigurasi ViT-H/14 harus dijalankan pada 16 kartu grafis A100 80G dengan ukuran batch efektif 2048 untuk mereproduksi hasilnya.
Pelatihan Beberapa GPU
Dalam penyiapan multi-GPU, implementasi dimulai di main_distributed.py, yang memungkinkan menentukan detail tentang pelatihan terdistribusi selain mem-parsing file konfigurasi.
Untuk pelatihan terdistribusi, diperlukan alat submitit open source yang populer, dengan contoh cluster SLURM.
Misalnya, untuk melakukan pra-pelatihan pada kartu grafis 16 A100 80G menggunakan konfigurasi eksperimen pra-pelatihan yang ditentukan di configs/in1k_vith14_ep300.yaml, masukkan perintah berikut:
Netizen mengungkapkan apresiasi mereka atas karya baru yang dipimpin oleh LeCun ini.
Karya yang benar-benar inovatif, terpesona. Penerus model autoregresif ada di sini!
Saya percaya bahwa arsitektur penyematan federasi adalah masa depan AI, bukan generatif. Tapi saya hanya ingin tahu, mengapa kita tidak melangkah lebih jauh ke dalam multimodalitas (seperti ImageBind, bukan hanya pasangan teks-gambar), dan mengganti pembuat enkode VIT dengan perceptron seperti pembuat enkode?
Pekerjaan yang sangat rapi. Dalam pemahaman saya ini mirip dengan autoencoder bertopeng, tetapi kehilangan fitur saat didefinisikan dalam ruang laten, bukan ruang input/piksel. Namun, jika saya ingin memahaminya secara detail, saya masih membutuhkan lebih banyak detail.
Otak saya hanya dapat memahami 10% dari kertas, tetapi jika I-JEPA benar-benar dapat membuat gambar target pada Gambar 3, itu akan luar biasa, dan yang terpenting: ini terkait dengan MMORPG yang dihasilkan AI!
Proyek ini akan menjadi open-source, dan netizen juga menyampaikan apresiasi atas kontribusi Meta pada komunitas open-source.
Referensi:
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Penampilan model dunia LeCun! Meta mengejutkan rilis model "humanoid" pertama, yang melengkapi setengah gambar setelah memahami dunia, dan pembelajaran mandiri diharapkan oleh semua orang
**Sumber:**Xinzhiyuan
**Pengantar:**Model dunia LeCun akhirnya hadir, bisa dikatakan seperti yang diharapkan semua orang. Sekarang model besar telah belajar memahami dunia dan alasan seperti manusia, bukankah AGI tidak jauh?
Sejak lama, AI ideal LeCun selalu menjadi AI yang mengarah ke level manusia, untuk itu ia mengusulkan konsep "model dunia".
Baru-baru ini, dalam pidato publiknya, LeCun sekali lagi mengkritik model besar GPT: model besar generasi autoregresif berdasarkan probabilitas sama sekali tidak dapat memecahkan masalah halusinasi. Bahkan secara langsung menegaskan bahwa model GPT tidak akan bertahan 5 tahun.
Meta shock merilis model kecerdasan buatan "mirip manusia" I-JEPA, yang dapat menganalisis dan melengkapi gambar yang hilang dengan lebih akurat daripada model yang ada.
Intinya: Ketika I-JEPA mengisi bagian yang hilang, itu menggunakan latar belakang pengetahuan tentang dunia! Alih-alih hanya melihat piksel terdekat seperti yang dilakukan model lain.
Sudah lebih dari setahun sejak konsep "model dunia" diusulkan, dan LeCun akan mewujudkan lautan bintangnya sendiri.
Saat ini, kode dan model pelatihan bersifat open-source. Makalah tersebut akan dipresentasikan pada CVPR 2023 minggu depan.
Model dunia LeCun ada di sini
Bahkan sistem AI tercanggih saat ini tidak mampu menembus beberapa batasan utama.
Untuk menembus lapisan belenggu ini, kepala ilmuwan AI Meta Yann LeCun mengusulkan arsitektur baru.
Model I-JEPA kerangka prediksi bersama gambar yang diluncurkan oleh Meta hari ini adalah model AI pertama dalam sejarah berdasarkan bagian penting dari visi model dunia LeCun.
I-JEPA belajar dengan membuat model internal dari dunia luar. Dalam proses menyelesaikan gambar, ini membandingkan representasi abstrak dari gambar, bukan membandingkan piksel itu sendiri.
I-JEPA telah menunjukkan kinerja yang kuat pada beberapa tugas visi komputer dan jauh lebih efisien secara komputasi daripada model CV lainnya yang banyak digunakan.
Representasi yang dipelajari oleh I-JEPA dapat digunakan dalam banyak aplikasi yang berbeda tanpa penyesuaian ekstensif.
Misalnya, para peneliti menggunakan 16 GPU A100 dalam waktu 72 jam untuk melatih model Transformer visual dengan parameter 632M.
Pada tugas klasifikasi low-shot di ImageNet, ini mencapai state-of-the-art, hingga 12 contoh berlabel per kelas.
Metode lain biasanya membutuhkan 2 hingga 10 kali lebih banyak jam GPU dan memiliki tingkat kesalahan yang lebih tinggi saat dilatih dengan jumlah data yang sama.
Dapatkan akal sehat melalui pembelajaran mandiri
Secara umum, manusia dapat mempelajari banyak latar belakang pengetahuan tentang dunia hanya dengan observasi pasif.
Secara spekulatif, tampaknya informasi akal sehat semacam ini adalah kunci untuk mengaktifkan perilaku cerdas, seperti memperoleh sampel konsep, fondasi, dan rencana baru yang valid.
Pekerjaan Meta pada I-JEPA (dan lebih umum model JEPA Arsitektur Prediksi Penyematan Bersama) didasarkan pada fakta ini.
Apa yang telah dicoba oleh para peneliti adalah merancang algoritme pembelajaran yang menangkap pengetahuan latar belakang akal sehat tentang dunia dan kemudian menyandikannya menjadi representasi digital yang dapat diakses oleh algoritme.
Agar cukup efisien, sistem harus mempelajari representasi ini dengan cara yang diawasi sendiri—yaitu, langsung dari data yang tidak berlabel seperti gambar atau suara, bukan dari kumpulan data berlabel yang dirakit secara manual.
Pada tingkat yang lebih tinggi, JEPA bertujuan untuk memprediksi representasi dari bagian input berdasarkan representasi dari bagian lain dari input yang sama (gambar atau teks).
Karena tidak melibatkan penciutan beberapa tampilan/representasi gambar yang diperbesar menjadi satu titik, JEPA sangat menjanjikan untuk menghindari bias dan masalah yang muncul dalam metode yang digunakan secara luas (yaitu, pra-pelatihan berbasis invarian).
Pada saat yang sama, dengan memprediksi representasi pada tingkat yang sangat abstrak, daripada memprediksi nilai piksel secara langsung, JEPA berjanji untuk dapat secara langsung mempelajari representasi yang berguna sambil menghindari keterbatasan metode generatif.Bersemangat untuk model bahasa besar.
Sebaliknya, model generatif umum belajar dengan menghilangkan atau mendistorsi bagian dari model masukan.
Misalnya, hapus sebagian foto, atau sembunyikan kata-kata tertentu dalam paragraf teks, lalu coba prediksi piksel atau kata yang rusak atau hilang.
Tetapi kelemahan signifikan dari pendekatan ini adalah bahwa meskipun dunia itu sendiri tidak dapat diprediksi, model tersebut mencoba untuk mengisi setiap bagian informasi yang hilang.
Contoh yang terkenal adalah model generatif mengalami kesulitan menghasilkan tangan kanan.
Dalam arsitektur umum pembelajaran mandiri, sistem belajar menangkap hubungan antara input yang berbeda.
Tujuannya adalah menetapkan energi tinggi ke input yang tidak kompatibel dan energi rendah ke input yang kompatibel.
Perbedaan antara ketiga struktur ini adalah-
(a) Arsitektur penyematan bersama (invarian) belajar menghasilkan penyematan serupa untuk input yang kompatibel x, y dan penyematan berbeda untuk input yang tidak kompatibel.
(b) Arsitektur generatif belajar merekonstruksi sinyal y langsung dari sinyal x yang kompatibel, menggunakan jaringan dekoder yang dikondisikan pada variabel tambahan z (mungkin variabel laten) untuk memfasilitasi rekonstruksi.
(c) Arsitektur prediksi penyisipan bersama belajar memprediksi penyisipan sinyal y dari sinyal x yang kompatibel, menggunakan jaringan prediksi yang dikondisikan pada variabel tambahan z (mungkin variabel laten) untuk memfasilitasi prediksi.
arsitektur prediksi penyematan bersama
Prinsip di balik I-JEPA adalah memprediksi informasi yang hilang melalui representasi abstrak yang lebih mirip dengan pemahaman manusia.
Untuk memandu I-JEPA menghasilkan representasi semantik, salah satu desain intinya adalah strategi masking multi-blok.
Secara khusus, tim menunjukkan pentingnya memprediksi bongkahan besar yang berisi informasi semantik. Potongan-potongan ini memiliki ukuran yang cukup untuk mencakup fitur semantik yang penting.
Dengan berfokus pada bongkahan besar informasi semantik, model dapat menangkap konsep-konsep penting dalam gambar atau teks dengan lebih baik, yang mengarah ke kemampuan prediktif yang lebih kuat.
Arsitektur Prediksi Penyematan Bersama Berbasis Gambar (I-JEPA) menggunakan blok kontekstual tunggal untuk memprediksi representasi dari gambar yang sama
Diantaranya, pembuat enkode konteks adalah Transformer visual (ViT), yang hanya memproses tambalan konteks yang terlihat.
Prediktor adalah ViT sempit yang mengambil output dari encoder konteks dan memprediksi representasi blok target berdasarkan token posisi target.
Dalam I-JEPA, prediktor dapat dilihat sebagai model dunia primitif (dan dibatasi) yang mampu mengeksploitasi informasi konteks yang diketahui untuk menyimpulkan konten dari wilayah yang tidak diketahui.
Kemampuan ini memungkinkan model untuk berpikir tentang gambar statis, membangun pemahaman tentang ketidakpastian spasial dalam gambar.
Berbeda dari metode yang hanya berfokus pada detail tingkat piksel, I-JEPA mampu memprediksi informasi semantik tingkat tinggi dari wilayah yang tidak terlihat, sehingga dapat menangkap konten semantik gambar dengan lebih baik.
Untuk setiap gambar, bagian di luar kotak biru dikodekan dan diberikan kepada prediktor sebagai konteks. Sebaliknya, prediktor menampilkan representasi yang mewakili apa yang diharapkan di dalam kotak biru.
Untuk memahami apa yang ditangkap model, tim melatih dekoder stokastik untuk memetakan representasi prediksi I-JEPA kembali ke ruang piksel, menunjukkan keluaran model saat membuat prediksi di dalam kotak biru.
Jelas, prediktor mampu mengidentifikasi informasi semantik yang harus diisi (atas kepala anjing, kaki burung, kaki serigala, sisi lain bangunan).
Singkatnya, I-JEPA dapat mempelajari representasi bagian objek tingkat tinggi tanpa membuang informasi lokasi lokalnya di dalam gambar.
Efisiensi lebih tinggi, performa lebih kuat
Pada pra pelatihan, perhitungan I-JEPA lebih efisien.
Pertama, tidak perlu menerapkan augmentasi data yang lebih intensif secara komputasi untuk menghasilkan banyak tampilan, sehingga tidak menimbulkan biaya tambahan.
Kedua, pembuat enkode target hanya perlu memproses satu tampilan gambar, dan pembuat enkode konteks hanya perlu memproses blok konteks.
Eksperimen menunjukkan bahwa I-JEPA dapat mempelajari representasi semantik yang kuat tanpa augmentasi tampilan buatan.
Selain itu, I-JEPA juga mengungguli metode rekonstruksi piksel dan rekonstruksi token dalam deteksi linier ImageNet-1K dan evaluasi semi-diawasi.
Pada tugas semantik, I-JEPA mengungguli metode pra-pelatihan sebelumnya yang mengandalkan data buatan untuk augmentasi.
Dibandingkan dengan metode ini, I-JEPA mencapai kinerja yang lebih baik pada tugas penglihatan tingkat rendah seperti penghitungan objek dan prediksi kedalaman.
Dengan menggunakan model bias induktif yang lebih sederhana dan lebih fleksibel, I-JEPA dapat digunakan pada berbagai tugas yang lebih luas.
AI membawa kecerdasan manusia selangkah lebih maju
I-JEPA mendemonstrasikan potensi arsitektur untuk mempelajari representasi gambar siap pakai tanpa bantuan tambahan dari pengetahuan kerajinan tangan.
Memajukan JEPA untuk mempelajari model dunia yang lebih umum dari modalitas yang lebih kaya akan menjadi pekerjaan yang sangat bermanfaat.
Misalnya, dari konteks singkat, buat prediksi spasial dan temporal jarak jauh pada video dan kondisikan prediksi tersebut berdasarkan isyarat audio atau teks.
Tim mengatakan berharap untuk memperluas pendekatan JEPA ke domain lain, seperti data pasangan gambar-teks dan data video.
Di masa mendatang, model JEPA mungkin memiliki aplikasi menarik dalam tugas-tugas seperti pemahaman video. Dan itu akan menjadi langkah penting untuk menerapkan dan memperluas metode yang diawasi sendiri untuk mempelajari model dunia.
Model terlatih
Dalam satu pengaturan GPU, implementasi dimulai di main.py.
Misalnya, untuk menjalankan prapelatihan I-JEPA pada GPU 0, 1, dan 2 di mesin lokal Anda menggunakan konfigurasi configs/in1k_vith14_ep300.yaml, masukkan perintah berikut:
python main.py \ --fname configs/in1k_vith14_ep300.yaml \ --devices cuda:0 cuda:1 cuda:2
CATATAN: Konfigurasi ViT-H/14 harus dijalankan pada 16 kartu grafis A100 80G dengan ukuran batch efektif 2048 untuk mereproduksi hasilnya.
Pelatihan Beberapa GPU
Dalam penyiapan multi-GPU, implementasi dimulai di main_distributed.py, yang memungkinkan menentukan detail tentang pelatihan terdistribusi selain mem-parsing file konfigurasi.
Untuk pelatihan terdistribusi, diperlukan alat submitit open source yang populer, dengan contoh cluster SLURM.
Misalnya, untuk melakukan pra-pelatihan pada kartu grafis 16 A100 80G menggunakan konfigurasi eksperimen pra-pelatihan yang ditentukan di configs/in1k_vith14_ep300.yaml, masukkan perintah berikut:
python main_distributed.py \ --fname configs/in1k_vith14_ep300.yaml \ --folder $path_to_save_submitit_logs \ --partition $slurm_partition \ --nodes 2 --tugas-per-node 8 \ --waktu 1000
Ulasan
Netizen mengungkapkan apresiasi mereka atas karya baru yang dipimpin oleh LeCun ini.
Karya yang benar-benar inovatif, terpesona. Penerus model autoregresif ada di sini!