Một mô hình thế giới xuất hiện của LeCun! Meta đã gây sốc khi phát hành mô hình "hình người" đầu tiên, hoàn thành một nửa bức tranh sau khi hiểu thế giới và việc học tự giám sát được mọi người mong đợi

**Nguồn:**Xinzhiyuan

Giới thiệu: Mô hình thế giới của LeCun cuối cùng cũng xuất hiện, có thể nói là điều mà mọi người mong đợi. Giờ đây, mô hình lớn đã học cách hiểu thế giới và suy luận như con người, AGI không còn xa nữa phải không?

Trong một thời gian dài, AI lý tưởng của LeCun luôn là AI dẫn đến cấp độ con người, vì lý do này, ông đã đề xuất khái niệm "mô hình thế giới".

Gần đây, trong một bài phát biểu trước công chúng, LeCun một lần nữa chỉ trích mô hình lớn GPT: mô hình lớn tạo ra sự tự hồi quy dựa trên xác suất hoàn toàn không thể phá vỡ vấn đề ảo giác. Nó thậm chí còn trực tiếp khẳng định rằng mô hình GPT sẽ không tồn tại được 5 năm.

Hôm nay, LeCun cuối cùng đã tiến một bước gần hơn đến ước mơ của mình!

Meta Shock đã phát hành mô hình trí tuệ nhân tạo "giống con người" I-JEPA, có thể phân tích và hoàn thành các hình ảnh bị thiếu chính xác hơn các mô hình hiện có.

Địa chỉ giấy tờ:

Điểm mấu chốt: Khi I-JEPA điền vào những phần còn thiếu, nó sử dụng kiến thức cơ bản về thế giới! Thay vì chỉ nhìn vào các pixel lân cận như các mô hình khác.

Đã hơn một năm kể từ khi khái niệm "mô hình thế giới" được đề xuất và LeCun sắp nhận ra biển sao của riêng mình.

Ngày nay, mã đào tạo và các mô hình đều có mã nguồn mở. Bài báo sẽ được trình bày tại CVPR 2023 vào tuần tới.

Mô hình thế giới của LeCun ở đây

Ngay cả những hệ thống AI tiên tiến nhất hiện nay cũng không thể vượt qua một số giới hạn chính.

Để vượt qua lớp xiềng xích này, nhà khoa học AI trưởng của Meta, Yann LeCun, đã đề xuất một kiến trúc mới.

Tầm nhìn của anh ấy là tạo ra một cỗ máy có thể học một mô hình bên trong về cách thế giới hoạt động, để nó có thể học nhanh hơn, lập kế hoạch cho các nhiệm vụ phức tạp và phản ứng với các tình huống mới và lạ bất cứ lúc nào.

Mô hình khung dự đoán nhúng chung hình ảnh I-JEPA do Meta ra mắt hôm nay là mô hình AI đầu tiên trong lịch sử dựa trên một phần quan trọng trong tầm nhìn mô hình thế giới của LeCun.

I-JEPA học bằng cách tạo ra một mô hình bên trong của thế giới bên ngoài. Trong quá trình hoàn thành hình ảnh, nó so sánh các biểu diễn trừu tượng của hình ảnh, thay vì so sánh chính các pixel.

I-JEPA đã thể hiện hiệu suất mạnh mẽ trên nhiều tác vụ thị giác máy tính và hiệu quả hơn nhiều về mặt tính toán so với các mẫu CV được sử dụng rộng rãi khác.

Đánh giá tuyến tính ImageNet: Phương pháp I-JEPA không sử dụng bất kỳ dữ liệu trực quan nào trong quá trình đào tạo trước để tìm hiểu các biểu diễn hình ảnh ngữ nghĩa, sử dụng ít tính toán hơn các phương pháp khác

Các biểu diễn được học bởi I-JEPA có thể được sử dụng trong nhiều ứng dụng khác nhau mà không cần tinh chỉnh nhiều.

Chẳng hạn, các nhà nghiên cứu đã sử dụng 16 GPU A100 trong vòng 72 giờ để huấn luyện một mô hình Transformer trực quan với thông số 632M.

Trong nhiệm vụ phân loại low-shot trên ImageNet, nó đạt được trình độ tiên tiến nhất, xuống còn 12 ví dụ được gắn nhãn cho mỗi lớp.

Các phương pháp khác thường yêu cầu số giờ GPU gấp 2 đến 10 lần và có tỷ lệ lỗi cao hơn khi được đào tạo với cùng một lượng dữ liệu.

Có được kiến thức chung thông qua học tập tự giám sát

Nói chung, con người có thể học được rất nhiều kiến thức cơ bản về thế giới chỉ bằng cách quan sát thụ động.

Theo suy đoán, có vẻ như loại thông tin hợp lý này là chìa khóa để kích hoạt hành vi thông minh, chẳng hạn như thu thập các mẫu hợp lệ của các khái niệm, nền tảng và kế hoạch mới.

Học khái niệm mô hình như học một bài đọc tuyến tính

Công việc của Meta trên I-JEPA (và nói chung là mô hình JEPA của Kiến trúc dự đoán nhúng chung) dựa trên thực tế này.

Những gì các nhà nghiên cứu đã cố gắng là tạo ra một thuật toán học tập nắm bắt kiến thức cơ bản thông thường về thế giới và sau đó mã hóa nó thành một biểu diễn kỹ thuật số mà thuật toán có thể truy cập.

Để đủ hiệu quả, các hệ thống phải học các biểu diễn này theo kiểu tự giám sát—nghĩa là, trực tiếp từ dữ liệu chưa được gắn nhãn như hình ảnh hoặc âm thanh, thay vì từ bộ dữ liệu được gắn nhãn được lắp ráp thủ công.

Ở cấp độ cao hơn, JEPA nhằm mục đích dự đoán các biểu diễn của các phần của đầu vào dựa trên các biểu diễn của các phần khác của cùng một đầu vào (hình ảnh hoặc văn bản).

Bởi vì nó không liên quan đến việc thu gọn nhiều chế độ xem/biểu diễn tăng cường của hình ảnh thành một điểm duy nhất, JEPA hứa hẹn sẽ tránh được những sai lệch và vấn đề phát sinh trong các phương pháp được sử dụng rộng rãi (nghĩa là đào tạo trước dựa trên bất biến).

Phương pháp nhúng chung tránh sụp đổ đại diện

Đồng thời, bằng cách dự đoán các biểu diễn ở mức độ trừu tượng cao, thay vì dự đoán trực tiếp các giá trị pixel, JEPA hứa hẹn có thể học trực tiếp các biểu diễn hữu ích đồng thời tránh được những hạn chế của các phương pháp tạo hứng thú cho các mô hình ngôn ngữ lớn.

Ngược lại, các mô hình tổng quát chung học bằng cách loại bỏ hoặc bóp méo các phần của mô hình đầu vào.

Ví dụ: xóa một phần của ảnh hoặc ẩn một số từ nhất định trong đoạn văn bản, sau đó cố gắng dự đoán các pixel hoặc từ bị hỏng hoặc bị thiếu.

Nhưng một thiếu sót đáng kể của phương pháp này là trong khi bản thân thế giới là không thể đoán trước, mô hình cố gắng điền vào mọi thông tin còn thiếu.

Kết quả là, những cách tiếp cận như vậy có thể mắc phải những sai lầm mà con người sẽ không bao giờ mắc phải, bởi vì họ tập trung quá nhiều vào những chi tiết không liên quan thay vì nắm bắt những khái niệm cấp cao hơn, có thể dự đoán được.

Một ví dụ nổi tiếng là các mô hình thế hệ gặp khó khăn trong việc tạo ra các bàn tay phải.

Trong kiến trúc chung của học tự giám sát, hệ thống học cách nắm bắt mối quan hệ giữa các đầu vào khác nhau.

Mục tiêu của nó là gán năng lượng cao cho các đầu vào không tương thích và năng lượng thấp cho các đầu vào tương thích.

Kiến trúc phổ biến cho việc học tự giám sát

Sự khác biệt giữa ba cấu trúc này là-

(a) Kiến trúc nhúng chung (bất biến) học cách tạo ra các nhúng tương tự cho các đầu vào tương thích x, y và các nhúng khác nhau cho các đầu vào không tương thích.

(b) Kiến trúc tổng quát học cách tái tạo lại tín hiệu y trực tiếp từ tín hiệu tương thích x, sử dụng mạng bộ giải mã dựa trên một biến bổ sung z (có thể là biến tiềm ẩn) để tạo điều kiện tái tạo.

(c) Kiến trúc dự đoán nhúng chung học cách dự đoán việc nhúng tín hiệu y từ tín hiệu tương thích x, sử dụng mạng dự đoán dựa trên một biến bổ sung z (có thể là biến tiềm ẩn) để hỗ trợ dự đoán.

kiến trúc dự đoán nhúng chung

Nguyên tắc đằng sau I-JEPA là dự đoán thông tin còn thiếu thông qua một biểu diễn trừu tượng gần giống với sự hiểu biết của con người hơn.

Để hướng dẫn I-JEPA tạo ra các biểu diễn ngữ nghĩa, một trong những thiết kế cốt lõi là chiến lược tạo mặt nạ đa khối.

Cụ thể, nhóm đã chứng minh tầm quan trọng của việc dự đoán các khối lớn chứa thông tin ngữ nghĩa. Các khối này có kích thước đủ để bao hàm các đặc điểm ngữ nghĩa quan trọng.

Ưu điểm của chiến lược này là nó làm giảm các chi tiết không cần thiết và cung cấp mức độ hiểu ngữ nghĩa cao hơn.

Bằng cách tập trung vào các khối thông tin ngữ nghĩa lớn, mô hình có thể nắm bắt tốt hơn các khái niệm quan trọng trong hình ảnh hoặc văn bản, dẫn đến khả năng dự đoán mạnh mẽ hơn.

Kiến trúc dự đoán nhúng chung dựa trên hình ảnh (I-JEPA) sử dụng một khối ngữ cảnh duy nhất để dự đoán các biểu diễn từ cùng một hình ảnh

Trong số đó, bộ mã hóa ngữ cảnh là Visual Transformer (ViT), chỉ xử lý các bản vá ngữ cảnh có thể nhìn thấy.

Bộ dự đoán là một ViT hẹp lấy đầu ra của bộ mã hóa ngữ cảnh và dự đoán biểu diễn của khối mục tiêu dựa trên mã thông báo vị trí của mục tiêu.

Biểu diễn đích tương ứng với đầu ra của bộ mã hóa đích, có trọng số được cập nhật ở mỗi lần lặp theo trung bình động hàm mũ của trọng số bộ mã hóa ngữ cảnh.

Trong I-JEPA, bộ dự đoán có thể được xem như một mô hình thế giới nguyên thủy (và bị hạn chế) có khả năng khai thác thông tin ngữ cảnh đã biết để suy ra nội dung của các vùng chưa biết.

Khả năng này cho phép mô hình suy luận về hình ảnh tĩnh, xây dựng sự hiểu biết về độ không đảm bảo không gian trong hình ảnh.

Khác với các phương pháp chỉ tập trung vào chi tiết ở cấp độ pixel, I-JEPA có thể dự đoán thông tin ngữ nghĩa cấp cao của các vùng không nhìn thấy, để nắm bắt tốt hơn nội dung ngữ nghĩa của hình ảnh.

Quá trình mà một người dự đoán học cách lập mô hình ngữ nghĩa của thế giới

Đối với mỗi hình ảnh, các phần bên ngoài hộp màu xanh được mã hóa và cung cấp cho bộ dự đoán dưới dạng ngữ cảnh. Mặt khác, bộ dự đoán đưa ra một biểu diễn đại diện cho những gì được mong đợi bên trong hộp màu xanh lam.

Để hiểu những gì mô hình nắm bắt, nhóm đã đào tạo một bộ giải mã ngẫu nhiên để ánh xạ các biểu diễn dự đoán I-JEPA trở lại không gian pixel, hiển thị đầu ra của mô hình khi đưa ra dự đoán trong hộp màu xanh lam.

Rõ ràng, bộ dự đoán có thể xác định thông tin ngữ nghĩa cần điền (đỉnh đầu chó, chân chim, chân chó sói, mặt bên kia của tòa nhà).

Đưa ra một hình ảnh, lấy mẫu ngẫu nhiên 4 bản vá mục tiêu, lấy mẫu ngẫu nhiên một bản vá bối cảnh theo tỷ lệ phạm vi và loại bỏ mọi bản vá mục tiêu chồng chéo. Theo chiến lược này, khối mục tiêu tương đối ngữ nghĩa và khối ngữ cảnh có lượng thông tin lớn nhưng rất thưa thớt nên hiệu quả xử lý cao

Tóm lại, I-JEPA có thể học các biểu diễn cấp cao của các bộ phận đối tượng mà không loại bỏ thông tin vị trí cục bộ của chúng trong ảnh.

Hiệu quả cao hơn, hiệu suất mạnh mẽ hơn

Trong đào tạo trước, việc tính toán I-JEPA hiệu quả hơn.

Đầu tiên, nó không cần phải áp dụng tính toán tăng cường dữ liệu chuyên sâu hơn để tạo nhiều chế độ xem, do đó không phát sinh thêm chi phí.

Thứ hai, bộ mã hóa đích chỉ cần xử lý một chế độ xem hình ảnh và bộ mã hóa ngữ cảnh chỉ cần xử lý khối ngữ cảnh.

Các thử nghiệm chứng minh rằng I-JEPA có thể học các biểu diễn ngữ nghĩa có sẵn mạnh mẽ mà không cần tăng cường chế độ xem nhân tạo.

Ngoài ra, I-JEPA cũng vượt trội so với các phương pháp tái tạo pixel và tái tạo mã thông báo trong phát hiện tuyến tính ImageNet-1K và đánh giá bán giám sát.

Hiệu suất đánh giá tuyến tính điểm chuẩn trên ImageNet-1k dưới dạng chức năng của số giờ GPU trong quá trình đào tạo trước

Về các nhiệm vụ ngữ nghĩa, I-JEPA vượt trội so với các phương pháp đào tạo trước dựa trên dữ liệu nhân tạo để tăng cường.

So với các phương pháp này, I-JEPA đạt được hiệu suất tốt hơn đối với các tác vụ tầm nhìn ở mức độ thấp như đếm đối tượng và dự đoán độ sâu.

Bằng cách sử dụng một mô hình sai lệch quy nạp đơn giản và linh hoạt hơn, I-JEPA có thể được sử dụng cho nhiều nhiệm vụ hơn.

Độ chính xác phân loại ảnh chụp thấp: đánh giá bán giám sát trên ImageNet-1k với nhãn 1% (khoảng 12 hình ảnh được dán nhãn cho mỗi lớp)

AI đưa trí thông minh của con người tiến thêm một bước

I-JEPA thể hiện tiềm năng của kiến trúc để học các biểu diễn hình ảnh có sẵn mà không cần hỗ trợ thêm từ kiến thức thủ công.

Thúc đẩy JEPA để tìm hiểu các mô hình thế giới tổng quát hơn từ các phương thức phong phú hơn sẽ là một công việc đặc biệt bổ ích.

Ví dụ: từ một ngữ cảnh ngắn, hãy đưa ra các dự đoán về không gian và thời gian trong phạm vi dài trên video và xác định các dự đoán này dựa trên tín hiệu âm thanh hoặc văn bản.

Trực quan hóa biểu diễn bộ dự đoán I-JEPA: cột đầu tiên chứa hình ảnh gốc, cột thứ hai chứa hình ảnh ngữ cảnh và các hộp giới hạn màu lục chứa các mẫu từ mô hình tổng quát được giải mã bởi đầu ra bộ dự đoán. Bộ dự đoán nắm bắt chính xác độ không đảm bảo của vị trí, tạo ra các bộ phận đối tượng cấp cao với tư thế chính xác, loại bỏ các chi tiết chính xác ở cấp độ thấp và thông tin cơ bản

Nhóm cho biết họ mong muốn mở rộng phương pháp JEPA sang các miền khác, chẳng hạn như dữ liệu hình ảnh-văn bản được ghép nối và dữ liệu video.

Trong tương lai, các mô hình JEPA có thể có các ứng dụng thú vị trong các nhiệm vụ như hiểu video. Và nó sẽ là một bước quan trọng hướng tới việc áp dụng và mở rộng các phương pháp tự giám sát để tìm hiểu các mô hình thế giới.

Người mẫu được đào tạo trước

### Đào tạo GPU đơn

Trong một thiết lập GPU duy nhất, quá trình triển khai bắt đầu trong main.py.

Ví dụ: để chạy đào tạo trước I-JEPA trên GPU 0, 1 và 2 trên máy cục bộ của bạn bằng cách sử dụng cấu hình configs/in1k_vith14_ep300.yaml, hãy nhập lệnh sau:

python main.py \ --fname configs/in1k_vith14_ep300.yaml \ --devices cuda:0 cuda:1 cuda:2

LƯU Ý: Cấu hình ViT-H/14 phải chạy trên 16 cạc đồ họa A100 80G với kích thước lô hiệu quả là 2048 để tái tạo kết quả.

Đào tạo nhiều GPU

Trong thiết lập nhiều GPU, quá trình triển khai bắt đầu trong main_distributed.py, cho phép chỉ định chi tiết về đào tạo phân tán ngoài việc phân tích tệp cấu hình.

Đối với đào tạo phân tán, công cụ đệ trình nguồn mở phổ biến là bắt buộc, với ví dụ về cụm SLURM.

Ví dụ: để đào tạo trước trên 16 cạc đồ họa A100 80G bằng cách sử dụng cấu hình thử nghiệm đào tạo trước được chỉ định trong configs/in1k_vith14_ep300.yaml, hãy nhập lệnh sau:

python main_distributed.py \ --fname configs/in1k_vith14_ep300.yaml \ --folder $path_to_save_submitit_logs \ --partition $slurm_partition \ --nodes 2 --t task-per-node 8 \ --time 1000

Nhận xét

Cư dân mạng bày tỏ sự đánh giá cao đối với tác phẩm mới này do LeCun dẫn dắt.

Công việc thực sự đột phá, thổi bay. Sự kế thừa của mô hình tự hồi quy là đây!

Tôi tin rằng các kiến trúc nhúng liên kết là tương lai của AI, không phải là sáng tạo. Nhưng tôi chỉ tò mò, tại sao chúng ta không tiến xa hơn vào tính đa phương thức (như ImageBind, không chỉ các cặp văn bản-hình ảnh) và thay thế bộ mã hóa VIT bằng bộ nhận thức như bộ mã hóa?

Công việc rất gọn gàng. Theo hiểu biết của tôi, nó tương tự như bộ mã hóa tự động đeo mặt nạ, nhưng mất các tính năng khi được xác định trong không gian tiềm ẩn, không phải không gian đầu vào/pixel. Tuy nhiên muốn hiểu cặn kẽ thì vẫn cần thêm chi tiết.

Bộ não của tôi chỉ có thể hiểu được 10% bài báo, nhưng nếu I-JEPA thực sự có thể tạo ra hình ảnh mục tiêu trong Hình 3, điều đó sẽ rất tuyệt vời và quan trọng nhất: nó có liên quan đến MMORPG do AI tạo ra!

Dự án này sắp được mã nguồn mở và cư dân mạng cũng bày tỏ sự đánh giá cao đối với sự đóng góp của Meta cho cộng đồng mã nguồn mở.

Người giới thiệu:

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate.io
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)