Мировая модель LeCun! Мета шокировала выходом первой «гуманоидной» модели, которая завершает полкартины после понимания мира, а самообучение ожидается всеми

**Источник:**Синьчжиюань

**Введение: **Модель мира ЛеКуна наконец-то здесь, можно сказать, что это именно то, чего все ожидают. Теперь, когда большая модель научилась понимать мир и рассуждать как человек, не за горами ли ОИИ?

Долгое время идеальным ИИ Лекуна всегда был ИИ, ведущий на человеческий уровень, поэтому он предложил концепцию «модели мира».

Недавно в публичном выступлении ЛеКун еще раз раскритиковал большую модель GPT: большая модель авторегрессионной генерации, основанной на вероятности, вообще не может решить проблему галлюцинаций. Там даже прямо утверждается, что модель GPT не переживет и 5 лет.

Сегодня ЛеКун наконец-то стал на шаг ближе к своей мечте!

Meta shock выпустила «человеческую» модель искусственного интеллекта I-JEPA, которая может анализировать и дополнять недостающие изображения более точно, чем существующие модели.

Адрес бумаги:

Итог: когда I-JEPA заполняет недостающие части, он использует базовые знания о мире! Вместо того, чтобы просто смотреть на близлежащие пиксели, как это делают другие модели.

Прошло больше года с тех пор, как была предложена концепция «модели мира», и ЛеКун вот-вот воплотит в жизнь собственное звездное море.

Сегодня код обучения и модели находятся в открытом доступе. Документ будет представлен на CVPR 2023 на следующей неделе.

Модель мира Лекуна здесь

Даже самые передовые современные системы ИИ не смогли обойти некоторые ключевые ограничения.

Чтобы прорваться через этот слой оков, главный ИИ-ученый Meta Янн ЛеКун предложил новую архитектуру.

Его видение состоит в том, чтобы создать машину, которая может изучить внутреннюю модель того, как устроен мир, чтобы она могла учиться быстрее, планировать сложные задачи и реагировать на новые и незнакомые ситуации в любое время.

Совместная встроенная структура прогнозирования изображений I-JEPA, запущенная Meta сегодня, является первой моделью искусственного интеллекта в истории, основанной на ключевой части видения модели мира Лекуна.

I-JEPA учится, создавая внутреннюю модель внешнего мира. В процессе завершения изображений он сравнивает абстрактные представления изображений, а не сравнивает сами пиксели.

I-JEPA показала высокую производительность при выполнении нескольких задач компьютерного зрения и намного более эффективна в вычислительном отношении, чем другие широко используемые модели CV.

Линейная оценка ImageNet: метод I-JEPA не использует какое-либо увеличение визуальных данных во время предварительной подготовки для изучения семантических представлений изображений, используя меньше вычислений, чем другие методы.

Представления, изученные I-JEPA, могут использоваться во многих различных приложениях без обширной тонкой настройки.

Например, исследователи использовали 16 графических процессоров A100 в течение 72 часов для обучения модели визуального преобразователя с 632 миллионами параметров.

В задаче низкоуровневой классификации в ImageNet он достигает самого современного уровня, до 12 помеченных примеров на класс.

Другие методы обычно требуют от 2 до 10 раз больше часов работы графического процессора и имеют более высокий уровень ошибок при обучении с тем же объемом данных.

Обретите здравый смысл с помощью самостоятельного обучения

В общем, люди могут получить много фоновых знаний о мире просто путем пассивного наблюдения.

Теоретически кажется, что такого рода информация, основанная на здравом смысле, является ключом к разумному поведению, такому как получение достоверных образцов новых концепций, основ и планов.

Изучение концепции модели как обучение линейному отсчету

Работа Меты над I-JEPA (и, в более общем плане, над моделью JEPA Joint Embedding Prediction Architecture) основана на этом факте.

Исследователи пытались разработать алгоритм обучения, который фиксирует базовые знания о мире, основанные на здравом смысле, а затем кодирует их в цифровое представление, к которому может получить доступ алгоритм.

Чтобы быть достаточно эффективными, системы должны изучать эти представления в режиме самоконтроля, то есть непосредственно из немаркированных данных, таких как изображения или звуки, а не из вручную собранных наборов данных с метками.

На более высоком уровне JEPA стремится предсказывать представления частей ввода на основе представлений других частей того же ввода (изображения или текста).

Поскольку он не включает в себя свертывание нескольких видов/расширенных представлений изображения в одну точку, JEPA обещает избежать предвзятости и проблем, возникающих в широко используемых методах (например, предварительное обучение на основе инвариантности).

Совместный подход к встраиванию позволяет избежать коллапса представления

В то же время, предсказывая представления на очень абстрактном уровне, а не напрямую предсказывая значения пикселей, JEPA обещает иметь возможность напрямую изучать полезные представления, избегая ограничений генеративных методов.В восторге от больших языковых моделей.

Напротив, общие генеративные модели обучаются, удаляя или искажая части входной модели.

Например, сотрите часть фотографии или скройте определенные слова в текстовом абзаце, а затем попытайтесь предсказать поврежденные или отсутствующие пиксели или слова.

Но существенным недостатком этого подхода является то, что, хотя сам мир непредсказуем, модель пытается восполнить каждую недостающую информацию.

В результате такие подходы могут совершать ошибки, которые люди никогда бы не совершили, потому что они слишком много внимания уделяют несущественным деталям вместо того, чтобы улавливать предсказуемые концепции более высокого уровня.

Известным примером является то, что генеративные модели с трудом генерируют правильные руки.

В общей архитектуре обучения с самоконтролем система учится фиксировать взаимосвязь между различными входными данными.

Его цель состоит в том, чтобы присвоить высокие энергии несовместимым входам и низкие энергии совместимым входам.

Общие архитектуры для самоконтролируемого обучения

Разница между этими тремя структурами заключается в следующем:

(a) Архитектура совместного вложения (инвариантная) учится выводить аналогичные вложения для совместимых входных данных x, y и разные вложения для несовместимых входных данных.

(b) Генеративная архитектура учится восстанавливать сигнал y непосредственно из совместимого сигнала x, используя сеть декодера, обусловленную дополнительной переменной z (возможно, скрытой переменной), чтобы облегчить восстановление.

(c) Архитектура прогнозирования совместного внедрения учится прогнозировать внедрение сигнала y из совместимого сигнала x, используя сеть прогнозирования, обусловленную дополнительной переменной z (возможно, скрытой переменной), чтобы облегчить прогнозирование.

совместная архитектура прогнозирования внедрения

Принцип I-JEPA заключается в том, чтобы предсказать недостающую информацию с помощью абстрактного представления, более близкого к человеческому пониманию.

Чтобы направить I-JEPA на создание семантических представлений, одним из основных проектов является стратегия многоблочного маскирования.

В частности, команда продемонстрировала важность прогнозирования больших фрагментов, содержащих семантическую информацию. Эти фрагменты имеют достаточный размер, чтобы охватить важные семантические особенности.

Преимущество этой стратегии в том, что она уменьшает количество ненужных деталей и обеспечивает более высокий уровень семантического понимания.

Сосредоточив внимание на больших фрагментах семантической информации, модель может лучше фиксировать важные понятия в изображениях или текстах, что приводит к более сильным прогностическим возможностям.

Архитектура совместного встраивания на основе изображений (I-JEPA) использует один контекстный блок для прогнозирования представлений из одного и того же изображения.

Среди них кодировщик контекста — визуальный преобразователь (ViT), который обрабатывает только видимые патчи контекста.

Предиктор — это узкий ViT, который берет выходные данные кодировщика контекста и предсказывает представление целевого блока на основе маркера позиции цели.

Целевое представление соответствует выходным данным целевого кодировщика, веса которого обновляются на каждой итерации с помощью экспоненциального скользящего среднего весов контекстного кодировщика.

В I-JEPA предиктор можно рассматривать как примитивную (и ограниченную) модель мира, способную использовать известную контекстную информацию для вывода содержимого неизвестных регионов.

Эта возможность позволяет модели рассуждать о статических изображениях, формируя понимание пространственной неопределенности изображений.

В отличие от методов, которые фокусируются только на деталях на уровне пикселей, I-JEPA способен прогнозировать высокоуровневую семантическую информацию о невидимых областях, чтобы лучше фиксировать семантическое содержание изображений.

Процесс, с помощью которого предсказатель учится моделировать семантику мира.

Для каждого изображения части за пределами синего прямоугольника кодируются и предоставляются предсказателю в качестве контекста. Предсказатель, с другой стороны, выводит представление, представляющее то, что ожидается внутри синего прямоугольника.

Чтобы понять, что фиксирует модель, команда обучила стохастический декодер отображать предсказанные I-JEPA представления обратно в пространство пикселей, показывая выходные данные модели при прогнозировании в синем поле.

Ясно, что предсказатель способен идентифицировать семантическую информацию, которую необходимо заполнить (верхняя часть головы собаки, птичья нога, волчья нога, другая сторона здания).

Для данного изображения случайным образом выберите 4 целевых фрагмента, случайным образом выберите фрагмент контекста в масштабе диапазона и удалите все перекрывающиеся целевые фрагменты. При этой стратегии целевой блок относительно семантичен, а контекстный блок имеет большой объем информации, но очень разреженный, поэтому эффективность обработки высока.

Короче говоря, I-JEPA может изучать высокоуровневые представления частей объекта, не отбрасывая информацию об их локальном местоположении на изображении.

Более высокая эффективность, более высокая производительность

При предварительном обучении расчет I-JEPA более эффективен.

Во-первых, нет необходимости применять более ресурсоемкое увеличение данных для создания нескольких представлений, что не требует дополнительных накладных расходов.

Во-вторых, целевому кодировщику нужно обработать только одно представление изображения, а кодировщику контекста нужно обработать только блок контекста.

Эксперименты показывают, что I-JEPA способен изучать мощные готовые семантические представления без искусственного расширения представления.

Кроме того, I-JEPA также превосходит методы реконструкции пикселей и маркеров в линейном обнаружении ImageNet-1K и полуконтролируемой оценке.

Сравнительный анализ производительности линейной оценки на ImageNet-1k в зависимости от часов работы графического процессора во время предварительной подготовки

В семантических задачах I-JEPA превосходит предыдущие методы предварительного обучения, которые полагаются на искусственные данные для расширения.

По сравнению с этими методами I-JEPA обеспечивает лучшую производительность в задачах низкого уровня зрения, таких как подсчет объектов и прогнозирование глубины.

Используя более простую и гибкую модель индуктивного смещения, I-JEPA можно использовать для решения более широкого круга задач.

Низкая точность классификации: полуконтролируемая оценка на ImageNet-1k с метками 1% (около 12 помеченных изображений на класс)

ИИ продвигает человеческий интеллект на шаг вперед

I-JEPA демонстрирует потенциал архитектуры для изучения готовых представлений изображений без дополнительной помощи знаний, полученных вручную.

Продвижение JEPA для изучения более общих моделей мира из более богатых модальностей было бы особенно полезной работой.

Например, из короткого контекста делайте долгосрочные пространственные и временные прогнозы для видео и обуславливайте эти прогнозы на основе звуковых или текстовых сигналов.

Визуализация представления предиктора I-JEPA: первый столбец содержит исходное изображение, второй столбец содержит изображение контекста, а зеленые ограничивающие рамки содержат образцы из генеративной модели, декодированные выходными данными предиктора. Предсказатель правильно фиксирует позиционную неопределенность, создавая части объекта высокого уровня с правильной позой, отбрасывая точные низкоуровневые детали и фоновую информацию.

Команда говорит, что с нетерпением ждет возможности распространить подход JEPA на другие области, такие как парные данные изображения и текста и видеоданные.

В будущем модели JEPA могут найти интересные применения в таких задачах, как понимание видео. И это станет важным шагом на пути к применению и расширению методов самоконтроля для изучения моделей мира.

Предварительно обученная модель

### Обучение с одним GPU

В конфигурации с одним GPU реализация начинается с main.py.

Например, чтобы запустить предварительную подготовку I-JEPA на графических процессорах 0, 1 и 2 на вашем локальном компьютере с помощью конфигурации configs/in1k_vith14_ep300.yaml, введите следующую команду:

python main.py \ --fname configs/in1k_vith14_ep300.yaml \ --devices cuda:0 cuda:1 cuda:2

ПРИМЕЧАНИЕ. Конфигурация ViT-H/14 должна быть запущена на 16 видеокартах A100 80G с эффективным размером пакета 2048 для воспроизведения результатов.

Обучение работе с несколькими графическими процессорами

В конфигурации с несколькими графическими процессорами реализация начинается с файла main_distributed.py, что позволяет указать сведения о распределенном обучении в дополнение к разбору файлов конфигурации.

Для распределенного обучения требуется популярный инструмент отправки с открытым исходным кодом на примере кластера SLURM.

Например, для предварительной тренировки на 16 видеокартах A100 80G с использованием конфигурации эксперимента предварительной подготовки, указанной в configs/in1k_vith14_ep300.yaml, введите следующую команду:

python main_distributed.py \ --fname configs/in1k_vith14_ep300.yaml \ --folder $path_to_save_submitit_logs \ --partition $slurm_partition \ --nodes 2 --tasks-per-node 8 \ --time 1000

Отзывы

Пользователи сети выразили признательность за эту новую работу под руководством Лекуна.

Действительно новаторская работа, сдулся. Преемник авторегрессионной модели уже здесь!

Я считаю, что федеративные встраиваемые архитектуры — это будущее ИИ, а не генеративное. Но мне просто любопытно, почему бы нам не перейти дальше к мультимодальности (например, ImageBind, а не только к парам текст-изображение) и заменить кодировщики VIT персептронами, такими как кодировщики?

Очень аккуратная работа. Насколько я понимаю, он похож на маскированный автоэнкодер, но теряет функции, когда определяется в скрытом пространстве, а не в пространстве ввода/пикселя. Однако, если я хочу понять это подробно, мне все еще нужно больше деталей.

Мой мозг может понять только 10% бумаги, но если I-JEPA действительно сможет создать целевое изображение на рисунке 3, это будет потрясающе, и самое главное: это связано с MMORPG, созданной ИИ!

Этот проект должен стать открытым исходным кодом, и пользователи сети также выразили признательность за вклад Meta в сообщество открытого исходного кода.

Использованная литература:

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить