Світовий модельний вигляд LeCun! Meta шокувала випуском першої «гуманоїдної» моделі, яка доповнює половину картини після розуміння світу, а самоконтрольоване навчання чекає кожен

2023-06-14 06:21:49

**Джерело:**Xinzhiyuan

**Вступ:**Модель світу LeCun нарешті тут, можна сказати, що це те, що всі очікують. Тепер, коли велика модель навчилася розуміти світ і міркувати як людина, хіба AGI не за горами?

Протягом тривалого часу ідеальним штучним інтелектом Лекуна завжди був ШІ, який веде до рівня людини, тому він запропонував концепцію «моделі світу».

Нещодавно у публічній промові ЛеКун знову розкритикував велику модель GPT: велика модель авторегресійної генерації, заснована на ймовірності, взагалі не може вирішити проблему галюцинацій. Там навіть прямо стверджується, що модель GPT не проживе 5 років.

Сьогодні ЛеКун нарешті став на крок ближче до своєї мрії!

Meta shock випустила «людиноподібну» модель штучного інтелекту I-JEPA, яка може аналізувати та завершувати відсутні зображення точніше, ніж існуючі моделі.

Адреса паперу:

Підсумок: коли I-JEPA заповнює відсутні фрагменти, він використовує базові знання про світ! Замість того, щоб просто дивитися на найближчі пікселі, як це роблять інші моделі.

Минуло більше року з моменту висунення концепції «моделі світу», і ЛеКун збирається реалізувати своє власне зіркове море.

Сьогодні навчальний код і моделі є відкритими. Документ буде представлено на CVPR 2023 наступного тижня.

світова модель Лекуна тут

Навіть найдосконаліші сучасні системи ШІ не змогли подолати деякі ключові обмеження.

Щоб прорвати цей шар кайданів, головний науковець Meta зі штучного інтелекту Ян ЛеКун запропонував нову архітектуру.

Його бачення полягає в тому, щоб створити машину, яка може вивчати внутрішню модель того, як влаштований світ, щоб вона могла навчатися швидше, планувати складні завдання та реагувати на нові та незнайомі ситуації в будь-який час.

Модель I-JEPA, запущена компанією Meta, є першою в історії моделлю штучного інтелекту, заснованою на ключовій частині бачення моделі світу Лекуна.

I-JEPA навчається, створюючи внутрішню модель зовнішнього світу. У процесі створення зображень він порівнює абстрактні представлення зображень, а не порівнює самі пікселі.

I-JEPA продемонстрував високу продуктивність у багатьох задачах комп’ютерного зору та набагато ефективніший з точки зору обчислень, ніж інші широко використовувані моделі CV.

Лінійне оцінювання ImageNet: метод I-JEPA не використовує жодних візуальних доповнень даних під час попереднього навчання для вивчення семантичних зображень, використовуючи менше обчислень, ніж інші методи

Представлення, вивчені I-JEPA, можна використовувати в багатьох різних програмах без значного тонкого налаштування.

Наприклад, дослідники використовували 16 графічних процесорів A100 протягом 72 годин для навчання моделі візуального трансформатора з 632 млн параметрів.

У невеликій класифікаційній задачі на ImageNet він досягає найсучаснішого рівня, аж до 12 позначених прикладів на клас.

Інші методи зазвичай вимагають від 2 до 10 разів більше годин графічного процесора та мають вищі показники помилок при навчанні з тим самим обсягом даних.

Набути здорового глузду шляхом самоконтролю

Загалом, люди можуть отримати багато базових знань про світ просто шляхом пасивного спостереження.

Спекулятивно, здається, що такий тип інформації здорового глузду є ключем до забезпечення розумної поведінки, такої як отримання дійсних зразків нових концепцій, основ і планів.

Модель навчання концепції як навчання лінійного зчитування

Робота Meta над I-JEPA (і, загалом, моделлю JEPA архітектури прогнозування спільного вбудовування) базується на цьому факті.

Дослідники намагалися розробити алгоритм навчання, який фіксує базові знання здорового глузду про світ, а потім кодує їх у цифрове представлення, до якого алгоритм може отримати доступ.

Щоб бути достатньо ефективними, системи повинні навчатися цим представленням у самоконтрольований спосіб, тобто безпосередньо з немаркованих даних, таких як зображення чи звуки, а не зі зібраних вручну наборів даних з мітками.

На більш високому рівні JEPA має на меті передбачити представлення частин вхідних даних на основі представлень інших частин того самого вхідного даних (зображення або тексту).

Оскільки він не передбачає згортання кількох переглядів/доповнених представлень зображення в одну точку, JEPA має велику перспективу уникнути упереджень і проблем, які виникають у широко використовуваних методах (тобто, попереднє навчання на основі інваріантності).

Підхід спільного вбудовування дозволяє уникнути колапсу представлення

У той же час, прогнозуючи представлення на дуже абстрактному рівні, а не прямо прогнозуючи значення пікселів, JEPA обіцяє мати можливість безпосередньо вивчати корисні представлення, уникаючи обмежень генеративних методів.

Навпаки, загальні генеративні моделі навчаються шляхом видалення або спотворення частин вхідної моделі.

Наприклад, стерти частину фотографії або сховати певні слова в абзаці тексту, а потім спробувати передбачити пошкоджені або відсутні пікселі чи слова.

Але істотним недоліком цього підходу є те, що, хоча сам світ непередбачуваний, модель намагається заповнити кожну відсутню інформацію.

У результаті такі підходи можуть припуститися помилок, яких люди ніколи б не зробили, оскільки вони надто зосереджуються на нерелевантних деталях замість того, щоб охопити передбачувані концепції вищого рівня.

Добре відомим прикладом є те, що генеративні моделі мають труднощі з генерацією правих рук.

У загальній архітектурі самоконтрольованого навчання система вчиться фіксувати зв’язок між різними вхідними даними.

Його мета — призначити високі енергії несумісним входам і низькі енергії сумісним входам.

Загальні архітектури для самостійного навчання

Різниця між цими трьома структурами:

(a) Архітектура спільного вбудовування (інваріантна) вчиться виводити подібні вбудовування для сумісних вхідних даних x, y та неподібні вбудовування для несумісних вхідних даних.

(b) Генеративна архітектура вчиться реконструювати сигнал y безпосередньо із сумісного сигналу x, використовуючи мережу декодера, обумовлену додатковою змінною z (можливо, прихованою змінною), щоб полегшити реконструкцію.

(c) Архітектура передбачення спільного вбудовування вчиться передбачати вбудовування сигналу y із сумісного сигналу x, використовуючи мережу передбачення, обумовлену додатковою змінною z (можливо, прихованою змінною) для полегшення передбачення.

архітектура передбачення спільного вбудовування

Принцип I-JEPA полягає в тому, щоб передбачити відсутню інформацію за допомогою абстрактного представлення, більш схожого на людське розуміння.

Для того, щоб керувати I-JEPA генерувати семантичні уявлення, однією з основних конструкцій є багатоблочна стратегія маскування.

Зокрема, команда продемонструвала важливість передбачення великих фрагментів, які містять семантичну інформацію. Ці частини мають достатній розмір, щоб охопити важливі семантичні характеристики.

Перевага цієї стратегії полягає в тому, що вона зменшує непотрібні деталі та забезпечує вищий рівень семантичного розуміння.

Зосереджуючись на великих фрагментах семантичної інформації, модель може краще фіксувати важливі концепції в зображеннях або текстах, що забезпечує більш ефективні можливості прогнозування.

Архітектура прогнозування спільного вбудовування на основі зображень (I-JEPA) використовує один контекстний блок для прогнозування представлень з того самого зображення

Серед них кодувальник контексту — це візуальний трансформатор (ViT), який обробляє лише видимі патчі контексту.

Прогноз — це вузький ViT, який отримує вихід кодера контексту та передбачає представлення цільового блоку на основі маркера позиції цільового блоку.

Цільове представлення відповідає виходу цільового кодера, чиї ваги оновлюються на кожній ітерації за допомогою експоненціального ковзного середнього ваг контекстного кодера.

У I-JEPA предиктор можна розглядати як примітивну (і обмежену) модель світу, здатну використовувати відому контекстну інформацію для висновку про вміст невідомих регіонів.

Ця можливість дозволяє моделі міркувати про статичні зображення, створюючи розуміння просторової невизначеності в зображеннях.

На відміну від методів, які зосереджуються лише на деталях на рівні пікселів, I-JEPA здатний передбачати високорівневу семантичну інформацію невидимих регіонів, щоб краще фіксувати семантичний вміст зображень.

Процес, за допомогою якого предиктор вчиться моделювати семантику світу

Для кожного зображення частини за межами синього прямокутника кодуються та надаються предиктору як контекст. Прогноз, з іншого боку, виводить представлення, що представляє те, що очікується всередині синього прямокутника.

Щоб зрозуміти, що фіксує модель, команда навчила стохастичний декодер відображати передбачувані представлення I-JEPA назад у простір пікселів, показуючи результат моделі під час прогнозування в синьому полі.

Зрозуміло, що предиктор здатний ідентифікувати семантичну інформацію, яку слід заповнити (верхівка голови собаки, нога птаха, нога вовка, інша сторона будівлі).

Маючи зображення, випадковим чином відберіть 4 цільові патчі, випадково відберіть контекстний патч масштабу діапазону та видаліть усі цільові патчі, що перекриваються. Відповідно до цієї стратегії цільовий блок є відносно семантичним, а контекстний блок містить велику кількість інформації, але вона дуже розріджена, тому ефективність обробки висока

Коротше кажучи, I-JEPA може вивчати високорівневі представлення частин об’єкта, не відкидаючи інформацію про їхнє локальне розташування на зображенні.

Вища ефективність, ефективність

У попередній підготовці розрахунок I-JEPA більш ефективний.

По-перше, йому не потрібно застосовувати більш обчислювально інтенсивне збільшення даних для створення кількох переглядів, таким чином не спричиняючи додаткових витрат.

По-друге, цільовому кодеру потрібно обробити лише один вид зображення, а контекстному кодеру потрібно обробити лише контекстний блок.

Експерименти демонструють, що I-JEPA здатний вивчати потужні готові семантичні представлення без штучного розширення перегляду.

Крім того, I-JEPA також перевершує методи реконструкції пікселів і реконструкції маркерів у лінійному виявленні ImageNet-1K і напівконтрольованому оцінюванні.

Еталонна продуктивність лінійного оцінювання на ImageNet-1k як функція годин GPU під час попереднього навчання

У семантичних завданнях I-JEPA перевершує попередні методи попереднього навчання, які покладаються на штучні дані для розширення.

У порівнянні з цими методами, I-JEPA досягає кращої продуктивності в задачах низького зору, таких як підрахунок об’єктів і прогнозування глибини.

Використовуючи простішу та гнучкішу модель індуктивного зсуву, I-JEPA можна використовувати для більш широкого кола завдань.

Точність класифікації низького кадру: напівконтрольоване оцінювання на ImageNet-1k з 1% міток (приблизно 12 мічених зображень на клас)

ШІ робить людський інтелект на крок далі

I-JEPA демонструє потенціал архітектури для вивчення готових представлень зображень без додаткової допомоги рукотворних знань.

Розвиток JEPA для вивчення більш загальних моделей світу з більш багатих модальностей буде особливо корисною роботою.

Наприклад, на основі короткого контексту зробіть довгострокові просторові та часові прогнози на відео та обумовіть ці прогнози на основі звукових або текстових сигналів.

Візуалізація подання предиктора I-JEPA: перший стовпець містить оригінальне зображення, другий стовпець містить контекстне зображення, а зелені рамки містять зразки з генеративної моделі, декодованої виходом предиктора. Прогноз правильно фіксує позиційну невизначеність, створюючи частини об’єкта високого рівня в правильній позі, відкидаючи точні деталі низького рівня та фонову інформацію

Команда заявляє, що з нетерпінням чекає розширення підходу JEPA на інші домени, такі як парні дані зображення та тексту та відеодані.

У майбутньому моделі JEPA можуть мати захоплюючі застосування в таких завданнях, як розуміння відео. І це стане важливим кроком до застосування та розширення методів самоконтролю для вивчення моделей світу.

Попередньо навчена модель

### Навчання одному GPU

У налаштуванні одного GPU реалізація починається в main.py.

Наприклад, щоб запустити попереднє навчання I-JEPA на GPU 0, 1 і 2 на вашій локальній машині за допомогою конфігурації configs/in1k_vith14_ep300.yaml, введіть таку команду:

python main.py \ --fname configs/in1k_vith14_ep300.yaml \ --devices cuda:0 cuda:1 cuda:2

ПРИМІТКА. Для відтворення результатів конфігурація ViT-H/14 повинна працювати на 16 відеокартах A100 80G із ефективним розміром партії 2048.

Навчання з кількома GPU

У налаштуванні з декількома графічним процесором реалізація починається з main_distributed.py, що дозволяє вказувати деталі розподіленого навчання на додаток до синтаксичного аналізу конфігураційних файлів.

Для розподіленого навчання потрібен популярний інструмент відправки з відкритим кодом із прикладом кластера SLURM.

Наприклад, для попереднього навчання на 16 відеокартах A100 80G за допомогою конфігурації експерименту перед навчанням, указаної в configs/in1k_vith14_ep300.yaml, введіть таку команду:

python main_distributed.py \ --fname configs/in1k_vith14_ep300.yaml \ --folder $path_to_save_submitit_logs \ --partition $slurm_partition \ --nodes 2 --tasks-per-node 8 \ --time 1000

Відгуки

Користувачі мережі висловили свою вдячність за цю нову роботу під керівництвом Лекуна.

Справді новаторська робота, роздута. Наступник моделі авторегресії тут!

Я вважаю, що об’єднані архітектури вбудовування — це майбутнє штучного інтелекту, а не генерації. Але мені просто цікаво, чому б нам не піти далі в мультимодальність (наприклад, ImageBind, а не лише пари текст-зображення) і не замінити кодери VIT на перцептрони, такі як кодери?

Дуже акуратна робота. На мою думку, це схоже на замаскований автокодер, але втрачає функції, коли визначено в латентному просторі, а не в просторі введення/пікселя. Однак, якщо я хочу зрозуміти це детально, мені все одно потрібні додаткові деталі.

Мій мозок може зрозуміти лише 10% паперу, але якщо I-JEPA справді зможе створити цільове зображення на малюнку 3, це буде неймовірно, і найголовніше: це пов’язано з MMORPG, створеною ШІ!

Цей проект незабаром буде відкритим, і користувачі мережі також висловили вдячність Meta за внесок у спільноту відкритих вихідних кодів.

Література:

Переглянути оригінал

Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
#PI#
281k публікації
#BTC#
256k публікації
#ETH#
167k публікації
4#GateioInto11#
82k публікації
5#ContentStar#
68k публікації
6#GT#
67k публікації
7#BOME#
62k публікації
8#DOGE#
62k публікації
9#MAGA#
53k публікації
10#SLERF#
51k публікації

Закріпити

карта сайту