Uma aparição modelo mundial de LeCun! Meta chocou o lançamento do primeiro modelo "humanóide", que completa metade de uma imagem depois de entender o mundo, e o aprendizado autossupervisionado é esperado por todos

**Fonte:**Xinzhiyuan

**Introdução:**O modelo mundial de LeCun está finalmente aqui, pode-se dizer que é o que todos esperam. Agora que o grande modelo aprendeu a entender o mundo e a raciocinar como um humano, a AGI não está longe?

Por muito tempo, a IA ideal de LeCun sempre foi a IA que leva ao nível humano, por isso ele propôs o conceito de "modelo mundial".

Recentemente, em um discurso público, LeCun mais uma vez criticou o grande modelo GPT: o grande modelo de geração autorregressiva baseado na probabilidade não consegue resolver o problema da alucinação. Ele ainda afirma diretamente que o modelo GPT não sobreviverá 5 anos.

Hoje, LeCun está finalmente um passo mais perto de seu sonho!

A Meta Shock lançou um modelo de inteligência artificial "semelhante ao humano" I-JEPA, que pode analisar e completar as imagens perdidas com mais precisão do que os modelos existentes.

Endereço de papel:

Resumindo: quando o I-JEPA preenche as peças que faltam, ele usa conhecimento prévio sobre o mundo! Em vez de apenas olhar para os pixels próximos, como fazem outros modelos.

Já se passou mais de um ano desde que o conceito de "modelo mundial" foi proposto, e LeCun está prestes a realizar seu próprio mar estelar.

Hoje, o código e os modelos de treinamento são de código aberto. O paper será apresentado na CVPR 2023 na próxima semana.

O modelo mundial de LeCun está aqui

Mesmo os sistemas de IA mais avançados de hoje não conseguiram romper algumas limitações importantes.

Para romper essa camada de algemas, o cientista-chefe de IA da Meta, Yann LeCun, propôs uma nova arquitetura.

Sua visão é criar uma máquina que possa aprender um modelo interno de como o mundo funciona, para que possa aprender mais rapidamente, planejar tarefas complexas e responder a situações novas e desconhecidas a qualquer momento.

O modelo I-JEPA da estrutura de previsão incorporada de imagem lançada pela Meta hoje é o primeiro modelo de IA da história baseado em uma parte fundamental da visão do modelo mundial de LeCun.

I-JEPA aprende criando um modelo interno do mundo externo. No processo de conclusão das imagens, ele compara representações abstratas das imagens, em vez de comparar os próprios pixels.

O I-JEPA mostrou forte desempenho em múltiplas tarefas de visão computacional e é muito mais eficiente computacionalmente do que outros modelos CV amplamente utilizados.

Avaliação Linear ImageNet: O método I-JEPA não usa nenhum aumento de dados visuais durante o pré-treinamento para aprender representações de imagens semânticas, usando menos computação do que outros métodos

As representações aprendidas pelo I-JEPA podem ser usadas em muitas aplicações diferentes sem um ajuste fino extensivo.

Por exemplo, os pesquisadores usaram 16 GPUs A100 em 72 horas para treinar um modelo visual de Transformer com 632 milhões de parâmetros.

Na tarefa de classificação low-shot no ImageNet, ele atinge o estado da arte, com até 12 exemplos rotulados por classe.

Outros métodos geralmente requerem de 2 a 10 vezes mais horas de GPU e têm taxas de erro mais altas quando treinados com a mesma quantidade de dados.

Adquira bom senso por meio do aprendizado auto-supervisionado

Em geral, os seres humanos podem aprender muito conhecimento prévio sobre o mundo simplesmente por observação passiva.

Especulativamente, parece que esse tipo de informação de senso comum é a chave para permitir um comportamento inteligente, como a aquisição de amostras válidas de novos conceitos, fundamentos e planos.

Aprendizado de conceito de modelo como aprendizado de uma leitura linear

O trabalho da Meta no I-JEPA (e mais geralmente no modelo JEPA Joint Embedding Prediction Architecture) é baseado neste fato.

O que os pesquisadores tentaram foi criar um algoritmo de aprendizado que capturasse o conhecimento de fundo do senso comum sobre o mundo e o codificasse em uma representação digital que o algoritmo pudesse acessar.

Para serem eficientes o suficiente, os sistemas devem aprender essas representações de maneira auto-supervisionada, ou seja, diretamente de dados não rotulados, como imagens ou sons, em vez de conjuntos de dados rotulados montados manualmente.

Em um nível superior, JEPA visa prever representações de partes de uma entrada com base em representações de outras partes da mesma entrada (imagem ou texto).

Por não envolver o colapso de múltiplas visualizações/representações aumentadas de uma imagem em um único ponto, o JEPA é uma grande promessa para evitar vieses e problemas que surgem em métodos amplamente utilizados (ou seja, pré-treinamento baseado em invariância).

Uma abordagem de incorporação conjunta evita o colapso da representação

Ao mesmo tempo, ao prever representações em um nível altamente abstrato, em vez de prever valores de pixel diretamente, o JEPA promete ser capaz de aprender diretamente representações úteis, evitando as limitações de métodos generativos.

Em contraste, os modelos generativos gerais aprendem removendo ou distorcendo partes do modelo de entrada.

Por exemplo, apague parte de uma foto ou oculte certas palavras em um parágrafo de texto e tente prever pixels ou palavras corrompidos ou ausentes.

Mas uma deficiência significativa dessa abordagem é que, embora o próprio mundo seja imprevisível, o modelo tenta preencher todas as informações que faltam.

Como resultado, essas abordagens podem cometer erros que os humanos nunca cometeriam, porque se concentram demais em detalhes irrelevantes, em vez de capturar conceitos previsíveis de nível superior.

Um exemplo bem conhecido é que os modelos generativos têm dificuldade em gerar as mãos certas.

Na arquitetura geral do aprendizado autossupervisionado, o sistema aprende a capturar a relação entre diferentes entradas.

Seu objetivo é atribuir altas energias a entradas incompatíveis e baixas energias a entradas compatíveis.

Arquiteturas comuns para aprendizagem autossupervisionada

A diferença entre essas três estruturas é-

(a) Uma arquitetura de incorporação conjunta (invariante) aprende a produzir embeddings semelhantes para entradas compatíveis x, y e embeddings diferentes para entradas incompatíveis.

(b) Uma arquitetura generativa aprende a reconstruir um sinal y diretamente de um sinal compatível x, usando uma rede decodificadora condicionada a uma variável adicional z (possivelmente uma variável latente) para facilitar a reconstrução.

(c) A arquitetura de predição de incorporação conjunta aprende a prever a incorporação do sinal y a partir do sinal compatível x, usando uma rede de predição condicionada a uma variável adicional z (possivelmente uma variável latente) para facilitar a predição.

arquitetura de previsão de incorporação conjunta

O princípio por trás do I-JEPA é prever informações ausentes por meio de uma representação abstrata mais semelhante à compreensão humana.

A fim de guiar o I-JEPA para gerar representações semânticas, um dos projetos principais é a estratégia de mascaramento multibloco.

Especificamente, a equipe demonstrou a importância de prever grandes blocos que contêm informações semânticas. Esses pedaços são de tamanho suficiente para cobrir características semânticas importantes.

A vantagem dessa estratégia é que ela reduz detalhes desnecessários e fornece um nível mais alto de compreensão semântica.

Ao se concentrar em grandes blocos de informações semânticas, o modelo pode capturar melhor conceitos importantes em imagens ou textos, levando a capacidades preditivas mais fortes.

Arquitetura de previsão de incorporação conjunta baseada em imagem (I-JEPA) usa um único bloco contextual para prever representações da mesma imagem

Entre eles, o codificador de contexto é um Transformer visual (ViT), que processa apenas patches de contexto visíveis.

O preditor é um ViT estreito que pega a saída do codificador de contexto e prevê a representação do bloco alvo com base no token de posição do alvo.

A representação de destino corresponde à saída do codificador de destino, cujos pesos são atualizados a cada iteração por uma média móvel exponencial dos pesos do codificador de contexto.

No I-JEPA, o preditor pode ser visto como um modelo de mundo primitivo (e restrito) capaz de explorar informações de contexto conhecidas para inferir o conteúdo de regiões desconhecidas.

Essa capacidade permite que o modelo raciocine sobre imagens estáticas, construindo uma compreensão da incerteza espacial nas imagens.

Diferente dos métodos que focam apenas em detalhes em nível de pixel, o I-JEPA é capaz de prever informações semânticas de alto nível de regiões não vistas, de modo a capturar melhor o conteúdo semântico das imagens.

O processo pelo qual um preditor aprende a modelar a semântica do mundo

Para cada imagem, as partes fora da caixa azul são codificadas e fornecidas ao preditor como contexto. O preditor, por outro lado, gera uma representação que representa o que é esperado dentro da caixa azul.

Para entender o que o modelo captura, a equipe treinou um decodificador estocástico para mapear as representações previstas do I-JEPA de volta ao espaço do pixel, mostrando a saída do modelo ao fazer previsões dentro da caixa azul.

Claramente, o preditor é capaz de identificar a informação semântica que deve ser preenchida (topo da cabeça de um cachorro, perna de pássaro, perna de lobo, o outro lado de um prédio).

Dada uma imagem, amostra aleatoriamente 4 patches de destino, amostra aleatoriamente um patch de contexto de escala de intervalo e remove quaisquer patches de destino sobrepostos. Nessa estratégia, o bloco de destino é relativamente semântico e o bloco de contexto possui uma grande quantidade de informações, mas é muito esparso, portanto, a eficiência do processamento é alta

Resumindo, o I-JEPA é capaz de aprender representações de alto nível de partes de objetos sem descartar suas informações de localização local na imagem.

Maior eficiência, desempenho mais forte

No pré-treinamento, o cálculo do I-JEPA é mais eficiente.

Primeiro, ele não precisa aplicar um aumento de dados computacionalmente intensivo para gerar várias exibições, não incorrendo em sobrecarga adicional.

Em segundo lugar, o codificador de destino precisa processar apenas uma visualização da imagem e o codificador de contexto precisa processar apenas o bloco de contexto.

Experimentos demonstram que o I-JEPA é capaz de aprender poderosas representações semânticas prontas para uso sem aumento de visão artificial.

Além disso, o I-JEPA também supera a reconstrução de pixel e os métodos de reconstrução de token na detecção linear ImageNet-1K e na avaliação semi-supervisionada.

Desempenho de avaliação linear de referência no ImageNet-1k como uma função das horas de GPU durante o pré-treinamento

Em tarefas semânticas, o I-JEPA supera os métodos anteriores de pré-treinamento que dependem de dados artificiais para aumento.

Comparado com esses métodos, o I-JEPA obtém melhor desempenho em tarefas de visão de baixo nível, como contagem de objetos e previsão de profundidade.

Ao usar um modelo de viés indutivo mais simples e flexível, o I-JEPA pode ser usado em uma ampla gama de tarefas.

Precisão de classificação low-shot: avaliação semi-supervisionada no ImageNet-1k com 1% de rótulos (cerca de 12 imagens rotuladas por classe)

IA leva a inteligência humana um passo adiante

O I-JEPA demonstra o potencial da arquitetura para aprender representações de imagens prontas para uso sem assistência adicional de conhecimento artesanal.

Avançar o JEPA para aprender modelos mundiais mais gerais de modalidades mais ricas seria um trabalho particularmente recompensador.

Por exemplo, a partir de um contexto curto, faça previsões espaciais e temporais de longo alcance em vídeos e condicione essas previsões com base em dicas de áudio ou texto.

Visualização da representação do preditor I-JEPA: a primeira coluna contém a imagem original, a segunda coluna contém a imagem de contexto e as caixas delimitadoras verdes contêm amostras do modelo generativo decodificado pela saída do preditor. O preditor captura corretamente a incerteza posicional, produzindo partes de objetos de alto nível com a pose correta, descartando detalhes precisos de baixo nível e informações de segundo plano

A equipe diz que espera estender a abordagem JEPA a outros domínios, como dados pareados imagem-texto e dados de vídeo.

No futuro, os modelos JEPA podem ter aplicações interessantes em tarefas como compreensão de vídeo. E será um passo importante para aplicar e estender métodos autossupervisionados para aprender modelos de mundo.

Modelo pré-treinado

### Treinamento de GPU única

Em uma única configuração de GPU, a implementação começa em main.py.

Por exemplo, para executar o pré-treinamento I-JEPA nas GPUs 0, 1 e 2 em sua máquina local usando a configuração configs/in1k_vith14_ep300.yaml, digite o seguinte comando:

python main.py \ --fname configs/in1k_vith14_ep300.yaml \ --devices cuda:0 cuda:1 cuda:2

NOTA: A configuração ViT-H/14 deve ser executada em 16 placas gráficas A100 80G com um tamanho de lote efetivo de 2048 para reproduzir os resultados.

Treinamento de várias GPUs

Em uma configuração multi-GPU, a implementação começa em main_distributed.py, que permite especificar detalhes sobre o treinamento distribuído, além de analisar os arquivos de configuração.

Para treinamento distribuído, é necessária a popular ferramenta de envio de software livre, com um exemplo de cluster SLURM.

Por exemplo, para pré-treinar em 16 placas gráficas A100 80G usando a configuração de experimento pré-treinamento especificada em configs/in1k_vith14_ep300.yaml, digite o seguinte comando:

python main_distributed.py \ --fname configs/in1k_vith14_ep300.yaml \ --folder $path_to_save_submitit_logs \ --partition $slurm_partition \ --nodes 2 --tasks-per-node 8 \ --time 1000

Avaliações

Os internautas expressaram seu apreço por este novo trabalho liderado por LeCun.

Trabalho realmente inovador, deslumbrado. O sucessor do modelo autorregressivo está aqui!

Acredito que as arquiteturas de incorporação federadas são o futuro da IA, não generativas. Mas estou apenas curioso, por que não vamos mais longe na multimodalidade (como ImageBind, não apenas pares de texto-imagem) e substituímos os codificadores VIT por perceptrons como codificadores?

Trabalho muito legal. No meu entendimento, é semelhante a um autoencoder mascarado, mas perde recursos quando definido no espaço latente, não no espaço de entrada/pixel. No entanto, se eu quiser entendê-lo em detalhes, ainda preciso de mais detalhes.

Meu cérebro só consegue entender 10% do papel, mas se o I-JEPA puder realmente criar a imagem alvo na Figura 3, será incrível e, o mais importante: está relacionado ao MMORPG gerado por IA!

Este projeto está prestes a ser de código aberto, e os internautas também expressaram seu apreço pela contribuição da Meta para a comunidade de código aberto.

Referências:

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)