Une apparition de modèle mondial de LeCun! Meta a choqué la sortie du premier modèle "humanoïde", qui complète une demi-image après avoir compris le monde, et l'apprentissage auto-supervisé est attendu par tout le monde
**Introduction :**Le modèle mondial de LeCun est enfin là, on peut dire que c'est ce que tout le monde attend. Maintenant que le grand modèle a appris à comprendre le monde et à raisonner comme un humain, AGI n'est-il pas loin ?
Pendant longtemps, l'IA idéale de LeCun a toujours été l'IA qui mène au niveau humain, c'est pourquoi il a proposé le concept de "modèle mondial".
Récemment, dans un discours public, LeCun a de nouveau critiqué le grand modèle GPT : le grand modèle de génération autorégressive basé sur la probabilité ne peut pas du tout résoudre le problème de l'hallucination. Il affirme même directement que le modèle GPT ne survivra pas 5 ans.
Aujourd'hui, LeCun fait enfin un pas de plus vers son rêve !
Meta shock a publié un modèle d'intelligence artificielle "de type humain" I-JEPA, qui peut analyser et compléter les images manquantes avec plus de précision que les modèles existants.
Adresse papier :
Conclusion : lorsque I-JEPA remplit les pièces manquantes, il utilise des connaissances de base sur le monde ! Au lieu de simplement regarder les pixels à proximité comme le font les autres modèles.
Cela fait plus d'un an que le concept de « modèle mondial » a été proposé, et LeCun s'apprête à réaliser sa propre mer d'étoiles.
Aujourd'hui, le code et les modèles de formation sont open-source. Le document sera présenté au CVPR 2023 la semaine prochaine.
Le modèle mondial de LeCun est là
Même les systèmes d'IA les plus avancés d'aujourd'hui ont été incapables de franchir certaines limites clés.
Afin de briser cette couche de chaînes, le scientifique en chef de l'IA de Meta, Yann LeCun, a proposé une nouvelle architecture.
Sa vision est de créer une machine capable d'apprendre un modèle interne du fonctionnement du monde, afin qu'elle puisse apprendre plus rapidement, planifier des tâches complexes et réagir à tout moment à des situations nouvelles et inconnues.
Le modèle I-JEPA du cadre de prédiction embarqué commun d'image lancé par Meta aujourd'hui est le premier modèle d'IA de l'histoire basé sur un élément clé de la vision du modèle mondial de LeCun.
I-JEPA apprend en créant un modèle interne du monde externe. Dans le processus de réalisation d'images, il compare des représentations abstraites des images, plutôt que de comparer les pixels eux-mêmes.
I-JEPA a montré de solides performances sur plusieurs tâches de vision par ordinateur et est beaucoup plus efficace en termes de calcul que d'autres modèles CV largement utilisés.
Évaluation linéaire ImageNet : la méthode I-JEPA n'utilise aucune augmentation de données visuelles pendant la pré-formation pour apprendre les représentations d'images sémantiques, en utilisant moins de calculs que les autres méthodes
Les représentations apprises par I-JEPA peuvent être utilisées dans de nombreuses applications différentes sans ajustement approfondi.
Par exemple, les chercheurs ont utilisé 16 GPU A100 en 72 heures pour former un modèle visuel de transformateur avec 632 millions de paramètres.
Sur la tâche de classification low-shot sur ImageNet, il atteint l'état de l'art, jusqu'à 12 exemples étiquetés par classe.
D'autres méthodes nécessitent généralement 2 à 10 fois plus d'heures GPU et ont des taux d'erreur plus élevés lorsqu'elles sont entraînées avec la même quantité de données.
Acquérir du bon sens grâce à un apprentissage auto-supervisé
En général, les humains peuvent apprendre beaucoup de connaissances de base sur le monde simplement par une observation passive.
De manière spéculative, il semble que ce type d'informations de bon sens soit la clé pour permettre un comportement intelligent, comme l'acquisition d'échantillons valides de nouveaux concepts, fondements et plans.
Modèle d'apprentissage de concept comme apprentissage d'une lecture linéaire
Le travail de Meta sur I-JEPA (et plus généralement le modèle JEPA d'architecture de prédiction d'intégration conjointe) est basé sur ce fait.
Ce que les chercheurs ont essayé, c'est de concevoir un algorithme d'apprentissage qui capture les connaissances de base de bon sens sur le monde, puis les encode dans une représentation numérique à laquelle l'algorithme peut accéder.
Pour atteindre une efficacité suffisante, les systèmes doivent apprendre ces représentations de manière auto-supervisée, c'est-à-dire directement à partir de données non étiquetées telles que des images ou des sons, plutôt qu'à partir d'ensembles de données étiquetés assemblés manuellement.
À un niveau supérieur, JEPA vise à prédire les représentations de parties d'une entrée sur la base des représentations d'autres parties de la même entrée (image ou texte).
Parce qu'il n'implique pas de regrouper plusieurs vues/représentations augmentées d'une image en un seul point, JEPA est très prometteur pour éviter les biais et les problèmes qui surviennent dans les méthodes largement utilisées (c'est-à-dire la pré-formation basée sur l'invariance).
Une approche d'intégration conjointe évite l'effondrement de la représentation
Dans le même temps, en prédisant les représentations à un niveau hautement abstrait, plutôt qu'en prédisant directement les valeurs des pixels, JEPA promet de pouvoir apprendre directement des représentations utiles tout en évitant les limitations des méthodes génératives.
En revanche, les modèles génératifs généraux apprennent en supprimant ou en déformant des parties du modèle d'entrée.
Par exemple, effacez une partie d'une photo ou masquez certains mots dans un paragraphe de texte, puis essayez de prédire les pixels ou les mots corrompus ou manquants.
Mais une lacune importante de cette approche est que, alors que le monde lui-même est imprévisible, le modèle essaie de remplir chaque élément d'information manquant.
Par conséquent, de telles approches peuvent commettre des erreurs que les humains ne commettraient jamais, car elles se concentrent trop sur des détails non pertinents au lieu de capturer des concepts prévisibles de niveau supérieur.
Un exemple bien connu est que les modèles génératifs ont du mal à générer les bonnes mains.
Dans l'architecture générale de l'apprentissage auto-supervisé, le système apprend à capturer la relation entre les différentes entrées.
Son but est d'affecter les hautes énergies aux entrées incompatibles et les basses énergies aux entrées compatibles.
Architectures communes pour l'apprentissage auto-supervisé
La différence entre ces trois structures est-
(a) Une architecture d'intégration conjointe (invariante) apprend à produire des intégrations similaires pour les entrées compatibles x, y et des intégrations différentes pour les entrées incompatibles.
(b) Une architecture générative apprend à reconstruire un signal y directement à partir d'un signal compatible x, en utilisant un réseau décodeur conditionné sur une variable supplémentaire z (éventuellement une variable latente) pour faciliter la reconstruction.
(c) L'architecture de prédiction d'intégration conjointe apprend à prédire l'intégration du signal y à partir du signal compatible x, en utilisant un réseau de prédiction conditionné sur une variable supplémentaire z (éventuellement une variable latente) pour faciliter la prédiction.
architecture de prédiction à intégration conjointe
Le principe de I-JEPA est de prédire les informations manquantes à travers une représentation abstraite plus proche de la compréhension humaine.
Afin de guider I-JEPA pour générer des représentations sémantiques, l'une des conceptions de base est la stratégie de masquage multi-blocs.
Plus précisément, l'équipe a démontré l'importance de prédire de gros morceaux contenant des informations sémantiques. Ces morceaux sont d'une taille suffisante pour couvrir des caractéristiques sémantiques importantes.
L'avantage de cette stratégie est qu'elle réduit les détails inutiles et offre un meilleur niveau de compréhension sémantique.
En se concentrant sur de gros morceaux d'informations sémantiques, le modèle peut mieux capturer des concepts importants dans des images ou des textes, ce qui conduit à des capacités prédictives plus fortes.
Image-based Joint Embedding Prediction Architecture (I-JEPA) utilise un seul bloc contextuel pour prédire les représentations de la même image
Parmi eux, l'encodeur de contexte est un transformateur visuel (ViT), qui ne traite que les correctifs de contexte visibles.
Le prédicteur est un ViT étroit qui prend la sortie de l'encodeur de contexte et prédit la représentation du bloc cible en fonction du jeton de position de la cible.
La représentation cible correspond à la sortie de l'encodeur cible, dont les poids sont mis à jour à chaque itération par une moyenne mobile exponentielle des poids de l'encodeur de contexte.
Dans I-JEPA, le prédicteur peut être considéré comme un modèle mondial primitif (et contraint) capable d'exploiter des informations contextuelles connues pour déduire le contenu de régions inconnues.
Cette capacité permet au modèle de raisonner sur des images statiques, en construisant une compréhension de l'incertitude spatiale dans les images.
Contrairement aux méthodes qui se concentrent uniquement sur les détails au niveau des pixels, I-JEPA est capable de prédire des informations sémantiques de haut niveau sur des régions invisibles, afin de mieux capturer le contenu sémantique des images.
Le processus par lequel un prédicteur apprend à modéliser la sémantique du monde
Pour chaque image, les parties en dehors de la boîte bleue sont encodées et fournies au prédicteur en tant que contexte. Le prédicteur, d'autre part, produit une représentation représentant ce qui est attendu à l'intérieur de la boîte bleue.
Pour comprendre ce que le modèle capture, l'équipe a formé un décodeur stochastique pour mapper les représentations prédites I-JEPA dans l'espace pixel, montrant la sortie du modèle lors de la réalisation de prédictions dans la boîte bleue.
En clair, le prédicteur est capable d'identifier les informations sémantiques à renseigner (haut d'une tête de chien, patte d'oiseau, patte de loup, de l'autre côté d'un bâtiment).
Étant donné une image, échantillonnez au hasard 4 patchs cibles, échantillonnez au hasard un patch de contexte à l'échelle de la plage et supprimez tous les patchs cibles qui se chevauchent. Dans cette stratégie, le bloc cible est relativement sémantique et le bloc de contexte contient une grande quantité d'informations, mais il est très clairsemé, de sorte que l'efficacité du traitement est élevée.
En bref, I-JEPA est capable d'apprendre des représentations de haut niveau de parties d'objets sans supprimer leurs informations de localisation locales dans l'image.
Plus d'efficacité, plus de performances
En pré-formation, le calcul de l'I-JEPA est plus efficace.
Tout d'abord, il n'est pas nécessaire d'appliquer une augmentation de données plus intensive en calcul pour générer plusieurs vues, ce qui n'entraîne aucune surcharge supplémentaire.
Deuxièmement, l'encodeur cible n'a besoin de traiter qu'une seule vue de l'image, et l'encodeur de contexte n'a besoin de traiter que le bloc de contexte.
Les expériences démontrent que I-JEPA est capable d'apprendre de puissantes représentations sémantiques prêtes à l'emploi sans augmentation de vue artificielle.
En outre, I-JEPA surpasse également les méthodes de reconstruction de pixels et de reconstruction de jetons dans la détection linéaire ImageNet-1K et l'évaluation semi-supervisée.
Performances d'évaluation linéaire de référence sur ImageNet-1k en fonction des heures GPU pendant la préformation
Sur les tâches sémantiques, I-JEPA surpasse les méthodes de pré-formation précédentes qui s'appuient sur des données artificielles pour l'augmentation.
Par rapport à ces méthodes, I-JEPA atteint de meilleures performances sur les tâches de vision de bas niveau telles que le comptage d'objets et la prédiction de profondeur.
En utilisant un modèle de biais inductif plus simple et plus flexible, I-JEPA peut être utilisé sur un plus large éventail de tâches.
Précision de la classification low-shot : évaluation semi-supervisée sur ImageNet-1k avec 1 % d'étiquettes (environ 12 images étiquetées par classe)
## L'IA va encore plus loin dans l'intelligence humaine
I-JEPA démontre le potentiel de l'architecture pour apprendre des représentations d'images prêtes à l'emploi sans l'aide supplémentaire de connaissances artisanales.
Faire progresser le JEPA pour apprendre des modèles mondiaux plus généraux à partir de modalités plus riches serait un travail particulièrement gratifiant.
Par exemple, à partir d'un contexte court, faites des prédictions spatiales et temporelles à longue portée sur des vidéos et conditionnez ces prédictions en fonction d'indices audio ou textuels.
Visualisation de la représentation du prédicteur I-JEPA : la première colonne contient l'image d'origine, la deuxième colonne contient l'image de contexte et les cadres de délimitation verts contiennent des échantillons du modèle génératif décodé par la sortie du prédicteur. Le prédicteur capture correctement l'incertitude de position, produisant des parties d'objet de haut niveau avec la pose correcte, en supprimant les détails de bas niveau précis et les informations de fond
L'équipe se dit impatiente d'étendre l'approche JEPA à d'autres domaines, tels que les données couplées image-texte et les données vidéo.
À l'avenir, les modèles JEPA pourraient avoir des applications intéressantes dans des tâches telles que la compréhension vidéo. Et ce sera une étape importante vers l'application et l'extension de méthodes auto-supervisées pour apprendre des modèles mondiaux.
Modèle pré-formé
### Formation GPU unique
Dans une configuration GPU unique, l'implémentation commence dans main.py.
Par exemple, pour exécuter la pré-formation I-JEPA sur les GPU 0, 1 et 2 sur votre ordinateur local à l'aide de la configuration configs/in1k_vith14_ep300.yaml, saisissez la commande suivante :
REMARQUE : La configuration ViT-H/14 doit être exécutée sur 16 cartes graphiques A100 80G avec une taille de lot effective de 2048 pour reproduire les résultats.
Entraînement multi-GPU
Dans une configuration multi-GPU, l'implémentation commence dans main_distributed.py, ce qui permet de spécifier des détails sur la formation distribuée en plus d'analyser les fichiers de configuration.
Pour la formation distribuée, l'outil open source populaire submitit est requis, avec un exemple de cluster SLURM.
Par exemple, pour effectuer un pré-entraînement sur 16 cartes graphiques A100 80G à l'aide de la configuration expérimentale de pré-entraînement spécifiée dans configs/in1k_vith14_ep300.yaml, saisissez la commande suivante :
Les internautes ont exprimé leur appréciation pour ce nouveau travail dirigé par LeCun.
Un travail vraiment révolutionnaire, époustouflé. Le successeur du modèle autorégressif est là !
Je crois que les architectures d'intégration fédérées sont l'avenir de l'IA, pas génératives. Mais je suis juste curieux, pourquoi n'allons-nous pas plus loin dans la multimodalité (comme ImageBind, pas seulement des paires texte-image), et remplacer les encodeurs VIT par des perceptrons comme des encodeurs ?
Travail très soigné. À ma connaissance, il est similaire à un auto-encodeur masqué, mais perd des fonctionnalités lorsqu'il est défini dans l'espace latent, et non dans l'espace d'entrée/pixel. Cependant, si je veux le comprendre en détail, j'ai encore besoin de plus de détails.
Mon cerveau ne peut comprendre que 10% du papier, mais si I-JEPA peut vraiment créer l'image cible de la figure 3, ce sera incroyable, et le plus important : c'est lié au MMORPG généré par l'IA !
Ce projet est sur le point d'être open source, et les internautes ont également exprimé leur appréciation pour la contribution de Meta à la communauté open source.
Les références:
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Une apparition de modèle mondial de LeCun! Meta a choqué la sortie du premier modèle "humanoïde", qui complète une demi-image après avoir compris le monde, et l'apprentissage auto-supervisé est attendu par tout le monde
**Source :**Xinzhiyuan
**Introduction :**Le modèle mondial de LeCun est enfin là, on peut dire que c'est ce que tout le monde attend. Maintenant que le grand modèle a appris à comprendre le monde et à raisonner comme un humain, AGI n'est-il pas loin ?
Pendant longtemps, l'IA idéale de LeCun a toujours été l'IA qui mène au niveau humain, c'est pourquoi il a proposé le concept de "modèle mondial".
Récemment, dans un discours public, LeCun a de nouveau critiqué le grand modèle GPT : le grand modèle de génération autorégressive basé sur la probabilité ne peut pas du tout résoudre le problème de l'hallucination. Il affirme même directement que le modèle GPT ne survivra pas 5 ans.
Meta shock a publié un modèle d'intelligence artificielle "de type humain" I-JEPA, qui peut analyser et compléter les images manquantes avec plus de précision que les modèles existants.
Conclusion : lorsque I-JEPA remplit les pièces manquantes, il utilise des connaissances de base sur le monde ! Au lieu de simplement regarder les pixels à proximité comme le font les autres modèles.
Cela fait plus d'un an que le concept de « modèle mondial » a été proposé, et LeCun s'apprête à réaliser sa propre mer d'étoiles.
Aujourd'hui, le code et les modèles de formation sont open-source. Le document sera présenté au CVPR 2023 la semaine prochaine.
Le modèle mondial de LeCun est là
Même les systèmes d'IA les plus avancés d'aujourd'hui ont été incapables de franchir certaines limites clés.
Afin de briser cette couche de chaînes, le scientifique en chef de l'IA de Meta, Yann LeCun, a proposé une nouvelle architecture.
Le modèle I-JEPA du cadre de prédiction embarqué commun d'image lancé par Meta aujourd'hui est le premier modèle d'IA de l'histoire basé sur un élément clé de la vision du modèle mondial de LeCun.
I-JEPA apprend en créant un modèle interne du monde externe. Dans le processus de réalisation d'images, il compare des représentations abstraites des images, plutôt que de comparer les pixels eux-mêmes.
I-JEPA a montré de solides performances sur plusieurs tâches de vision par ordinateur et est beaucoup plus efficace en termes de calcul que d'autres modèles CV largement utilisés.
Les représentations apprises par I-JEPA peuvent être utilisées dans de nombreuses applications différentes sans ajustement approfondi.
Par exemple, les chercheurs ont utilisé 16 GPU A100 en 72 heures pour former un modèle visuel de transformateur avec 632 millions de paramètres.
Sur la tâche de classification low-shot sur ImageNet, il atteint l'état de l'art, jusqu'à 12 exemples étiquetés par classe.
D'autres méthodes nécessitent généralement 2 à 10 fois plus d'heures GPU et ont des taux d'erreur plus élevés lorsqu'elles sont entraînées avec la même quantité de données.
Acquérir du bon sens grâce à un apprentissage auto-supervisé
En général, les humains peuvent apprendre beaucoup de connaissances de base sur le monde simplement par une observation passive.
De manière spéculative, il semble que ce type d'informations de bon sens soit la clé pour permettre un comportement intelligent, comme l'acquisition d'échantillons valides de nouveaux concepts, fondements et plans.
Le travail de Meta sur I-JEPA (et plus généralement le modèle JEPA d'architecture de prédiction d'intégration conjointe) est basé sur ce fait.
Ce que les chercheurs ont essayé, c'est de concevoir un algorithme d'apprentissage qui capture les connaissances de base de bon sens sur le monde, puis les encode dans une représentation numérique à laquelle l'algorithme peut accéder.
Pour atteindre une efficacité suffisante, les systèmes doivent apprendre ces représentations de manière auto-supervisée, c'est-à-dire directement à partir de données non étiquetées telles que des images ou des sons, plutôt qu'à partir d'ensembles de données étiquetés assemblés manuellement.
À un niveau supérieur, JEPA vise à prédire les représentations de parties d'une entrée sur la base des représentations d'autres parties de la même entrée (image ou texte).
Parce qu'il n'implique pas de regrouper plusieurs vues/représentations augmentées d'une image en un seul point, JEPA est très prometteur pour éviter les biais et les problèmes qui surviennent dans les méthodes largement utilisées (c'est-à-dire la pré-formation basée sur l'invariance).
Dans le même temps, en prédisant les représentations à un niveau hautement abstrait, plutôt qu'en prédisant directement les valeurs des pixels, JEPA promet de pouvoir apprendre directement des représentations utiles tout en évitant les limitations des méthodes génératives.
En revanche, les modèles génératifs généraux apprennent en supprimant ou en déformant des parties du modèle d'entrée.
Par exemple, effacez une partie d'une photo ou masquez certains mots dans un paragraphe de texte, puis essayez de prédire les pixels ou les mots corrompus ou manquants.
Mais une lacune importante de cette approche est que, alors que le monde lui-même est imprévisible, le modèle essaie de remplir chaque élément d'information manquant.
Un exemple bien connu est que les modèles génératifs ont du mal à générer les bonnes mains.
Dans l'architecture générale de l'apprentissage auto-supervisé, le système apprend à capturer la relation entre les différentes entrées.
Son but est d'affecter les hautes énergies aux entrées incompatibles et les basses énergies aux entrées compatibles.
La différence entre ces trois structures est-
(a) Une architecture d'intégration conjointe (invariante) apprend à produire des intégrations similaires pour les entrées compatibles x, y et des intégrations différentes pour les entrées incompatibles.
(b) Une architecture générative apprend à reconstruire un signal y directement à partir d'un signal compatible x, en utilisant un réseau décodeur conditionné sur une variable supplémentaire z (éventuellement une variable latente) pour faciliter la reconstruction.
(c) L'architecture de prédiction d'intégration conjointe apprend à prédire l'intégration du signal y à partir du signal compatible x, en utilisant un réseau de prédiction conditionné sur une variable supplémentaire z (éventuellement une variable latente) pour faciliter la prédiction.
architecture de prédiction à intégration conjointe
Le principe de I-JEPA est de prédire les informations manquantes à travers une représentation abstraite plus proche de la compréhension humaine.
Afin de guider I-JEPA pour générer des représentations sémantiques, l'une des conceptions de base est la stratégie de masquage multi-blocs.
Plus précisément, l'équipe a démontré l'importance de prédire de gros morceaux contenant des informations sémantiques. Ces morceaux sont d'une taille suffisante pour couvrir des caractéristiques sémantiques importantes.
En se concentrant sur de gros morceaux d'informations sémantiques, le modèle peut mieux capturer des concepts importants dans des images ou des textes, ce qui conduit à des capacités prédictives plus fortes.
Image-based Joint Embedding Prediction Architecture (I-JEPA) utilise un seul bloc contextuel pour prédire les représentations de la même image
Parmi eux, l'encodeur de contexte est un transformateur visuel (ViT), qui ne traite que les correctifs de contexte visibles.
Le prédicteur est un ViT étroit qui prend la sortie de l'encodeur de contexte et prédit la représentation du bloc cible en fonction du jeton de position de la cible.
Dans I-JEPA, le prédicteur peut être considéré comme un modèle mondial primitif (et contraint) capable d'exploiter des informations contextuelles connues pour déduire le contenu de régions inconnues.
Cette capacité permet au modèle de raisonner sur des images statiques, en construisant une compréhension de l'incertitude spatiale dans les images.
Contrairement aux méthodes qui se concentrent uniquement sur les détails au niveau des pixels, I-JEPA est capable de prédire des informations sémantiques de haut niveau sur des régions invisibles, afin de mieux capturer le contenu sémantique des images.
Pour chaque image, les parties en dehors de la boîte bleue sont encodées et fournies au prédicteur en tant que contexte. Le prédicteur, d'autre part, produit une représentation représentant ce qui est attendu à l'intérieur de la boîte bleue.
Pour comprendre ce que le modèle capture, l'équipe a formé un décodeur stochastique pour mapper les représentations prédites I-JEPA dans l'espace pixel, montrant la sortie du modèle lors de la réalisation de prédictions dans la boîte bleue.
En clair, le prédicteur est capable d'identifier les informations sémantiques à renseigner (haut d'une tête de chien, patte d'oiseau, patte de loup, de l'autre côté d'un bâtiment).
En bref, I-JEPA est capable d'apprendre des représentations de haut niveau de parties d'objets sans supprimer leurs informations de localisation locales dans l'image.
Plus d'efficacité, plus de performances
En pré-formation, le calcul de l'I-JEPA est plus efficace.
Tout d'abord, il n'est pas nécessaire d'appliquer une augmentation de données plus intensive en calcul pour générer plusieurs vues, ce qui n'entraîne aucune surcharge supplémentaire.
Deuxièmement, l'encodeur cible n'a besoin de traiter qu'une seule vue de l'image, et l'encodeur de contexte n'a besoin de traiter que le bloc de contexte.
Les expériences démontrent que I-JEPA est capable d'apprendre de puissantes représentations sémantiques prêtes à l'emploi sans augmentation de vue artificielle.
En outre, I-JEPA surpasse également les méthodes de reconstruction de pixels et de reconstruction de jetons dans la détection linéaire ImageNet-1K et l'évaluation semi-supervisée.
Sur les tâches sémantiques, I-JEPA surpasse les méthodes de pré-formation précédentes qui s'appuient sur des données artificielles pour l'augmentation.
Par rapport à ces méthodes, I-JEPA atteint de meilleures performances sur les tâches de vision de bas niveau telles que le comptage d'objets et la prédiction de profondeur.
En utilisant un modèle de biais inductif plus simple et plus flexible, I-JEPA peut être utilisé sur un plus large éventail de tâches.
## L'IA va encore plus loin dans l'intelligence humaine
I-JEPA démontre le potentiel de l'architecture pour apprendre des représentations d'images prêtes à l'emploi sans l'aide supplémentaire de connaissances artisanales.
Faire progresser le JEPA pour apprendre des modèles mondiaux plus généraux à partir de modalités plus riches serait un travail particulièrement gratifiant.
Par exemple, à partir d'un contexte court, faites des prédictions spatiales et temporelles à longue portée sur des vidéos et conditionnez ces prédictions en fonction d'indices audio ou textuels.
L'équipe se dit impatiente d'étendre l'approche JEPA à d'autres domaines, tels que les données couplées image-texte et les données vidéo.
À l'avenir, les modèles JEPA pourraient avoir des applications intéressantes dans des tâches telles que la compréhension vidéo. Et ce sera une étape importante vers l'application et l'extension de méthodes auto-supervisées pour apprendre des modèles mondiaux.
Modèle pré-formé
Dans une configuration GPU unique, l'implémentation commence dans main.py.
Par exemple, pour exécuter la pré-formation I-JEPA sur les GPU 0, 1 et 2 sur votre ordinateur local à l'aide de la configuration configs/in1k_vith14_ep300.yaml, saisissez la commande suivante :
python main.py \ --fname configs/in1k_vith14_ep300.yaml \ --devices cuda:0 cuda:1 cuda:2
REMARQUE : La configuration ViT-H/14 doit être exécutée sur 16 cartes graphiques A100 80G avec une taille de lot effective de 2048 pour reproduire les résultats.
Entraînement multi-GPU
Dans une configuration multi-GPU, l'implémentation commence dans main_distributed.py, ce qui permet de spécifier des détails sur la formation distribuée en plus d'analyser les fichiers de configuration.
Pour la formation distribuée, l'outil open source populaire submitit est requis, avec un exemple de cluster SLURM.
Par exemple, pour effectuer un pré-entraînement sur 16 cartes graphiques A100 80G à l'aide de la configuration expérimentale de pré-entraînement spécifiée dans configs/in1k_vith14_ep300.yaml, saisissez la commande suivante :
python main_distributed.py \ --fname configs/in1k_vith14_ep300.yaml \ --folder $path_to_save_submitit_logs \ --partition $slurm_partition \ --nodes 2 --tasks-per-node 8 \ --time 1000
Commentaires
Les internautes ont exprimé leur appréciation pour ce nouveau travail dirigé par LeCun.
Un travail vraiment révolutionnaire, époustouflé. Le successeur du modèle autorégressif est là !