Sam Altman et Hinton font leurs débuts en Chine ! L'événement d'experts en intelligence artificielle le plus important en Chine s'est terminé avec succès et le modèle national à grande échelle "Enlightenment 3.0" a été entièrement open source
【Introduction à Xinzhiyuan】 La conférence Zhiyuan de cette année est toujours étoilée et pleine de sens académique. Tous les grands noms ont débattu de la super IA, et le choc des idées a fait des étincelles… C'est encore un Gala Spring Festival de l'IA à ne pas manquer !
Tout à l'heure, la conférence nationale annuelle de Zhiyuan "AI Spring Festival Gala" s'est terminée avec succès !
Lors de cet événement annuel de pointe de l'intelligence artificielle, il y a des équipes vedettes familières telles que OpenAI, DeepMind, Anthropic, HuggingFace, Midjourney, Stability AI, etc., il y a Meta, Google, Microsoft et d'autres grands fabricants qui ont conquis le monde, et là sont Stanford, UC Berkeley, MIT et d'autres meilleures universités du monde.
Les auteurs d'ouvrages importants tels que GPT-4, PaLM-E, OPT, LLaMA, etc. ont tous assisté et nous ont expliqué les résultats de la recherche. On peut dire que cette conférence a à la fois une profondeur professionnelle et une inspiration créative, et chaque sujet a été discuté à l'extrême.
Le point culminant de la conférence a sans aucun doute été les discours du lauréat du prix Turing Yann LeCun, de Geoffrey Hinton et du fondateur d'OpenAI, Sam Altman.
L'apparition de ces super poids lourds peut être décrite comme pleine de faits saillants.
Geoffrey Hinton : le risque lié à la super IA est urgent
Dans le discours de clôture du forum qui vient de se terminer, Hinton, lauréat du prix Turing et père de l'apprentissage en profondeur, a conçu un scénario qui mérite réflexion pour nous.
Au début du discours, Hinton a demandé "Les réseaux de neurones artificiels sont-ils plus intelligents que les vrais réseaux de neurones?"
Oui, à son avis, cela pourrait arriver bientôt.
Comme il y a quelque temps, Hinton a démissionné de Google et a expliqué les raisons de sa démission en quelques mots. Il a exprimé ses regrets concernant le travail de sa vie et ses inquiétudes quant aux dangers de l'intelligence artificielle. Il a déclaré publiquement à plusieurs reprises que les dangers de l'intelligence artificielle pour le monde sont plus urgents que le changement climatique.
De même, lors de la conférence de Zhiyuan, Hinton a de nouveau parlé des risques liés à l'IA.
Et si un grand réseau de neurones fonctionnant sur plusieurs ordinateurs numériques pouvait acquérir des connaissances directement du monde, en plus d'imiter le langage humain pour la connaissance humaine ?
De toute évidence, il deviendra bien meilleur que les humains car il aura observé plus de données.
Cette idée n'est pas farfelue, si ce réseau de neurones peut effectuer une modélisation non supervisée d'images ou de vidéos, et ses copies peuvent également manipuler le monde physique.
Dans les cas les plus extrêmes, les criminels utilisent la superintelligence pour manipuler les électeurs et gagner des guerres.
Si une superintelligence est autorisée à formuler ses propres sous-objectifs, un sous-objectif étant de gagner plus de pouvoir, la superintelligence manipulera les humains qui l'utilisent afin d'atteindre cet objectif.
Zhang Hongjiang et Sam Altman Peak Q&A : AGI pourrait apparaître d'ici dix ans
Ce matin, Sam Altman est également apparu via un lien vidéo. C'est la première fois que Sam Altman prononce un discours public en Chine après l'explosion de ChatGPT.
Points forts:
La raison pour laquelle la révolution actuelle de l'IA est si percutante n'est pas seulement l'ampleur de son impact, mais aussi la vitesse des progrès. Cela apporte à la fois des dividendes et des risques.
Avec l'avènement de systèmes d'IA de plus en plus puissants, le renforcement de la coopération internationale et l'établissement d'une confiance mondiale sont primordiaux.
L'alignement est toujours un problème ouvert. GPT-4 a terminé le travail d'alignement au cours des 8 derniers mois, notamment en ce qui concerne l'évolutivité et l'explicabilité.
Dans son discours, Altman a souligné à plusieurs reprises la nécessité d'un alignement et d'une supervision de la sécurité mondiale de l'IA, et a spécifiquement cité une phrase du Tao Te Ching :
Un voyage de mille kilomètres commence par un seul pas.
Selon lui, l'intelligence artificielle se développe à une vitesse explosive, et la super IA pourrait apparaître dans les dix prochaines années.
Par conséquent, il est nécessaire de promouvoir la sécurité des AGI, de renforcer la coopération internationale et d'aligner les déploiements de recherche pertinents.
Sam Altman estime que la coopération au sein de la communauté scientifique et technologique internationale est la première étape pour franchir une étape constructive en ce moment. En particulier, les mécanismes de transparence et de partage des connaissances pour les progrès technologiques en matière de sécurité des AGI devraient être améliorés.
En outre, Altman a mentionné que le principal objectif de recherche actuel d'OpenAI est axé sur la recherche d'alignement de l'IA, c'est-à-dire comment faire de l'IA un assistant utile et sûr.
L'un est la supervision évolutive, essayant d'utiliser des systèmes d'IA pour aider les humains à superviser d'autres systèmes d'intelligence artificielle. La seconde est l'interprétabilité, en essayant de comprendre la "boîte noire" du fonctionnement interne du grand modèle.
En fin de compte, OpenAI vise à former des systèmes d'IA pour aider à la recherche d'alignement.
Après le discours, Zhang Hongjiang, président du Zhiyuan Research Institute, et Sam Altman ont ouvert un dialogue aérien pour discuter de la manière de rendre l'alignement sûr de l'IA.
Lorsqu'on lui a demandé si OpenAI ouvrirait de grands modèles, Altman a déclaré qu'il y aurait plus de sources ouvertes à l'avenir, mais qu'il n'y avait pas de modèle ni de calendrier spécifiques.
En outre, il a également déclaré qu'il n'y aurait pas de GPT-5 de sitôt.
Après la réunion, Altman a publié un message pour exprimer sa gratitude d'avoir été invité à prononcer un discours à la conférence de Zhiyuan.
LeCun : toujours fan du modèle mondial
Un autre lauréat du prix Turing, LeCun, qui a pris la parole le premier jour, a continué à promouvoir son propre concept de "modèle mondial".
LeCun a toujours exprimé son mépris pour l'idée que l'IA détruirait les êtres humains. Il pense que l'IA d'aujourd'hui n'est pas aussi intelligente qu'un chien et que la véritable intelligence artificielle n'a pas encore été développée. De telles inquiétudes sont superflues.
Il a expliqué que l'IA ne peut pas raisonner et planifier comme les humains et les animaux, en partie parce que les systèmes d'apprentissage automatique actuels ont des étapes de calcul essentiellement constantes entre l'entrée et la sortie.
Comment une machine peut-elle comprendre le fonctionnement du monde, prédire les conséquences d'actions comme les humains, ou le décomposer en plusieurs étapes pour planifier des tâches complexes ?
De toute évidence, l'apprentissage auto-supervisé est une voie. Comparé à l'apprentissage par renforcement, l'apprentissage auto-supervisé peut générer une grande quantité de rétroaction et être capable de prédire n'importe quelle partie de son entrée.
LeCun a déclaré qu'il a déterminé que les trois principaux défis de l'intelligence artificielle dans les prochaines années sont d'apprendre la représentation du monde, de prédire le modèle du monde et d'utiliser l'apprentissage auto-supervisé.
La clé de la construction d'une IA au niveau humain peut être la capacité d'apprendre un "modèle mondial".
Parmi eux, le "modèle du monde" se compose de six modules indépendants, dont : le module de configuration, le module de perception, le modèle du monde, le module de coût, le module d'acteur et le module de mémoire à court terme.
Il estime que la conception de l'architecture et du paradigme de formation pour le modèle mondial est le véritable obstacle au développement de l'intelligence artificielle dans les prochaines décennies.
Lorsqu'on lui a demandé si le système d'IA poserait un risque existentiel pour les humains, LeCun a répondu que nous n'avions pas encore de super IA, alors comment pouvons-nous rendre le système de super IA sûr ?
** "L'événement d'expert en IA" le mieux adapté **
On peut dire que la vigoureuse conférence de Zhiyuan 2023 est la conférence de plus haut niveau et la plus regardée dans le domaine national de l'IA cette année.
Dès le début de sa création, les caractéristiques essentielles de la conférence Zhiyuan sont très claires : académique, professionnelle, avant-gardiste.
En un clin d'œil, cet événement annuel pour les experts de l'IA en est à sa cinquième année.
Cette fois, la conférence de Zhiyuan 2023 perpétue la tradition de chaque conférence de Zhiyuan, et le sens de l'atmosphère académique est toujours écrasant.
En 2021, lors de la troisième conférence Zhiyuan, Yoshua Bengio, lauréat du prix Turing, E Weinan, professeur à l'Université de Pékin, et Zhu Min, doyen de l'Institut national de recherche financière de l'Université Tsinghua, prononceront des discours liminaires.
En 2022, deux lauréats du prix Turing Yann LeCun et Adi Shamir, le père de l'apprentissage par renforcement Richard Sutton, l'académicien américain Michael I. Jordan, la lauréate du prix Gödel Cynthia Dwork et d'autres poids lourds ont partagé.
Et d'ici 2023, ce sera sans aucun doute la session "la plus étoilée".
Il y a 4 lauréats du prix Turing Yann LeCun, Geoffrey Hinton, Joseph Sifakis et Yao Qizhi, ainsi que le fondateur d'OpenAI Sam Altman, le lauréat du prix Nobel Arieh Warshel, le fondateur du Future Life Institute Max Tegmark et le lauréat 2022 du Wu Wenjun Supreme Achievement Award Zheng Nanning Academicians et l'académicien Zhang Bo de l'Académie chinoise des sciences y ont participé.
Plus important encore, après que le projet de modèle à grande échelle "Enlightenment" de Zhiyuan ait continuellement battu le record de "le premier de Chine + le plus grand du monde", "Enlightenment 3.0" est entré dans une nouvelle étape de "l'open source complet".
"Enlightenment 3.0" est une série de modèles à grande échelle.
Plus précisément, il comprend la série de modèles à grande échelle en langage Aquila, le système d'évaluation de modèles à grande échelle Flag, la série de modèles visuels à grande échelle "Enlightenment · Vision" et la série de modèles multimodaux à grande échelle.
Le premier est le modèle de la série Aquila, qui est le premier modèle de langage open source avec des connaissances bilingues en chinois et en anglais et prend en charge les exigences nationales de conformité des données, et a des licences commerciales entièrement ouvertes.
Cette open source comprend le modèle de base de 7 milliards de paramètres et 33 milliards de paramètres, le modèle de dialogue AquilaChat et le modèle de génération "text-code" AquilaCode.
Adresse open source Aquila des Lumières :
Des performances plus solides
Techniquement, le modèle de base Aquila (7B, 33B) hérite techniquement des avantages de conception architecturale de GPT-3, LLaMA, etc., remplace un lot d'implémentations d'opérateurs de bas niveau plus efficaces, redessine et implémente un tokenizer bilingue chinois-anglais, The La méthode de formation parallèle BMTrain a été améliorée et, dans le processus de formation d'Aquila, l'efficacité de la formation est près de 8 fois supérieure à celle de Magtron + DeepSpeed ZeRO-2.
Concrètement, la première consiste à bénéficier d'une nouvelle technique pour accélérer le cadre de formation en parallèle.
L'année dernière, Zhiyuan a ouvert le projet open source d'algorithmes de grands modèles FlagAI, qui a intégré une nouvelle méthode de formation parallèle telle que BMTrain. Au cours du processus de formation, son calcul et sa communication ainsi que les problèmes de chevauchement sont encore optimisés.
Deuxièmement, Zhiyuan a pris l'initiative d'introduire la technologie d'optimisation des opérateurs et l'a intégrée à des méthodes d'accélération parallèles pour accélérer encore les performances.
Apprendre le chinois et l'anglais en même temps
Pourquoi la sortie d'Aquila est-elle si encourageante ?
Parce que de nombreux grands modèles "n'apprennent que l'anglais" - uniquement sur la base d'une grande quantité de formation de corpus en anglais, mais Aquila doit apprendre à la fois le chinois et l'anglais.
Vous en avez peut-être fait l'expérience vous-même : quand on apprend des connaissances, ce n'est pas un problème si vous continuez à utiliser l'anglais tout le temps, mais si vous apprenez l'anglais puis apprenez le chinois, la difficulté sera écrasante.
Par conséquent, par rapport aux modèles basés sur l'anglais tels que LLaMA et OPT, la difficulté de formation d'Aquila, qui doit apprendre à la fois le chinois et l'anglais, a augmenté plusieurs fois.
Afin d'optimiser Aquila pour les tâches chinoises, Zhiyuan a mis près de 40% du corpus chinois dans son corpus d'entraînement. La raison en est que Zhiyuan espère qu'Aquila pourra non seulement générer du chinois, mais aussi comprendre beaucoup de connaissances natives du monde chinois.
En outre, Zhiyuan a également repensé et mis en œuvre le tokenizer bilingue chinois-anglais (tokenizer), qui consiste à mieux reconnaître et prendre en charge la segmentation des mots chinois.
Dans le processus de formation et de conception, pour les tâches chinoises, l'équipe de Zhiyuan pèse délibérément les deux dimensions de qualité et d'efficacité pour déterminer la taille du tokenizer.
Le modèle de dialogue AquilaChat (7B, 33B) construit sur la base du modèle de base Aquila prend en charge un dialogue textuel fluide et des tâches de génération multilingues.
plusieurs tours de dialogue
Génération de la composition de l'examen d'entrée au collège
De plus, en définissant des spécifications d'instructions spéciales extensibles, AquilaChat peut être utilisé pour appeler d'autres modèles et outils, et il est facile à étendre.
Par exemple, le modèle de génération de texte et d'image multilingue AltDiffusion open source de Zhiyuan est utilisé pour réaliser des capacités de génération de texte et d'image fluides. Coopérant avec le modèle de graphique Vincent contrôlable en plusieurs étapes Zhiyuan InstructFace, il peut également réaliser facilement une édition contrôlable en plusieurs étapes des images de visage.
Génération de texte
Édition de visage contrôlable en plusieurs étapes
Le modèle de génération de "code texte" AquilaCode-7B, basé sur les puissantes capacités de modèle de base d'Aquila-7B, atteint des performances élevées avec un petit ensemble de données et une petite quantité de paramètres. C'est actuellement le meilleur modèle de code open source qui prend en charge le chinois Après un filtrage de haute qualité, la formation est effectuée à l'aide de données de code de formation avec des licences open source conformes.
De plus, AquilaCode-7B a terminé la formation des modèles de code sur Nvidia et les puces domestiques respectivement, et grâce à des modèles de code source ouvert + de diverses architectures, il favorise l'innovation des puces et l'éclosion d'une centaine de fleurs.
génération de code texte
Corps chinois plus conforme et plus propre
Par rapport aux modèles open source étrangers, la caractéristique la plus distinctive d'Aquila est qu'il prend en charge les exigences nationales de conformité des données.
Les modèles étrangers à grande échelle peuvent avoir certaines capacités chinoises, mais presque toutes les données Internet chinoises utilisées par les modèles étrangers à grande échelle open source sont extraites d'ensembles de données Internet tels que Common Crawl.
Cependant, si nous analysons le corpus Common Crawl, nous pouvons constater qu'il y a moins de 40 000 pages Web chinoises disponibles dans ses 1 million d'entrées, et 83% d'entre elles sont des sites Web étrangers, ce qui est évidemment une qualité incontrôlable.
Par conséquent, Aquila n'a utilisé aucun corpus chinois dans Common Crawl, mais a utilisé l'ensemble de données Wudao de Zhiyuan accumulé au cours des trois dernières années. L'ensemble de données chinois Wudao provient de plus de 10 000 sites Web chinois continentaux, de sorte que ses données chinoises répondent aux exigences de conformité et sont plus propres.
En général, cette version n'est qu'un point de départ. L'objectif de Zhiyuan est de créer un ensemble complet de grands pipelines d'évolution et d'itération de modèles, afin que le grand modèle continue de croître avec l'ajout de plus de données et de plus de fonctionnalités, et il continuera être open source et ouvert.
Il est à noter qu'Aquila est disponible sur les cartes graphiques grand public. Par exemple, le modèle 7B peut fonctionner sur une mémoire vidéo de 16 Go ou même plus petite.
Système d'évaluation de grands modèles de bibliothèque (drapeau)
Un système d'évaluation des modèles à grande échelle sûr, fiable, complet et objectif est également très important pour l'innovation technologique et la mise en œuvre industrielle des modèles à grande échelle.
Tout d'abord, pour la communauté académique, si vous voulez promouvoir l'innovation des grands modèles, vous devez disposer d'une règle pour mesurer les capacités et la qualité des grands modèles.
Deuxièmement, pour l'industrie, la grande majorité des entreprises choisiront d'utiliser directement les grands modèles existants au lieu de les développer à partir de zéro. Lors de la sélection, un système d'évaluation est nécessaire pour aider à juger. Après tout, les grands modèles de base auto-développés dépendent d'énormes coûts de puissance de calcul. Pour développer un modèle avec 30 milliards de paramètres, les fonds nécessaires incluent la puissance de calcul, les données, etc., au moins 20 millions.
En outre, s'il est possible de construire un système d'évaluation de modèle complet à grande échelle "d'évaluation automatisée + évaluation subjective manuelle", et de réaliser la boucle fermée automatique des résultats d'évaluation à l'analyse des capacités du modèle, puis à l'amélioration des capacités du modèle, a devenir un aspect important de l'innovation de base des modèles à grande échelle.
Afin de résoudre ce problème, le Zhiyuan Research Institute a choisi de donner la priorité au lancement du système d'évaluation de modèles à grande échelle Libra (Flag) et de la plate-forme ouverte (flag.baai.ac.cn).
Le système d'évaluation de modèles à grande échelle et la plate-forme ouverte Flag visent à établir des repères, des méthodes et des ensembles d'outils d'évaluation scientifiques, équitables et ouverts pour aider les chercheurs à évaluer de manière exhaustive les performances des modèles de base et des algorithmes de formation, tout en explorant les utilisation de méthodes d'IA pour atteindre L'aide de l'évaluation subjective améliore considérablement l'efficacité et l'objectivité de l'évaluation.
Plus précisément, le système d'évaluation de modèle à grande échelle Flag construit de manière innovante un cadre d'évaluation tridimensionnel de "capacité-tâche-indicateur", qui peut décrire avec précision la limite de capacité cognitive du modèle de base et visualiser les résultats de l'évaluation.
Actuellement, le système d'évaluation du modèle à grande échelle Flag comprend un total de plus de 600 dimensions d'évaluation, dont 22 ensembles de données d'évaluation et 84 433 questions, et des ensembles de données d'évaluation plus dimensionnels sont progressivement intégrés.
En outre, le système d'évaluation des modèles à grande échelle Flag continuera d'explorer la recherche interdisciplinaire entre l'évaluation des modèles linguistiques à grande échelle et les disciplines sociales telles que la psychologie, l'éducation et l'éthique, afin d'évaluer les modèles linguistiques à grande échelle de manière plus complète et scientifique. .
En termes de vision par ordinateur, l'équipe Enlightenment 3.0 a créé la série "Enlightenment Vision" de grands modèles avec une perception générale de la scène et des capacités de traitement de tâches complexes.
Parmi eux, c'est la technologie SOTA de ces 6 rafales qui construit la base sous-jacente de "Enlightenment·Vision":
Grand modèle multimodal "Emu", grand modèle pré-entraîné "EVA", modèle visuel général multi-tâches "Painter", modèle de segmentation de la vision générale, grand modèle graphique de pré-formation "EVA-CLIP" et technologie de montage vidéo "vid2vid -zéro ".
1. Emu : tout terminer dans une séquence multimodale
Emu est un grand modèle qui accepte des entrées multimodales et produit des sorties multimodales. Basé sur la voie technologique d'apprentissage de contexte multimodal, Emu peut apprendre à partir de séquences multimodales massives telles que du texte graphique, du texte graphique entrelacé et du texte vidéo entrelacé.
Une fois la formation terminée, Emu peut tout compléter dans le contexte de séquences multimodales, percevoir, raisonner et générer des données de diverses modalités telles que des images, des textes et des vidéos, et effectuer plusieurs séries de dialogues graphiques-textes et de graphiques à quelques échantillons. -compréhension de texte, question et réponse vidéo, génération de texte à image, génération d'image à image et autres tâches multimodales.
2. EVA : le modèle de base visuel le plus puissant à un milliard de niveaux
adresse du projet :
Adresse papier :
EVA combine le modèle d'apprentissage sémantique (CLIP) et la méthode d'apprentissage de la structure géométrique (MIM), et étend le modèle ViT standard à 1 milliard de paramètres pour la formation. D'un seul coup, il a atteint les meilleures performances à l'époque dans un large éventail de tâches de perception visuelle telles que la classification ImageNet, la détection et la segmentation COCO et la classification vidéo Kinetics.
3. EVA-CLIP : le modèle CLIP open source le plus puissant
Adresse du projet : /tree/master/EVA-CLIP
Adresse papier :
EVA-CLIP, développé avec le modèle de vision de base EVA comme noyau, a été itéré à 5 milliards de paramètres.
Comparé à l'OpenCLIP précédent avec un taux de précision de 80,1 %, le modèle EVA-CLIP a un taux de précision de 82,0 % dans le top1 à échantillon zéro ImageNet1K. En termes de précision ImageNet kNN, le dernier modèle DINOv2 de Meta est comparable à l'EVA-CLIP à 1 milliard de paramètres.
4. Peintre : la première voie technologique "d'apprentissage contextuel de l'image"
adresse du projet :
Adresse papier :
L'idée centrale du modèle visuel général La modélisation de Painter est "centrée sur la vision", en utilisant des images comme entrée et sortie pour obtenir des informations visuelles contextuelles, afin d'accomplir différentes tâches visuelles.
5. Modèle de segmentation universel d'Horizons : tout-en-un, tout diviser
Le modèle de segmentation universel horizon a une puissante capacité de raisonnement visuel du contexte et n'a besoin que d'un ou de quelques exemples d'images et d'indices visuels, et le modèle peut comprendre les intentions de l'utilisateur et effectuer des tâches de segmentation similaires.
Pour le dire simplement, les utilisateurs marquent et reconnaissent une classe d'objets à l'écran, et ils peuvent identifier et segmenter des objets similaires par lots, que ce soit dans l'écran actuel ou dans d'autres écrans ou environnements vidéo.
6. vid2vid-zero : la première technologie de montage vidéo sans échantillon du secteur
adresse du projet :
Lien papier :
Site de démonstration :
La technologie de montage vidéo à échantillon zéro "vid2vid-zero" utilise pour la première fois les caractéristiques dynamiques du mécanisme d'attention, combinées au modèle de diffusion d'image existant, pour créer un modèle de cadre pour le montage vidéo sans pré-formation vidéo supplémentaire. Maintenant, téléchargez simplement une vidéo, puis entrez une chaîne d'invites de texte, vous pouvez éditer la vidéo avec des attributs spécifiés.
L'éclaireur de la recherche sur les modèles à grande échelle en Chine
L'Institut de recherche Zhiyuan, créé en novembre 2018, est le pionnier de la recherche sur modèles à grande échelle en Chine. Après cinq ans de développement, il est devenu une référence pour la recherche sur modèles à grande échelle en Chine.
Ce qui le différencie des autres institutions, c'est que l'Institut de recherche Zhiyuan est une institution plate-forme. Au début de sa création, l'Institut de recherche Zhiyuan a fait de la création d'un écosystème d'innovation en intelligence artificielle l'une de ses missions et tâches fondamentales.
Comment Zhiyuan a-t-il promu le développement de la recherche sur modèles à grande échelle en Chine depuis sa création ?
En fait, la création de l'Institut de recherche de Zhiyuan est arrivée juste à temps pour l'émergence de modèles étrangers à grande échelle.
En parlant de cela, la direction principale de la recherche OpenAI établie en 2015 est d'explorer la voie vers l'IAG, et ce n'est pas un grand modèle.
Après 2018, OpenAI a commencé à se concentrer sur les grands modèles et a publié GPT avec 117 millions de paramètres en juin. La même année, Google a également publié un modèle de langage pré-formé à grande échelle BERT avec 300 millions de paramètres.
Tout le monde a remarqué que toute la tendance de l'industrie et de la technologie en 2018 est de fabriquer un modèle plus grand.
Au fur et à mesure que la puissance de calcul utilisée par le modèle augmente, la loi de Moore devient la soi-disant "loi modèle", c'est-à-dire que la puissance de calcul utilisée pour former un grand modèle double en 3-4 mois.
C'est également en 2018 que le Zhiyuan Research Institute a été créé, qui a pris l'initiative de rassembler les meilleurs chercheurs dans le domaine de l'IA et a commencé l'exploration de grands modèles.
En conséquence, en 2021, Zhiyuan a successivement sorti deux grands modèles d'Enlightenment 1.0 et d'Enlightenment 2.0.
Selon Huang Tiejun, lors de la conférence de presse Enlightenment 1.0 en mars 2021, Zhiyuan Research a jugé que l'intelligence artificielle est passée d'un "grand modèle" à une nouvelle étape de "grand modèle". Depuis lors, le concept de "grand modèle" a entré dans la vision publique.
Chaque année lors de la Conférence de Zhiyuan, les trois grandes voies techniques pour gravir le sommet de l'AGI seront relatées : grands modèles, life intelligence et AI4Science. Ces trois voies ne sont pas isolées, elles interagissent et s'influencent mutuellement.
Aujourd'hui, la principale raison de la capacité émergente des grands modèles vient des données massives qui les sous-tendent.
Les données linguistiques elles-mêmes contiennent des connaissances et une intelligence riches, qui sont extraites à l'aide de modèles à grande échelle, et les réseaux de neurones sont utilisés pour exprimer les lois qui sous-tendent les données complexes.
C'est une raison raisonnable pour laquelle l'une des voies techniques du grand modèle peut conduire à l'AGI.
Cela explique également pourquoi Zhiyuan s'est initialement concentré sur le grand modèle. En mars 2021, Enlightenment 1.0 est sorti, suivi par Enlightenment 2.0 en juin.
De plus, en plus du grand modèle, Zhiyuan explore également en permanence les deux autres voies menant à l'AGI, "Life Intelligence" et "AI4Science".
En 2022, Zhiyuan a publié la simulation la plus précise de Caenorhabditis elegans. Cette fois, Zhiyuan a ouvert la plate-forme de simulation de vie "eVolution-eVolution" utilisée dans l'étude des nématodes artificiels pour fournir des services en ligne.
Tianyan est une plate-forme de simulation de réseaux de neurones fins à très grande échelle, avec quatre caractéristiques notables : la plate-forme la plus efficace pour la simulation de réseaux de neurones fins ; prise en charge de la simulation de réseaux de neurones à très grande échelle ; fournir un ensemble d'outils de modélisation et de simulation en ligne à guichet unique ; L'interaction visuelle de haute qualité prend en charge la simulation en temps réel et le fonctionnement collaboratif visuel.
Basé sur la plate-forme Tianyan, il réalise une simulation de haute précision de l'intelligence biologique, explore l'essence de l'intelligence et promeut l'intelligence artificielle générale inspirée de la biologie. De plus, l'équipe de Tianyan a connecté Tianyan à la nouvelle génération de supercalculateur exascale de mon pays - le supercalculateur de nouvelle génération Tianhe.
Grâce au déploiement et à l'exploitation réussis de "Tianyan-Tianhe", la simulation de modèles tels que le réseau fin du cortex visuel du cerveau de souris V1 peut être réalisée, et la consommation d'énergie de calcul peut être réduite de plus de 10 fois, et la vitesse de calcul peut être augmenté de plus de 10 fois, atteignant le niveau le plus extrême au monde La performance de la simulation de réseau de neurones fins jette une base solide pour la réalisation d'une simulation fine de l'ensemble du cerveau humain.
Maintenant, deux ans plus tard, Zhiyuan a de nouveau publié la série de grands modèles Enlightenment 3.0.
En termes de positionnement, depuis la sortie d'Enlightenment 2.0, Zhiyuan, en tant qu'organisation de plate-forme à but non lucratif, non seulement fabrique des modèles et des modèles, mais apporte également progressivement des contributions uniques à la construction de l'écologie centrale des grands modèles.
Parmi eux, il comprend le tri des données derrière le modèle, les tests de modèles, les tests d'algorithmes, les organisations open source et ouvertes, et une disposition complète des plates-formes de puissance de calcul.
Pourquoi Zhiyuan a-t-il fait un tel changement ?
Parce que Zhiyuan comprend profondément que le grand modèle lui-même n'est pas la forme de produit la plus importante de l'ère des grands modèles, mais une nouvelle ère caractérisée par la systématisation et les services intellectuels.
À l'heure actuelle, le grand modèle continuera d'évoluer, et ce qui reste inchangé, c'est l'itération technique qui le sous-tend, c'est-à-dire l'algorithme d'entraînement du modèle.
Le dernier modèle que vous voyez tous les jours n'est qu'un résultat figé. Ce qui compte, c'est de savoir si l'algorithme de formation du modèle est avancé, si le coût est effectivement réduit et si la capacité sous-jacente est explicable et contrôlable.
Par conséquent, en tant qu'organisation de plate-forme, ce que Zhiyuan doit faire est de rassembler les algorithmes des modèles de formation de l'industrie en un tout itératif.
Ce travail est nécessaire. Zhiyuan travaille non seulement sur l'algorithme du modèle à grande échelle lui-même, mais consacre également plus de temps et d'énergie au développement du système technique du modèle à grande échelle.
Par exemple, Zhiyuan a lancé une plate-forme de services de cloud computing à grande échelle "Jiuding Smart Computing Platform" pour fournir une puissance de calcul, des données et un support d'algorithmes pour la formation de modèles à grande échelle.
Bien sûr, ce n'est pas seulement la force de Zhiyuan, mais aussi celle des instituts de recherche industriels-universitaires de collaborer et d'itérer de manière ouverte.
En mars de cette année, Zhiyuan a lancé le système open source de technologie de modèle à grande échelle FlagOpen Feizhi, qui est un système logiciel open source et ouvert pour les modèles à grande échelle construit conjointement avec un certain nombre d'unités de recherche industrielles et universitaires.
Comme l'a dit le doyen Huang Tiejun, "Nous espérons que maintenant que le grand modèle est devenu la force motrice dans le développement de l'industrie de l'intelligence artificielle, nous ferons plus de travail de soutien à l'avenir et apporterons une force unique à cette ère."
Vous vous demandez peut-être quelle est la principale caractéristique de la conférence de Zhiyuan de cette année par rapport aux précédentes ?
Le style est cohérent, résumé en deux mots : professionnel et épuré.
La conférence de Zhiyuan s'est tenue sans aucun objectif réaliste et n'a prêté aucune attention aux produits et aux investisseurs.
Ici, les leaders de l'industrie peuvent présenter des opinions personnelles et porter des jugements d'un point de vue professionnel, et bien sûr inclure des collisions et des débats d'opinions de haut niveau, sans avoir à prendre en compte de nombreux facteurs réalistes.
Le "parrain de l'IA" Geoffrey Hinton a participé pour la première fois à la conférence de Zhiyuan cette année. Il y a quelque temps, il a démissionné de Google parce qu'il regrettait l'œuvre de sa vie. Il a publié les dernières vues sur la sécurité de l'intelligence artificielle.
Comme toujours, "l'optimiste" Yann LeCun ne s'inquiétera pas des risques de l'intelligence artificielle comme la plupart des gens. Selon lui, il est déraisonnable de freiner avant que la voiture ne soit construite. À l'heure actuelle, des efforts devraient être faits pour développer une technologie d'IA plus avancée. et algorithmes.
Dans le même temps, vous assisterez également à une confrontation féroce des points de vue lors de la réunion. Max Tegmark sur le contrôle des risques liés à l'IA. Bien qu'on ne puisse pas dire qu'il soit complètement opposé à LeCun, il existe également de grandes différences.
C'est le point culminant de la conférence de Zhiyuan, et c'est aussi un style cohérent.
La singularité de ce positionnement est devenue de plus en plus importante ces dernières années.
Le développement de l'intelligence artificielle a un impact croissant sur le monde et la Chine, donc tout le monde a besoin d'une occasion d'exprimer ses opinions de manière pure, y compris les collisions idéologiques et les débats houleux.
La signification de cela est que seules les conférences plus professionnelles, plus pures, plus neutres et plus ouvertes sont plus propices pour que chacun puisse mieux appréhender une telle ère de développement rapide.
Dans les pays étrangers, la conférence de Zhiyuan jouit également d'une excellente réputation.Les organisations internationales considèrent la conférence de Zhiyuan comme une fenêtre de coopération avec la Chine dans la recherche sur l'intelligence artificielle.
L'origine du nom Zhiyuan est aussi la source de l'intelligence. Par conséquent, la tenue de la conférence de Zhiyuan est devenue un événement historique pour promouvoir le développement écologique de l'intelligence artificielle.
La forte liste d'invités, la richesse de la définition des sujets et la profondeur des discussions sur le contenu ont créé une conférence Zhiyuan unique.
Cet événement exclusif aux experts de l'IA est devenu une carte de visite brillante dans le domaine de l'IA en Chine.
Les références:
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Sam Altman et Hinton font leurs débuts en Chine ! L'événement d'experts en intelligence artificielle le plus important en Chine s'est terminé avec succès et le modèle national à grande échelle "Enlightenment 3.0" a été entièrement open source
**Source :**Xinzhiyuan
Tout à l'heure, la conférence nationale annuelle de Zhiyuan "AI Spring Festival Gala" s'est terminée avec succès !
Lors de cet événement annuel de pointe de l'intelligence artificielle, il y a des équipes vedettes familières telles que OpenAI, DeepMind, Anthropic, HuggingFace, Midjourney, Stability AI, etc., il y a Meta, Google, Microsoft et d'autres grands fabricants qui ont conquis le monde, et là sont Stanford, UC Berkeley, MIT et d'autres meilleures universités du monde.
Les auteurs d'ouvrages importants tels que GPT-4, PaLM-E, OPT, LLaMA, etc. ont tous assisté et nous ont expliqué les résultats de la recherche. On peut dire que cette conférence a à la fois une profondeur professionnelle et une inspiration créative, et chaque sujet a été discuté à l'extrême.
Le point culminant de la conférence a sans aucun doute été les discours du lauréat du prix Turing Yann LeCun, de Geoffrey Hinton et du fondateur d'OpenAI, Sam Altman.
Geoffrey Hinton : le risque lié à la super IA est urgent
Dans le discours de clôture du forum qui vient de se terminer, Hinton, lauréat du prix Turing et père de l'apprentissage en profondeur, a conçu un scénario qui mérite réflexion pour nous.
Oui, à son avis, cela pourrait arriver bientôt.
Comme il y a quelque temps, Hinton a démissionné de Google et a expliqué les raisons de sa démission en quelques mots. Il a exprimé ses regrets concernant le travail de sa vie et ses inquiétudes quant aux dangers de l'intelligence artificielle. Il a déclaré publiquement à plusieurs reprises que les dangers de l'intelligence artificielle pour le monde sont plus urgents que le changement climatique.
De même, lors de la conférence de Zhiyuan, Hinton a de nouveau parlé des risques liés à l'IA.
Et si un grand réseau de neurones fonctionnant sur plusieurs ordinateurs numériques pouvait acquérir des connaissances directement du monde, en plus d'imiter le langage humain pour la connaissance humaine ?
Cette idée n'est pas farfelue, si ce réseau de neurones peut effectuer une modélisation non supervisée d'images ou de vidéos, et ses copies peuvent également manipuler le monde physique.
Si une superintelligence est autorisée à formuler ses propres sous-objectifs, un sous-objectif étant de gagner plus de pouvoir, la superintelligence manipulera les humains qui l'utilisent afin d'atteindre cet objectif.
Zhang Hongjiang et Sam Altman Peak Q&A : AGI pourrait apparaître d'ici dix ans
Ce matin, Sam Altman est également apparu via un lien vidéo. C'est la première fois que Sam Altman prononce un discours public en Chine après l'explosion de ChatGPT.
La raison pour laquelle la révolution actuelle de l'IA est si percutante n'est pas seulement l'ampleur de son impact, mais aussi la vitesse des progrès. Cela apporte à la fois des dividendes et des risques.
Avec l'avènement de systèmes d'IA de plus en plus puissants, le renforcement de la coopération internationale et l'établissement d'une confiance mondiale sont primordiaux.
L'alignement est toujours un problème ouvert. GPT-4 a terminé le travail d'alignement au cours des 8 derniers mois, notamment en ce qui concerne l'évolutivité et l'explicabilité.
Dans son discours, Altman a souligné à plusieurs reprises la nécessité d'un alignement et d'une supervision de la sécurité mondiale de l'IA, et a spécifiquement cité une phrase du Tao Te Ching :
Selon lui, l'intelligence artificielle se développe à une vitesse explosive, et la super IA pourrait apparaître dans les dix prochaines années.
Par conséquent, il est nécessaire de promouvoir la sécurité des AGI, de renforcer la coopération internationale et d'aligner les déploiements de recherche pertinents.
Sam Altman estime que la coopération au sein de la communauté scientifique et technologique internationale est la première étape pour franchir une étape constructive en ce moment. En particulier, les mécanismes de transparence et de partage des connaissances pour les progrès technologiques en matière de sécurité des AGI devraient être améliorés.
En outre, Altman a mentionné que le principal objectif de recherche actuel d'OpenAI est axé sur la recherche d'alignement de l'IA, c'est-à-dire comment faire de l'IA un assistant utile et sûr.
En fin de compte, OpenAI vise à former des systèmes d'IA pour aider à la recherche d'alignement.
Après le discours, Zhang Hongjiang, président du Zhiyuan Research Institute, et Sam Altman ont ouvert un dialogue aérien pour discuter de la manière de rendre l'alignement sûr de l'IA.
En outre, il a également déclaré qu'il n'y aurait pas de GPT-5 de sitôt.
Après la réunion, Altman a publié un message pour exprimer sa gratitude d'avoir été invité à prononcer un discours à la conférence de Zhiyuan.
LeCun : toujours fan du modèle mondial
Un autre lauréat du prix Turing, LeCun, qui a pris la parole le premier jour, a continué à promouvoir son propre concept de "modèle mondial".
Il a expliqué que l'IA ne peut pas raisonner et planifier comme les humains et les animaux, en partie parce que les systèmes d'apprentissage automatique actuels ont des étapes de calcul essentiellement constantes entre l'entrée et la sortie.
Comment une machine peut-elle comprendre le fonctionnement du monde, prédire les conséquences d'actions comme les humains, ou le décomposer en plusieurs étapes pour planifier des tâches complexes ?
LeCun a déclaré qu'il a déterminé que les trois principaux défis de l'intelligence artificielle dans les prochaines années sont d'apprendre la représentation du monde, de prédire le modèle du monde et d'utiliser l'apprentissage auto-supervisé.
La clé de la construction d'une IA au niveau humain peut être la capacité d'apprendre un "modèle mondial".
Parmi eux, le "modèle du monde" se compose de six modules indépendants, dont : le module de configuration, le module de perception, le modèle du monde, le module de coût, le module d'acteur et le module de mémoire à court terme.
Lorsqu'on lui a demandé si le système d'IA poserait un risque existentiel pour les humains, LeCun a répondu que nous n'avions pas encore de super IA, alors comment pouvons-nous rendre le système de super IA sûr ?
** "L'événement d'expert en IA" le mieux adapté **
On peut dire que la vigoureuse conférence de Zhiyuan 2023 est la conférence de plus haut niveau et la plus regardée dans le domaine national de l'IA cette année.
Dès le début de sa création, les caractéristiques essentielles de la conférence Zhiyuan sont très claires : académique, professionnelle, avant-gardiste.
En un clin d'œil, cet événement annuel pour les experts de l'IA en est à sa cinquième année.
Cette fois, la conférence de Zhiyuan 2023 perpétue la tradition de chaque conférence de Zhiyuan, et le sens de l'atmosphère académique est toujours écrasant.
En 2022, deux lauréats du prix Turing Yann LeCun et Adi Shamir, le père de l'apprentissage par renforcement Richard Sutton, l'académicien américain Michael I. Jordan, la lauréate du prix Gödel Cynthia Dwork et d'autres poids lourds ont partagé.
Et d'ici 2023, ce sera sans aucun doute la session "la plus étoilée".
Il y a 4 lauréats du prix Turing Yann LeCun, Geoffrey Hinton, Joseph Sifakis et Yao Qizhi, ainsi que le fondateur d'OpenAI Sam Altman, le lauréat du prix Nobel Arieh Warshel, le fondateur du Future Life Institute Max Tegmark et le lauréat 2022 du Wu Wenjun Supreme Achievement Award Zheng Nanning Academicians et l'académicien Zhang Bo de l'Académie chinoise des sciences y ont participé.
"Enlightenment 3.0" est une série de modèles à grande échelle.
Plus précisément, il comprend la série de modèles à grande échelle en langage Aquila, le système d'évaluation de modèles à grande échelle Flag, la série de modèles visuels à grande échelle "Enlightenment · Vision" et la série de modèles multimodaux à grande échelle.
Série de grands modèles de langue
Lumières·Aquila : licence commerciale entièrement ouverte
Le premier est le modèle de la série Aquila, qui est le premier modèle de langage open source avec des connaissances bilingues en chinois et en anglais et prend en charge les exigences nationales de conformité des données, et a des licences commerciales entièrement ouvertes.
Cette open source comprend le modèle de base de 7 milliards de paramètres et 33 milliards de paramètres, le modèle de dialogue AquilaChat et le modèle de génération "text-code" AquilaCode.
Des performances plus solides
Techniquement, le modèle de base Aquila (7B, 33B) hérite techniquement des avantages de conception architecturale de GPT-3, LLaMA, etc., remplace un lot d'implémentations d'opérateurs de bas niveau plus efficaces, redessine et implémente un tokenizer bilingue chinois-anglais, The La méthode de formation parallèle BMTrain a été améliorée et, dans le processus de formation d'Aquila, l'efficacité de la formation est près de 8 fois supérieure à celle de Magtron + DeepSpeed ZeRO-2.
Concrètement, la première consiste à bénéficier d'une nouvelle technique pour accélérer le cadre de formation en parallèle.
L'année dernière, Zhiyuan a ouvert le projet open source d'algorithmes de grands modèles FlagAI, qui a intégré une nouvelle méthode de formation parallèle telle que BMTrain. Au cours du processus de formation, son calcul et sa communication ainsi que les problèmes de chevauchement sont encore optimisés.
Deuxièmement, Zhiyuan a pris l'initiative d'introduire la technologie d'optimisation des opérateurs et l'a intégrée à des méthodes d'accélération parallèles pour accélérer encore les performances.
Apprendre le chinois et l'anglais en même temps
Pourquoi la sortie d'Aquila est-elle si encourageante ?
Parce que de nombreux grands modèles "n'apprennent que l'anglais" - uniquement sur la base d'une grande quantité de formation de corpus en anglais, mais Aquila doit apprendre à la fois le chinois et l'anglais.
Vous en avez peut-être fait l'expérience vous-même : quand on apprend des connaissances, ce n'est pas un problème si vous continuez à utiliser l'anglais tout le temps, mais si vous apprenez l'anglais puis apprenez le chinois, la difficulté sera écrasante.
Par conséquent, par rapport aux modèles basés sur l'anglais tels que LLaMA et OPT, la difficulté de formation d'Aquila, qui doit apprendre à la fois le chinois et l'anglais, a augmenté plusieurs fois.
Afin d'optimiser Aquila pour les tâches chinoises, Zhiyuan a mis près de 40% du corpus chinois dans son corpus d'entraînement. La raison en est que Zhiyuan espère qu'Aquila pourra non seulement générer du chinois, mais aussi comprendre beaucoup de connaissances natives du monde chinois.
En outre, Zhiyuan a également repensé et mis en œuvre le tokenizer bilingue chinois-anglais (tokenizer), qui consiste à mieux reconnaître et prendre en charge la segmentation des mots chinois.
Dans le processus de formation et de conception, pour les tâches chinoises, l'équipe de Zhiyuan pèse délibérément les deux dimensions de qualité et d'efficacité pour déterminer la taille du tokenizer.
Le modèle de dialogue AquilaChat (7B, 33B) construit sur la base du modèle de base Aquila prend en charge un dialogue textuel fluide et des tâches de génération multilingues.
De plus, en définissant des spécifications d'instructions spéciales extensibles, AquilaChat peut être utilisé pour appeler d'autres modèles et outils, et il est facile à étendre.
Par exemple, le modèle de génération de texte et d'image multilingue AltDiffusion open source de Zhiyuan est utilisé pour réaliser des capacités de génération de texte et d'image fluides. Coopérant avec le modèle de graphique Vincent contrôlable en plusieurs étapes Zhiyuan InstructFace, il peut également réaliser facilement une édition contrôlable en plusieurs étapes des images de visage.
Le modèle de génération de "code texte" AquilaCode-7B, basé sur les puissantes capacités de modèle de base d'Aquila-7B, atteint des performances élevées avec un petit ensemble de données et une petite quantité de paramètres. C'est actuellement le meilleur modèle de code open source qui prend en charge le chinois Après un filtrage de haute qualité, la formation est effectuée à l'aide de données de code de formation avec des licences open source conformes.
Corps chinois plus conforme et plus propre
Par rapport aux modèles open source étrangers, la caractéristique la plus distinctive d'Aquila est qu'il prend en charge les exigences nationales de conformité des données.
Les modèles étrangers à grande échelle peuvent avoir certaines capacités chinoises, mais presque toutes les données Internet chinoises utilisées par les modèles étrangers à grande échelle open source sont extraites d'ensembles de données Internet tels que Common Crawl.
Cependant, si nous analysons le corpus Common Crawl, nous pouvons constater qu'il y a moins de 40 000 pages Web chinoises disponibles dans ses 1 million d'entrées, et 83% d'entre elles sont des sites Web étrangers, ce qui est évidemment une qualité incontrôlable.
Par conséquent, Aquila n'a utilisé aucun corpus chinois dans Common Crawl, mais a utilisé l'ensemble de données Wudao de Zhiyuan accumulé au cours des trois dernières années. L'ensemble de données chinois Wudao provient de plus de 10 000 sites Web chinois continentaux, de sorte que ses données chinoises répondent aux exigences de conformité et sont plus propres.
En général, cette version n'est qu'un point de départ. L'objectif de Zhiyuan est de créer un ensemble complet de grands pipelines d'évolution et d'itération de modèles, afin que le grand modèle continue de croître avec l'ajout de plus de données et de plus de fonctionnalités, et il continuera être open source et ouvert.
Il est à noter qu'Aquila est disponible sur les cartes graphiques grand public. Par exemple, le modèle 7B peut fonctionner sur une mémoire vidéo de 16 Go ou même plus petite.
Système d'évaluation de grands modèles de bibliothèque (drapeau)
Un système d'évaluation des modèles à grande échelle sûr, fiable, complet et objectif est également très important pour l'innovation technologique et la mise en œuvre industrielle des modèles à grande échelle.
Tout d'abord, pour la communauté académique, si vous voulez promouvoir l'innovation des grands modèles, vous devez disposer d'une règle pour mesurer les capacités et la qualité des grands modèles.
Deuxièmement, pour l'industrie, la grande majorité des entreprises choisiront d'utiliser directement les grands modèles existants au lieu de les développer à partir de zéro. Lors de la sélection, un système d'évaluation est nécessaire pour aider à juger. Après tout, les grands modèles de base auto-développés dépendent d'énormes coûts de puissance de calcul. Pour développer un modèle avec 30 milliards de paramètres, les fonds nécessaires incluent la puissance de calcul, les données, etc., au moins 20 millions.
En outre, s'il est possible de construire un système d'évaluation de modèle complet à grande échelle "d'évaluation automatisée + évaluation subjective manuelle", et de réaliser la boucle fermée automatique des résultats d'évaluation à l'analyse des capacités du modèle, puis à l'amélioration des capacités du modèle, a devenir un aspect important de l'innovation de base des modèles à grande échelle.
Afin de résoudre ce problème, le Zhiyuan Research Institute a choisi de donner la priorité au lancement du système d'évaluation de modèles à grande échelle Libra (Flag) et de la plate-forme ouverte (flag.baai.ac.cn).
Plus précisément, le système d'évaluation de modèle à grande échelle Flag construit de manière innovante un cadre d'évaluation tridimensionnel de "capacité-tâche-indicateur", qui peut décrire avec précision la limite de capacité cognitive du modèle de base et visualiser les résultats de l'évaluation.
Actuellement, le système d'évaluation du modèle à grande échelle Flag comprend un total de plus de 600 dimensions d'évaluation, dont 22 ensembles de données d'évaluation et 84 433 questions, et des ensembles de données d'évaluation plus dimensionnels sont progressivement intégrés.
En outre, le système d'évaluation des modèles à grande échelle Flag continuera d'explorer la recherche interdisciplinaire entre l'évaluation des modèles linguistiques à grande échelle et les disciplines sociales telles que la psychologie, l'éducation et l'éthique, afin d'évaluer les modèles linguistiques à grande échelle de manière plus complète et scientifique. .
Visualisation des séries grand modèle
En termes de vision par ordinateur, l'équipe Enlightenment 3.0 a créé la série "Enlightenment Vision" de grands modèles avec une perception générale de la scène et des capacités de traitement de tâches complexes.
Parmi eux, c'est la technologie SOTA de ces 6 rafales qui construit la base sous-jacente de "Enlightenment·Vision":
Grand modèle multimodal "Emu", grand modèle pré-entraîné "EVA", modèle visuel général multi-tâches "Painter", modèle de segmentation de la vision générale, grand modèle graphique de pré-formation "EVA-CLIP" et technologie de montage vidéo "vid2vid -zéro ".
1. Emu : tout terminer dans une séquence multimodale
Une fois la formation terminée, Emu peut tout compléter dans le contexte de séquences multimodales, percevoir, raisonner et générer des données de diverses modalités telles que des images, des textes et des vidéos, et effectuer plusieurs séries de dialogues graphiques-textes et de graphiques à quelques échantillons. -compréhension de texte, question et réponse vidéo, génération de texte à image, génération d'image à image et autres tâches multimodales.
2. EVA : le modèle de base visuel le plus puissant à un milliard de niveaux
Adresse papier :
EVA combine le modèle d'apprentissage sémantique (CLIP) et la méthode d'apprentissage de la structure géométrique (MIM), et étend le modèle ViT standard à 1 milliard de paramètres pour la formation. D'un seul coup, il a atteint les meilleures performances à l'époque dans un large éventail de tâches de perception visuelle telles que la classification ImageNet, la détection et la segmentation COCO et la classification vidéo Kinetics.
3. EVA-CLIP : le modèle CLIP open source le plus puissant
Adresse papier :
EVA-CLIP, développé avec le modèle de vision de base EVA comme noyau, a été itéré à 5 milliards de paramètres.
Comparé à l'OpenCLIP précédent avec un taux de précision de 80,1 %, le modèle EVA-CLIP a un taux de précision de 82,0 % dans le top1 à échantillon zéro ImageNet1K. En termes de précision ImageNet kNN, le dernier modèle DINOv2 de Meta est comparable à l'EVA-CLIP à 1 milliard de paramètres.
4. Peintre : la première voie technologique "d'apprentissage contextuel de l'image"
Adresse papier :
L'idée centrale du modèle visuel général La modélisation de Painter est "centrée sur la vision", en utilisant des images comme entrée et sortie pour obtenir des informations visuelles contextuelles, afin d'accomplir différentes tâches visuelles.
5. Modèle de segmentation universel d'Horizons : tout-en-un, tout diviser
Pour le dire simplement, les utilisateurs marquent et reconnaissent une classe d'objets à l'écran, et ils peuvent identifier et segmenter des objets similaires par lots, que ce soit dans l'écran actuel ou dans d'autres écrans ou environnements vidéo.
6. vid2vid-zero : la première technologie de montage vidéo sans échantillon du secteur
Lien papier :
Site de démonstration :
La technologie de montage vidéo à échantillon zéro "vid2vid-zero" utilise pour la première fois les caractéristiques dynamiques du mécanisme d'attention, combinées au modèle de diffusion d'image existant, pour créer un modèle de cadre pour le montage vidéo sans pré-formation vidéo supplémentaire. Maintenant, téléchargez simplement une vidéo, puis entrez une chaîne d'invites de texte, vous pouvez éditer la vidéo avec des attributs spécifiés.
L'éclaireur de la recherche sur les modèles à grande échelle en Chine
L'Institut de recherche Zhiyuan, créé en novembre 2018, est le pionnier de la recherche sur modèles à grande échelle en Chine. Après cinq ans de développement, il est devenu une référence pour la recherche sur modèles à grande échelle en Chine.
Ce qui le différencie des autres institutions, c'est que l'Institut de recherche Zhiyuan est une institution plate-forme. Au début de sa création, l'Institut de recherche Zhiyuan a fait de la création d'un écosystème d'innovation en intelligence artificielle l'une de ses missions et tâches fondamentales.
Comment Zhiyuan a-t-il promu le développement de la recherche sur modèles à grande échelle en Chine depuis sa création ?
En parlant de cela, la direction principale de la recherche OpenAI établie en 2015 est d'explorer la voie vers l'IAG, et ce n'est pas un grand modèle.
Après 2018, OpenAI a commencé à se concentrer sur les grands modèles et a publié GPT avec 117 millions de paramètres en juin. La même année, Google a également publié un modèle de langage pré-formé à grande échelle BERT avec 300 millions de paramètres.
Tout le monde a remarqué que toute la tendance de l'industrie et de la technologie en 2018 est de fabriquer un modèle plus grand.
Au fur et à mesure que la puissance de calcul utilisée par le modèle augmente, la loi de Moore devient la soi-disant "loi modèle", c'est-à-dire que la puissance de calcul utilisée pour former un grand modèle double en 3-4 mois.
En conséquence, en 2021, Zhiyuan a successivement sorti deux grands modèles d'Enlightenment 1.0 et d'Enlightenment 2.0.
Selon Huang Tiejun, lors de la conférence de presse Enlightenment 1.0 en mars 2021, Zhiyuan Research a jugé que l'intelligence artificielle est passée d'un "grand modèle" à une nouvelle étape de "grand modèle". Depuis lors, le concept de "grand modèle" a entré dans la vision publique.
Chaque année lors de la Conférence de Zhiyuan, les trois grandes voies techniques pour gravir le sommet de l'AGI seront relatées : grands modèles, life intelligence et AI4Science. Ces trois voies ne sont pas isolées, elles interagissent et s'influencent mutuellement.
Les données linguistiques elles-mêmes contiennent des connaissances et une intelligence riches, qui sont extraites à l'aide de modèles à grande échelle, et les réseaux de neurones sont utilisés pour exprimer les lois qui sous-tendent les données complexes.
C'est une raison raisonnable pour laquelle l'une des voies techniques du grand modèle peut conduire à l'AGI.
Cela explique également pourquoi Zhiyuan s'est initialement concentré sur le grand modèle. En mars 2021, Enlightenment 1.0 est sorti, suivi par Enlightenment 2.0 en juin.
De plus, en plus du grand modèle, Zhiyuan explore également en permanence les deux autres voies menant à l'AGI, "Life Intelligence" et "AI4Science".
En 2022, Zhiyuan a publié la simulation la plus précise de Caenorhabditis elegans. Cette fois, Zhiyuan a ouvert la plate-forme de simulation de vie "eVolution-eVolution" utilisée dans l'étude des nématodes artificiels pour fournir des services en ligne.
Tianyan est une plate-forme de simulation de réseaux de neurones fins à très grande échelle, avec quatre caractéristiques notables : la plate-forme la plus efficace pour la simulation de réseaux de neurones fins ; prise en charge de la simulation de réseaux de neurones à très grande échelle ; fournir un ensemble d'outils de modélisation et de simulation en ligne à guichet unique ; L'interaction visuelle de haute qualité prend en charge la simulation en temps réel et le fonctionnement collaboratif visuel.
Basé sur la plate-forme Tianyan, il réalise une simulation de haute précision de l'intelligence biologique, explore l'essence de l'intelligence et promeut l'intelligence artificielle générale inspirée de la biologie. De plus, l'équipe de Tianyan a connecté Tianyan à la nouvelle génération de supercalculateur exascale de mon pays - le supercalculateur de nouvelle génération Tianhe.
Grâce au déploiement et à l'exploitation réussis de "Tianyan-Tianhe", la simulation de modèles tels que le réseau fin du cortex visuel du cerveau de souris V1 peut être réalisée, et la consommation d'énergie de calcul peut être réduite de plus de 10 fois, et la vitesse de calcul peut être augmenté de plus de 10 fois, atteignant le niveau le plus extrême au monde La performance de la simulation de réseau de neurones fins jette une base solide pour la réalisation d'une simulation fine de l'ensemble du cerveau humain.
Maintenant, deux ans plus tard, Zhiyuan a de nouveau publié la série de grands modèles Enlightenment 3.0.
En termes de positionnement, depuis la sortie d'Enlightenment 2.0, Zhiyuan, en tant qu'organisation de plate-forme à but non lucratif, non seulement fabrique des modèles et des modèles, mais apporte également progressivement des contributions uniques à la construction de l'écologie centrale des grands modèles.
Parmi eux, il comprend le tri des données derrière le modèle, les tests de modèles, les tests d'algorithmes, les organisations open source et ouvertes, et une disposition complète des plates-formes de puissance de calcul.
Pourquoi Zhiyuan a-t-il fait un tel changement ?
Parce que Zhiyuan comprend profondément que le grand modèle lui-même n'est pas la forme de produit la plus importante de l'ère des grands modèles, mais une nouvelle ère caractérisée par la systématisation et les services intellectuels.
À l'heure actuelle, le grand modèle continuera d'évoluer, et ce qui reste inchangé, c'est l'itération technique qui le sous-tend, c'est-à-dire l'algorithme d'entraînement du modèle.
Le dernier modèle que vous voyez tous les jours n'est qu'un résultat figé. Ce qui compte, c'est de savoir si l'algorithme de formation du modèle est avancé, si le coût est effectivement réduit et si la capacité sous-jacente est explicable et contrôlable.
Par conséquent, en tant qu'organisation de plate-forme, ce que Zhiyuan doit faire est de rassembler les algorithmes des modèles de formation de l'industrie en un tout itératif.
Ce travail est nécessaire. Zhiyuan travaille non seulement sur l'algorithme du modèle à grande échelle lui-même, mais consacre également plus de temps et d'énergie au développement du système technique du modèle à grande échelle.
Par exemple, Zhiyuan a lancé une plate-forme de services de cloud computing à grande échelle "Jiuding Smart Computing Platform" pour fournir une puissance de calcul, des données et un support d'algorithmes pour la formation de modèles à grande échelle.
Bien sûr, ce n'est pas seulement la force de Zhiyuan, mais aussi celle des instituts de recherche industriels-universitaires de collaborer et d'itérer de manière ouverte.
En mars de cette année, Zhiyuan a lancé le système open source de technologie de modèle à grande échelle FlagOpen Feizhi, qui est un système logiciel open source et ouvert pour les modèles à grande échelle construit conjointement avec un certain nombre d'unités de recherche industrielles et universitaires.
Vous vous demandez peut-être quelle est la principale caractéristique de la conférence de Zhiyuan de cette année par rapport aux précédentes ?
Le style est cohérent, résumé en deux mots : professionnel et épuré.
La conférence de Zhiyuan s'est tenue sans aucun objectif réaliste et n'a prêté aucune attention aux produits et aux investisseurs.
Ici, les leaders de l'industrie peuvent présenter des opinions personnelles et porter des jugements d'un point de vue professionnel, et bien sûr inclure des collisions et des débats d'opinions de haut niveau, sans avoir à prendre en compte de nombreux facteurs réalistes.
Le "parrain de l'IA" Geoffrey Hinton a participé pour la première fois à la conférence de Zhiyuan cette année. Il y a quelque temps, il a démissionné de Google parce qu'il regrettait l'œuvre de sa vie. Il a publié les dernières vues sur la sécurité de l'intelligence artificielle.
Comme toujours, "l'optimiste" Yann LeCun ne s'inquiétera pas des risques de l'intelligence artificielle comme la plupart des gens. Selon lui, il est déraisonnable de freiner avant que la voiture ne soit construite. À l'heure actuelle, des efforts devraient être faits pour développer une technologie d'IA plus avancée. et algorithmes.
Dans le même temps, vous assisterez également à une confrontation féroce des points de vue lors de la réunion. Max Tegmark sur le contrôle des risques liés à l'IA. Bien qu'on ne puisse pas dire qu'il soit complètement opposé à LeCun, il existe également de grandes différences.
C'est le point culminant de la conférence de Zhiyuan, et c'est aussi un style cohérent.
La singularité de ce positionnement est devenue de plus en plus importante ces dernières années.
Le développement de l'intelligence artificielle a un impact croissant sur le monde et la Chine, donc tout le monde a besoin d'une occasion d'exprimer ses opinions de manière pure, y compris les collisions idéologiques et les débats houleux.
La signification de cela est que seules les conférences plus professionnelles, plus pures, plus neutres et plus ouvertes sont plus propices pour que chacun puisse mieux appréhender une telle ère de développement rapide.
Dans les pays étrangers, la conférence de Zhiyuan jouit également d'une excellente réputation.Les organisations internationales considèrent la conférence de Zhiyuan comme une fenêtre de coopération avec la Chine dans la recherche sur l'intelligence artificielle.
L'origine du nom Zhiyuan est aussi la source de l'intelligence. Par conséquent, la tenue de la conférence de Zhiyuan est devenue un événement historique pour promouvoir le développement écologique de l'intelligence artificielle.
La forte liste d'invités, la richesse de la définition des sujets et la profondeur des discussions sur le contenu ont créé une conférence Zhiyuan unique.
Cet événement exclusif aux experts de l'IA est devenu une carte de visite brillante dans le domaine de l'IA en Chine.
Les références: