¿GPT-4 es un modelo mixto de 8x220 mil millones de parámetros? Este chisme se volvió loco hoy

Question

Fuente: Corazón de la máquina> George Hotz: A excepción de Apple, la razón por la que la mayoría de las empresas mantienen el secreto no es para ocultar alguna tecnología negra, sino para ocultar algunas cosas "no tan geniales".“El volumen de parámetros de GPT-4 es tan alto como 100 trillones.” Creo que muchas personas aún recuerdan las noticias “pesadas” que pasaron por la pantalla a principios de este año y un gráfico que se difundió de forma viral.![](https://img.gateio.im/social/moments-bab2147faf-c6ea22b629-dd1a6f-62a40f) Pero pronto, el CEO de OpenAI, Sam Altman, salió a refutar los rumores, confirmó que se trata de una noticia falsa y dijo: "Los rumores sobre GPT-4 son ridículos. Ni siquiera sé de dónde vienen".De hecho, mucha gente cree y difunde tales rumores porque la comunidad de IA ha estado aumentando el tamaño de los parámetros de los modelos de IA en los últimos años. El Switch Transformer lanzado por Google en enero de 2021 elevó los parámetros del modelo grande de IA a 1,6 billones. Desde entonces, muchas instituciones han lanzado sucesivamente sus propios modelos grandes de billones de parámetros. En base a esto, la gente tiene todas las razones para creer que GPT-4 será un modelo enorme con billones de parámetros, y 100 billones de parámetros no es imposible.Aunque el rumor de Sam Altman nos ayudó a deshacernos de una respuesta incorrecta, el equipo de OpenAI detrás de él no ha dicho nada acerca de los parámetros reales de GPT-4, e incluso el informe técnico oficial de GPT-4 no reveló ninguna información.Hasta hace poco, se sospechaba que este misterio había sido descubierto por el "genio hacker" George Hotz.George Hotz es famoso por crackear el iPhone a los 17 años y hackear la Sony PS3 a los 21. Actualmente es el jefe de una empresa (comma.ai) que desarrolla sistemas automáticos de asistencia a la conducción.Recientemente fue entrevistado por un podcast de tecnología de inteligencia artificial llamado Latent Space. En la entrevista, habló sobre GPT-4 y dijo que GPT-4 es en realidad un modelo híbrido. Específicamente, utiliza un sistema conjunto de 8 modelos expertos, cada uno con 220 000 millones de parámetros (un poco más que los 175 000 millones de parámetros de GPT-3), y estos modelos han sido entrenados en diferentes entrenamientos de distribución de datos y tareas.![](https://img.gateio.im/social/moments-bab2147faf-7913ab5955-dd1a6f-62a40f) Después de la transmisión de este podcast, el creador de PyTorch, Soumith Chintala, dijo que parecía haber escuchado el mismo "rumor", y es posible que muchas personas lo hayan escuchado, pero solo George Hotz lo dijo en público.![](https://img.gateio.im/social/moments-bab2147faf-e857d562e9-dd1a6f-62a40f) "Los modelos híbridos son los que consideras cuando no tienes nada que hacer", bromeó George Hotz. "Los modelos híbridos surgen porque no puedes hacer que el modelo tenga más de 220 000 millones de parámetros. Quieren que el modelo sea mejor, pero si es solo que el tiempo de entrenamiento es más largo y el efecto ha disminuido. Por lo tanto, adoptaron ocho modelos expertos para mejorar el rendimiento". En cuanto a cómo funciona este modelo híbrido, George Hotz no dio más detalles.![](https://img.gateio.im/social/moments-bab2147faf-20616686e1-dd1a6f-62a40f) ¿Por qué OpenAI es tan reservado sobre esto? George Hotz cree que, a excepción de Apple, la razón por la que la mayoría de las empresas mantienen el secreto no es para ocultar alguna tecnología negra, sino para ocultar algunas cosas "no tan interesantes", y no quiere que los demás sepan que "siempre que gaste 8 veces el dinero, puedes conseguir este modelo".En cuanto a la tendencia futura, cree que la gente entrenará modelos más pequeños y mejorará el rendimiento a través de ajustes a largo plazo y descubriendo varios trucos. Mencionó que, en comparación con el pasado, el efecto del entrenamiento ha mejorado significativamente, aunque los recursos informáticos no han cambiado, lo que demuestra que la mejora del método de entrenamiento ha jugado un papel importante.En la actualidad, las "noticias de última hora" de George Hotz sobre GPT-4 se han difundido ampliamente en Twitter.![](https://img.gateio.im/social/moments-bab2147faf-195a7471f0-dd1a6f-62a40f) Alguien se inspiró y afirmó entrenar un conjunto LLaMA contra GPT-4.![](https://img.gateio.im/social/moments-bab2147faf-caf5535cca-dd1a6f-62a40f) También se dice que si, como decía George Hotz, GPT-4 es un modelo híbrido compuesto por 8 modelos expertos con 220 mil millones de parámetros, es difícil imaginar lo caro que es el razonamiento que hay detrás.![](https://img.gateio.im/social/moments-bab2147faf-f62695f724-dd1a6f-62a40f) Cabe señalar que dado que George Hotz no mencionó la fuente, actualmente no podemos juzgar si la afirmación anterior es correcta.