Matt Shumer habla sobre HyperWrite 70B. El fundador y CEO de OthersideAI, también conocido como el producto de asistencia de escritura de IA firmado HyperWrite, ha roto su silencio de casi dos días después de ser acusado de fraude cuando los investigadores de terceros no pudieron replicar el supuesto rendimiento superior del nuevo modelo de lenguaje grande (LLM) que lanzó el jueves 5 de septiembre.
Contenido
El modelo de IA HyperWrite 70B: ¿qué pasó?
En su cuenta en la red social X, Shumer se disculpó y afirmó que «Me adelanté a mí mismo», agregando «Sé que muchos de ustedes están emocionados con el potencial de esto y ahora están escépticos». Sin embargo, sus últimas declaraciones no explican por qué su modelo, Reflection 70B, que afirmó ser una variante de Meta’s Llama 3.1 entrenado utilizando la plataforma de generación de datos sintéticos Glaive AI, no ha funcionado tan bien como originalmente se afirmó en todos los tests independientes posteriores. Ni Shumer ha aclarado con precisión qué fue lo que salió mal. Aquí hay un resumen de lo que sucedió:
El jueves 5 de septiembre, Shumer lanzó Reflection 70B, en la comunidad de código abierto de AI Hugging Face, llamándolo «el modelo de código abierto más capaz del mundo» en un post en X y publicando un gráfico de lo que dijo eran sus resultados de estado del arte en terceros marcos de referencia. Shumer afirmó que el rendimiento impressionante se logró mediante una técnica llamada «tuning de reflexión», que permite al modelo evaluar y afinar sus respuestas para la corrección antes de enviarlas a los usuarios.
VentureBeat entrevistó a Shumer y aceptó sus marcos de referencia como él los presentó, creditándolos a él, ya que no tienen el tiempo ni los recursos para realizar sus propios tests de benchmarking independientes – y la mayoría de los proveedores de modelos que hemos cubierto hasta ahora han sido transparentes.
El fracaso de HyperWrite 70B y sus consecuencias
Sin embargo, solo días después de su debut y durante el fin de semana, evaluadores de terceros independientes y miembros de la comunidad de código abierto de AI en Reddit y Hacker News comenzaron a cuestionar el desempeño del modelo y no pudieron replicarlo en sus propios tests. Algunos incluso encontraron respuestas y datos que indicaban que el modelo estaba relacionado con – quizás sólo un «envoltorio delgado» – con el modelo de Anthropic Claude 3.5 Sonnet.
La crítica aumentó después de que Artificial Analysis, una organización de evaluación de AI independiente, publicó en X que sus tests de Reflection 70B dieron resultados significativamente más bajos que los inicialmente afirmados por HyperWrite. Además, Shumer fue encontrado invertido en Glaive, la startup de AI que dijo utilizar para entrenar el modelo, lo que no reveló al lanzar Reflection 70B.
Matt Shumer se disculpa y promete mejorar
Shumer atribuyó las desviaciones a problemas durante el proceso de carga del modelo a Hugging Face y prometió corregir los pesos del modelo la semana pasada, pero aún no lo ha hecho. Un usuario de X, Shin Megami Boson, acusó abiertamente a Shumer de «fraude en la comunidad de investigación de AI» el domingo 8 de septiembre. Shumer no respondió directamente a esta acusación.
Después de publicar y reproducir varios mensajes de X relacionados con Reflection 70B, Shumer se quedó en silencio el domingo por la noche y no respondió a la solicitud de comentarios de VentureBeat – ni publicó ningún post en X – hasta esta noche, martes 10 de septiembre.
El modelo de IA HyperWrite 70B: características y funcionalidades
La tecnología detrás de HyperWrite 70B
Shumer atribuyó las capacidades del modelo a una nueva técnica de entrenamiento llamada «tuning de reflexión». Este proceso de dos etapas enseña a los modelos a reconocer y corregir sus propios errores antes de proporcionar una respuesta final. El modelo primero genera una respuesta preliminar. Luego, reflexiona sobre esta respuesta, identificando posibles errores o inconsistencias, y produce una versión corregida. Los modelos de lenguaje existentes a menudo «alucinan» hechos sin reconocer el problema. El tuning de reflexión busca ayudar a Reflection 70B a corregir sus errores.
Cómo funcionaba el modelo de IA
El modelo de IA HyperWrite 70B utilizaba una técnica llamada «tuning de reflexión» para mejorar su rendimiento. Esta técnica consiste en una etapa de planificación y otra de respuesta. El modelo primero genera una respuesta preliminar, luego reflexiona sobre esta respuesta y la corrige si es necesario. Esto ayuda a evitar que el modelo «alucine» hechos y a mejorar la precisión de sus respuestas.
Las expectativas y promesas de HyperWrite 70B
Shumer afirmó que Reflection 70B podía competir con los modelos de lenguaje cerrados más avanzados, como Claude 3.5 Sonnet y GPT-4o. También afirmó que el modelo podía superar a Llama 3.1 405B en varios marcos de referencia, incluyendo MMLU, MATH, IFEval y GSM8K.
El futuro de HyperWrite 70B y la industria de la IA
¿Qué pasará con el modelo de IA HyperWrite 70B?
El futuro de HyperWrite 70B es incierto. Shumer ha prometido mejorar el modelo y proporcionar más información sobre su rendimiento. Sin embargo, la crítica y las acusaciones de fraude han generado una gran cantidad de especulación y debate en la comunidad de AI.
La importancia de la transparencia en la IA
La transparencia es fundamental en la industria de la IA. Los desarrolladores de modelos de lenguaje deben ser transparentes sobre sus métodos y resultados. Esto ayuda a construir confianza en la comunidad y a evitar la especulación y el debate innecesarios.
Cómo mejorar la confiabilidad de los modelos de IA
Para mejorar la confiabilidad de los modelos de IA, es importante utilizar técnicas de entrenamiento y evaluación rigurosas. Esto incluye utilizar marcos de referencia independientes y terceros, así como evaluar el rendimiento de los modelos en diferentes escenarios y contextos. También es importante ser transparentes sobre los métodos y resultados del entrenamiento y la evaluación.
Técnica de entrenamiento | Ventajas | Desventajas |
---|---|---|
Tuning de reflexión | Mejora la precisión y la confiabilidad del modelo | Puede ser costoso y complejo de implementar |
Entrenamiento con datos sintéticos | Permite la creación de datos personalizados y controlados | Puede ser difícil de replicar en entornos reales |
Marca de referencia | Descripción | Ventajas | Desventajas |
---|---|---|---|
MMLU | Evaluación de la precisión y la consistencia del modelo | Fácil de implementar y reproducir | Puede ser sesgado hacia modelos con un enfoque en la precisión |
GSM8K | Evaluación de la capacidad del modelo para generar texto coherente | Fácil de implementar y reproducir | Puede ser sesgado hacia modelos con un enfoque en la coherencia |
Recursos adicionales | Descripción | Ventajas | Desventajas |
---|---|---|---|
Hugging Face | Plataforma de código abierto para compartir y reproducir modelos de lenguaje | Fácil de utilizar y reproducir | Puede ser limitado en términos de recursos y capacidades |
Scale AI | Proveedor de servicios de evaluación y entrenamiento de modelos de lenguaje | Ofrece recursos y capacidades avanzadas | Puede ser costoso y complejo de utilizar |