ChatGPT 8º lugar en ranking de 27 modelos de IA: descubre quiénes lo superaron


La clasificación de modelos de inteligencia artificial (IA) puede resultar complicada, pero a menudo revela información esclarecedora sobre sus capacidades y rendimiento. Recientemente, un ranking impulsado por la experiencia del usuario ha colocado a ChatGPT en una inesperada 8ª posición entre 27 modelos de IA analizados. Este artículo explora los detalles del ranking y quiénes lograron superarlo.
Análisis de Modelos de IA
El panorama de la IA puede asemejarse al "oeste salvaje" en términos de innovación y competencia, pero existen iniciativas dirigidas a establecer métricas objetivas de rendimiento. Estas iniciativas no solo son impulsadas por las mismas compañías, sino también por organizaciones independientes que buscan ofrecer un panorama claro de las capacidades de diversas herramientas de IA.
Se evalúan diversas habilidades, desde la capacidad de un chatbot para realizar cálculos matemáticos, generar imágenes, demostrar razonamiento, ofrecer consejos médicos, hasta su inteligencia emocional. En estos ensayos, los modelos muestran variaciones en rendimiento, evidenciando sus fortalezas y debilidades. Por ejemplo, mientras que el modelo GPT-5 destaca en razonamiento científico, se ha visto superado por modelos como Gemini y Claude en su capacidad para adaptarse a nuevos conceptos.
Sin embargo, una de las métricas que a menudo falta en estas evaluaciones es, sencillamente, ¿qué modelos de IA ofrecen la mejor experiencia al usuario?
El Sistema de Ranking Humaine
Una empresa tecnológica del Reino Unido llamada Prolific ha desarrollado un leaderboard denominado Humaine. A diferencia de otras evaluaciones que se centran en la capacidad de la IA para realizar tareas, Prolific ha priorizado las experiencias de los usuarios con diferentes modelos.
Evaluando las experiencias de 21,352 personas que utilizaron 21,352 interacciones con las herramientas, se pudo determinar un ganador general y desglosar los resultados según edad, ubicación (con pruebas realizadas en el Reino Unido y EE.UU.) y creencias políticas.
Se realizaron listas individuales que abarcan:
- Reino Unido: grupos de edad
- Reino Unido: etnicidad
- Reino Unido: opinión política
- EE.UU.: grupos de edad
- EE.UU.: etnicidad
- EE.UU.: opinión política
Los participantes interactuaron con dos modelos de IA de manera comparativa, proporcionando retroalimentación sobre cuál fue mejor en cada interacción. Esto no solo resultó en un ganador general y un sitio en la tabla de rendimiento, sino también clasificaciones separadas para el desempeño en tareas centrales y razonamiento, así como un reconocimiento para la comunicación, fluidez, confianza y ética.
Resultados del Ranking
Tras la realización de la encuesta, emergió un claro ganador, no solo en la categoría de rendimiento general, sino en la mayoría de las subcategorías. El modelo Gemini 2.5-Pro se afirmó en la cima en casi todas las evaluaciones que ofreció el test. Las opiniones fueron consistentes entre distintos grupos demográficos, incluyendo a jóvenes de 18 a 34 años en el Reino Unido, votantes demócratas y personas de más de 55 años en EE.UU., todos coincidiendo en que Gemini 2.5 Pro era el mejor modelo en general. Sin embargo, la única área donde se destacó un modelo por encima de Gemini fue en cuestiones de confianza, ética y seguridad, donde Grok-3 se llevó el reconocimiento, lo cual es irónico dada la controversia reciente en torno a sus problemas de ética y seguridad.
Los modelos que siguieron a Gemini en el ranking fueron Deepseek, Magistral Le Chat y Grok. Deepseek disfrutó de gran popularidad a principios de año, aunque su presencia ha disminuido. Por otro lado, Le Chat, aunque menos conocido, cuenta con una base de usuarios leal.
La Posición de ChatGPT
En esta contienda, ChatGPT se encuentra en una posición notablemente baja, ocupando el 8º lugar, siendo el modelo GPT-4.1 el que logró el mejor rendimiento de OpenAI. Claude, por su parte, tuvo un desempeño aún peor, situándose con sus modelos versión 4 en el 11º y 12º lugar del ranking general.
Reflexiones sobre los Resultados
¿Qué significa esto para la percepción de los chatbots de IA? ¿Representa que Gemini es el mejor chatbot de IA del mundo? ¿Significa que ChatGPT debe ser descartado de las opciones disponibles? La respuesta no es tan simple.
Los resultados no reflejan necesariamente el rendimiento superior de estos modelos en otras métricas. En pruebas que involucran diversas capacidades, los modelos que comúnmente aparecen en la parte superior incluyen a ChatGPT, Gemini, Claude y Grok. Este ranking ofrece una perspectiva diferente, aportando información valiosa sobre la experiencia humana asociada a cada modelo.
Por ejemplo, Le Chat puede no obtener los mejores puntajes en evaluaciones técnicas, pero se destaca como una opción muy valorada en términos de experiencia y confianza.
Aunque Anthropic y OpenAI no sobresalen en esta ronda específica de pruebas, Gemini y Grok continúan ofreciendo un rendimiento sólido. Ambas compañías, reconocidas por su desempeño en benchmarks, mantienen su posición competitiva en este nuevo marco de evaluación.
Explorar las clasificaciones de IA a partir de experiencias del usuario proporciona un ángulo diferente que merece ser considerado. Esto subraya la complejidad del competitivo mundo de la IA, donde el rendimiento técnico y la interacción humana juegan roles cruciales.
Para más información sobre este y otros temas relacionados con la inteligencia artificial, te invito a explorar más contenido en mi blog.