Un análisis de las principales herramientas de inteligencia artificial —ChatGPT, Claude y Gemini— y su rendimiento para tareas profesionales, según la mirada de un especialista.
Hace más de tres años, ChatGPT comenzó a modificar la forma de trabajar en diversos rubros. Progresivamente, tareas sencillas fueron asumidas por esa inteligencia artificial. Sin embargo, la tecnología presentó limitaciones como “alucinaciones” (invención de información), respuestas incompletas o modismos repetitivos.
Frente a esto, algunos usuarios probaron otras tecnologías como Gemini (de Google) y, recientemente, Claude (de Antropic) comenzó a popularizarse para uso corporativo. Daniel Stilerman, especialista en Inteligencia Artificial y CEO de Nivii, empresa dedicada al procesamiento de datos corporativos mediante IA, afirmó: “Los que estamos más o menos inmiscuidos en la IA sabemos que entre Claude, Gemini y ChatGPT, el primero parece ser el claro líder”. Y agregó: “Actualmente le está yendo muy bien y los resultados son muy positivos”.
Según Stilerman, una metáfora útil para entender el desempeño de Claude es comparar los sistemas de IA con autos de Fórmula 1. “La pieza más importante de un auto de F1 es el motor, que en IA equivale al ‘modelo’. Luego está el resto del auto (suspensión, alerones, frenos, ruedas) que en el idioma de IA le decimos el ‘arnés’ o el ‘andamiaje’”, explicó. Históricamente, la mejora de una versión a otra de los sistemas de IA provenía de motores más potentes. “En Claude se dieron cuenta de que había mucho para ganar si mejoraban el auto, no solo el motor; y el resultado fue impresionante, principalmente para las personas que hacen software”, sostuvo.
A pesar de ello, Stilerman advirtió que hoy el último modelo de ChatGPT tiene mejores resultados que Claude 5 Fable, por lo que las tecnologías prácticamente se homologaron. Sobre cuál usar para empezar, sugirió: “El que quieran. Claude parece ser el mejor, pero yo honestamente uso más ChatGPT porque lo encuentro más veloz y fácil”.
En Argentina, ChatGPT sigue siendo el líder del mercado, secundado por Gemini. Claude queda en tercer lugar.
Consultado sobre si Claude alucina menos que ChatGPT, Stilerman señaló: “En realidad no es que tenga mayor precisión, sino que es mucho mejor en lograr que se perciba eso”. En pruebas de conocimiento (benchmarks de recall), los porcentajes de alucinación son de un solo dígito y Claude normalmente está adelante. “En benchmarks de conversación multi-turno más realistas como HalluHard, hasta el mejor modelo alucinó el 30% de las veces cuando le permitimos ir a buscar la respuesta exacta a la web, y más del 60% cuando no los dejamos”, indicó.
Stilerman manifestó que, a pesar de que no hubo grandes cambios, se siente que alucina menos. “Claude está calibrado para negarse o decir ‘no sé’ antes que arriesgar, lo que baja las respuestas confiadas-incorrectas. GPT-5.5 tiende a dar una respuesta directa más seguido, lo cual es cómodo hasta que detectamos que contesta algo mal”, advirtió.
El otro problema para la adopción de Claude es que la versión gratuita se agota rápido y, una vez que se paga, su uso está limitado por “tokens”. Stilerman ofreció tres consejos para optimizar esos tokens. “El primero y principal es no usar el modelo más poderoso a menos que sea necesario. Por ejemplo, dentro de Claude si usamos Haiku los tokens van a durar cinco veces más que si usamos Opus y casi 10 veces más que si usamos Fable”, recomendó. El segundo consejo es que cuando uno cambia de tema cree una nueva conversación. “Esto hace que no se use toda la conversación anterior cuando no era relevante, y además mejora la probabilidad de que te dé una buena respuesta por lo que vas a necesitar menos cantidad de mensajes”, sugirió. La tercera es un “hack” que puede dejar de funcionar: “A veces hacemos una pregunta y la IA se inventa un plan que no tiene sentido, hace cualquier cosa y recién lo podemos corregir cuando vuelve a los 20 minutos habiendo consumido miles o millones de tokens. El truco para evitar esto es muy simple: pedirle que lo único que tiene que hacer es contarte cómo va a encarar la preparación de la respuesta. Eso te permite supervisar si lo está encarando bien y agarrar los errores mucho antes de que te gaste todos los tokens”, explicó.
