De seis herramientas a dos: lo que mayo le hizo a mis LLMs

Como les comentaba la semana pasada, estuve casi una semana sin internet porque en una de mis casas falló el servicio y los técnicos me quedaron mal. Resultado: cerca de la CDMX, con dinero, casa propia, sin presiones de trabajo, pero sin conexión. Eso me obligó a observar con más calma las necesidades reales que siempre hemos tenido quienes solucionamos problemas, incluyendo el deficiente trato humano de los técnicos y el soporte.

Esa semana sin internet fue la tercera de mayo. La segunda semana, la anterior, ya habíamos visto una degradación notable en varios modelos. En muchos aspectos mi LLM principal era Gemini: no el más preciso, pero sí el de contexto más amplio, y lo usaba en mi día a día. Gemini Estaba lento y, en mi opinión, descuidado y peligroso. Sé que “peligroso” suena exagerado, pero tengo dos incidentes del año pasado que me permiten ilustrar la idea :

El primero fue en septiembre 2025. Estuve revisando papeles médicos sobre dosis de medicamentos y los problemas que puede haber con el uso de genéricos en ciertos contextos hospitalarios, un tema que conozco bien. Con ayuda de Copilot y Kimi redacté un documento de una página con tres casos clínicos que podían ser útiles para salvar vidas, citando expedientes Cochrane (la referencia estándar de evidencia farmacéutica en la práctica clínica). Lo entregué con la aprobación de Gemini. Una semana después le pasé el mismo documento para pedirle una traducción al alemán, y Gemini opinó que era “pura verborrea sin bases médicas”. Lo reporté de inmediato porque el tema era serio, y una vez que revisó mis referencias reconoció que el documento QUE EL MISMO HABIA CREADO era sólido. El peligro real no es que Gemini se equivocó y se corrigió: el peligro es que alguien sin el criterio suficiente hubiera desechado el documento basándose en ese segundo juicio. “Pura verborrea?”
El segundo incidente fue unos meses después. Un pariente me preguntó algo sobre diabetes femenina y Gemini me devolvió un anuncio milagroso de un supuesto estudiante de la UNAM, tomado de un blog basura monetizado con AdSense. Eso es grave, creo que estamos de acuerdo.

Al terminar la semana pasada y de batallar con técnicos de mal servicio, llegué saturado de pendientes pequeños que quitan tiempo pero no significativos. Lo primero que hice fue abrir Gemini, y al trabajar los primeros puntos me dio la impresión de ver a un compañero de trabajo que de repente está en otra cosa, distraído, como con fiebre. Me generó tres imágenes inútiles e ignoró instrucciones previas de diseño gráfico que ya teníamos establecidas. Para mí, Gemini pasó de ser una herramienta útil (no necesariamente la más afilada, pero que cortaba a la primera) a una que tengo que intentar dos o tres veces y que al final terminaba reemplazando con otro cuchillo, como Kimi o Grok. Empecé a usar Kimi como LLM principal y estoy listo para pagar una suscripción en cualquier momento, aunque de momento no he llegado a los límites.

Sobre Grok: era brillante a principios de año, el 21 de abril recibió oficialmente un nerf en imágenes y noté cosas de razonamiento que me preocuparon, aunque no he podido evaluarlo con detalle. De momento lo uso para imágenes con prompts de Kimi o Gemini.
Deepseek no tiene calidad mínima para código, al menos hace mes y medio. Y hasta modelos menores que no vale la pena nombrar están fallando en este periodo, lo que sugiere que el problema no es solo de un proveedor.

Este sitio siempre ha tenido como premisa hacer experimentos con diversos LLMs como materiales de trabajo. Creo que el medio escrito es mejor que el audiovisual para esto, y he tratado de subir código. Pero probar una ausencia no es simple, y aquí aplica lo que en derecho se llama la prueba diabólica: el requerimiento absurdo de demostrar que algo no existe. Me pasó el año pasado en una paraestatal cuando el Órgano Interno de Control, sabiendo que no me habían pagado cinco meses, me pidió que demostrara que no me habían pagado. Con los LLMs pasa algo similar: ¿cómo demuestras que un modelo empeoró incluso si tienes los mismos prompts de antes como línea base?

Lo que sí puedo decir es lo que observo. En febrero podía trabajar de forma confiable con seis o siete modelos. De momento los fiables son Kimi y Claude, si no quieres caer en la trampa de los agéntics y el cobro por token. He descartado completamente ChatGPT desde hace unos meses(ya saben porqué). Copilot necesita observación directa; en la primera semana de mayo vimos su degradación en ortografía y coherencia.

La comparativa entre modelos tiene sentido entre iguales. No voy a evaluar medicina contra un pastelero ni mecánica contra un DBA. Si bien todos los LLMs son “genéricos”, el nivel alto solo lo tienen Kimi y Claude en este momento. Gemini era un segundo lugar respetable por su contexto amplio. Hacer un consenso entre herramientas capaces tiene sentido; ponerme a hacer consenso entre Gemini y Copilot, que de pronto están peor que hace seis meses, no. El Plan que tengo para mediados de junio, que coincide con una entrada de dinero de mi parte: volver a evaluar Gemini y Grok con más detalle. Estamos a 26 de mayo. Mientras usar Kimi, Claude y Grok/Gemini reducido.

Mis otros modelos de trabajo son Qwen, ocasionalmente Deepseek si no es código, Claude y Minimax. Cohere para ideas cortas.

Dada esta situación, lo más útil que puedo hacer (aunque no sea científico en sentido estricto) es documentar lo que veo en uso real. Tengo 54 años, 35 de programar, vivo de DevOps desde hace 26 años, estoy a punto de titularme en contaduría, doy asesoría en sistemas y legal a clientes y juego Eve Online con mi alianza. Controlo 72 personajes con mi software y lo voy a reducir después a 24 o 36. Esto simula un entorno industrial, contable y corporativo.

En ese entorno de mi vida diaria, rico en necesidades reales, un diario de campo tiene más valor práctico que un benchmark ideal.

Así que a partir de ahora habrá un experimento que dure un mes en el blog: Bitácora de campo LLM. El formato lo tomo prestado de un libro que leí desde mis veintes y que recomiendo: El dulce arte de salirse con la suya, de Philip B. Crosby. Su guía de resolución de problemas es simple y efectiva: ¿cuál es el problema?, ¿cuál parece ser la situación?, ¿qué modelo o herramienta hay que cambiar?, ¿qué pasos tomar para evitar que se repita?, y ¿qué tan grave es? Cada entrada seguirá ese esquema, con Kimi como herramienta principal documentada de aquí a mediados de junio.

Una nota práctica: las entradas de Bitácora de campo LLM pueden editarse durante el día conforme aparecen nuevos incidentes. Si entras y ves “El problema de los slots (1 incidente)” y al día siguiente dice “(3 incidentes)”, es normal. Lo aclararé en cada entrada.

Ias utilizadas

Claude revisor de ortografía y Generar Prompt de Imagen 10
Gemini: Con mi metodologia de antes me dio basura. UN TEXTO RESUMEN cuando yo pedi una imagen de cabecera , tres veces. Con el prompt de Claude, me hizo esta imagen. 6/10
- Antes Gemini te daba la imagen completa con texto integrado, composición narrativa, personajes, todo en un solo intento. Ahora te da un resumen.
Grok: Se tardo en entrar, tuve que ir a firefox y entonces si lo abrio chrome, que raro. Con el prompt de claude me dio algo un poco tétrico pero util. 7/10

Finalmente la bitacora ya la hice y esta aqui, aunque probablemente habra posts de wordpress

https://vibecodingmexico.com/wp-content/themes/arther/llm-bitacora.php

De seis herramientas a dos: lo que mayo le hizo a mis LLMs

Related Posts

Un cambio de Paradigma y Kimi

Benchmarks y electricidad