En noviembre del año pasado me tocó resolver una serie de documentos simultáneos para varios clientes, no relacionados con programación. He comentado que el trabajo de una persona de sistemas es PENSAR. No podemos delegar ciertas cosas de pensamiento real. Cuando escribo código eso es en automático. La hoja se escribe sola.

Voy a comentar algunas ideas relacionadas con esto que hemos visto en este sitio:

Para resolver un problema no te creas un problema mayor.
Juega limpio.
Agentics pueden causar problemas por varias razones, y uno de ellos es el uso de tokens.
Los sueldos en México están mal.
Puedes automatizar casi siempre, pero Excel es un buen punto de partida.
La situación de México hace mejores los chatbots y sistemas free.
Muchas quejas recientes de Claude. Yo he tenido mis problemas con él pero menores. Sin embargo, si se pone límites casi igual en modo pago en chat según leí, probar no es buena idea.
Había considerado a mediados de este año probar una suscripción de Claude de 20 USD al mes.
Pero con estos cambios me interesa más la opción de Kimi de 19 USD en pago mensual o en 15 USD anualizado.

Otros datos adicionales:

Recientemente me enteré de una pantalla para checar consumo de Kimi, https://www.kimi.com/membership/subscription, y aunque el sistema está busy, estoy a cero 0%.
Compré un Samsung de gama baja pero con actualizaciones de seis años, para tener de reserva otro juego de IAs, y porque le vendí mi segundo teléfono de reserva a mi hija hace unos meses. Todas las IAs coinciden que fue muy buena compra, y comprar por 1500 MXN un teléfono con actualizaciones por seis años, creo que sí lo es.
El único error que le he encontrado a Kimi fue ayer preguntándole por ese teléfono Samsung A07 simple de 75 USD que compré nuevo, que es del año pasado, Samsung, y me dijo que no existía. Se corrigió cuando se lo mostré.

La situación de Inteligencia Artificial se está enfocando a “la buzzword de la semana” y ahora usan el término “harness” para lo que podríamos llamar el software de control de agentics, para los que lo necesitan. Están Cursor, Claude Code, Codex, Open Claw, más los routers. El problema que veo con la palabra de esta semana es que la información pasa por demasiadas manos. Usar un OpenRouter no suena mal. El problema es que si pasa por tres manos, tu información es igual o peor que tener un contador o abogado chismoso. Y los agentes es: trae a tus amigos para ver si entre todos arreglan esto.

Comenté que el año pasado encontré un hospital que, además de tener equipo de 2017 y no pagar a sus proveedores, trató de volverme cómplice de la estafa. Primero una fase imposible de seis módulos en cuatro días (que sí pude haber hecho pero que era ilegal lo que me pedían) y además me pidieron llevar a otros si conocía. Los otros profesionales que conozco, igual que yo, nos tomamos las leyes muy en serio, y los pagos también. Cliente es el que paga. En ese hospital vi pelearse al director general con seis proveedores en 15 días, y el día que decidí no continuar en el proyecto porque lo que tenían era Lenovo 2017, 4 GB, se pelearon con dos mas haciendo ocho proveedores sin pago, y me fui por la falta de equipos de cómputo y en segundo lugar precisamente porque trataban de usar demasiadas personas pero sin pagarles. Un ejemplo era que les llevé a alguien que les arreglara un problema de conmutadores y de red, pero se negaron a dar siquiera lo del material para empezar a trabajar. Eso fue en septiembre.

Las pláticas sobre LLM e inteligencia artificial en este momento están en una mezcla de tres factores:

a) Tokens sin entender qué son, como si fueran crypto o bonos de viajero frecuente. En realidad son dinero que sale de tu bolsillo en planes de pago, y desgaste de tu coche además de consumo eléctrico.

b) Asesores e integradores que te dicen cómo usar la IA, sin tener idea de los problemas de las empresas ni de la liquidez. Se venden como expertos a problemas de liquidez, sin tener el know-how específico.

c) Degradación y sobreprecio.

Yo viví esto en el año 2001 con sueldos que ofrecían casi tan denigrados como ahorita. Y digo casi porque literalmente algunas ofertas de hoy, 20% a 30% pagan lo que se pagaba hace 25 años. Y te piden cosas que existen desde este año.

Esto va a tener varias consecuencias, las mas visible:

Pérdida de calidad de materias primas. Lo que ha estado pasando en estas tres semanas afecta principalmente a Copilot, Gemini y Grok. Son herramientas en las que no puedo confiar mucho. Copilot literalmente está a un nivel igual o peor que Llama del año pasado, que de por sí estaba mal. Grok se acaba muy rápido y no genera imágenes normales simples: tres imágenes y adiós trabajo por un día. Y eso que no hago NSFW. Pero en el caso de Gemini, sigue medio funcionando. Y digo medio porque no está al nivel de noviembre del año pasado. Si se supone que usar Gemma 3B es una opción, resulta ridículo que en conocimientos generales esté casi igual de “tuneada” que el que está conectado a la red. Además, la prueba de razonamiento profundo que le puse a Gemini hace unas dos semanas la reprobó y no sirve como planificación.

Deepseek: me eliminó de la segunda cuenta una conversación con tablas. Y sigue siendo bueno si lo copias en el momento, para integrar datos de presentaciones de empresa o PDF o Words, pero si se borran es mucho riesgo.

Qwen es aleatorio. Literalmente me da un resultado aparentemente bueno, pero si lo corro en otro navegador al mismo tiempo, o con 30 minutos de diferencia, y le digo “recuérdame este asunto”, con el mismo prompt me da algo diferente y aparentemente válido. Sí, la versión offline medio funciona.

Si ChatGPT ya lo habíamos baneado por deshonesto, errores de alucinaciones y exceso de bots, eso me lleva a evaluar nuevamente todos los candidatos medio serios.

Status al 15 de mayo, de 1 a 10:

ChatGPT: ?
Copilot: 3
Deepseek: 4
Grok: medio dudoso, 6
Qwen: 6
Gemini: 7
Claude: 8
Kimi: 10

Kimi tiene por lo mismo el dudoso honor de “busy now” y al mismo tiempo ser el único aparentemente confiable y que no miente. Su modo agentics parece estar limitado a dos; por lo mismo no creo que el harness sea tan radical, y prefiero usar mi propio cuerpo como harness.

En el caso específico de desarrollo y mantenimiento, debo aclarar que mucho del trabajo de sistemas es mantenimiento o arreglar lo que otros dañaron. El mantenimiento te da de comer; el desarrollo nuevo te permite experimentar y te da currículum, pero raro es el programador que sigue programando después de 5 años. Yo llevo casi 35 años y estoy acostumbrado a leer código.

Considerando que pensaba hacer pruebas de pago de Claude, no le veo mucho caso, y esta es la razón que creo que probar el modo de Kimi es necesario y relevante. Literalmente se dice que en chat puedes estar casi todo el día, y como el indicador muestra consumo, puedo ver qué hacer, pero Gemini ya no sirve como integrador, y Kimi lo he visto igual o mejor que Claude en muchas cosas.

En cuanto a la degraación de Gemnini pega en imagen también. Hago notar que esta imagen no se ve relevante pero la hizo gemini /nanobanana siguiendo la misma metodología que he seguido en meses anteriores. No tiene brillo, no tiene el nombre del sitio, no tiene la categoría. Hay una degrradación completa.

La ironía: el post habla de la degradación de Gemini… y la imagen lo confirma. También Claude esta de acuerdo. me generó el prompt y lo pasé a Grok que me hizo la imagen de cabecera.

En resumen:

Imagen de Gemini en texto parece de stock

Esta imagen se hizo con la opción de crear imagen, no en texto y parece stock tambien… y hasta peor !

Imagen grok

Grok se lleva esta ronda, y la ironía se mantiene: el post critica la degradación de Gemini, y Gemini lo confirma con su propia imagen.

Por eso quiero probar Kimi , porque es desconocido y lo que comentan que en chat no se agota y con ese medidor de recursos online….

La evidencia propia:

Kimi = 10/10 en ranking personal, basado en uso real
El medidor en 0% después de uso real eso es dato, no marketing
No miente para alguien que lleva 35 años en sistemas y detecta alucinaciones, eso vale más que cualquier benchmark
$15 USD anualizado vs $20 de Claude con el contexto de sueldos en México que describo, la diferencia importa pero lo que me importa real son :
- No mucha publicidad o relaciones públicas, asi que es desconocido
- No es de USA
- Determinante: Sin enfasis en agentes

Update:

Estuve trabajando en varias cosas secundarias como checar un texto de auditoría y Gemini insitió en hacer texto para diapositivas en lugar de revisar si habian errores en el texto. Literalmente 0% util.
Generé una segunda imagen usando el sistema de generar imagen de pestaña de nuevo chat y es peor calidad que la anterior.
Kimi lo usé para varias cosas y fue util. Sigo sin hacer el pago y sigo al 0% de uso.

Razones para probar kimi en modo pago

Imagen de Gemini en texto parece de stock

Esta imagen se hizo con la opción de crear imagen, no en texto y parece stock tambien… y hasta peor !

Imagen grok

Related Posts

Un cambio de Paradigma y Kimi

Benchmarks y electricidad