Dos Aliados Viables y un campo minado

“Las fortalezas son para defenderse; las armas, para atacar.” — Sun Tzu

Hay una situación poco común en este momento: mucho ruido y pocas nueces.

Desde abril escribí esto, dije literalmente:

En estas dos semanas El ecosistema de la IA / LLM ha pasado de ser una “plaza pública vibrante” a un entorno restrictivo y vigilado donde obtener una respuesta natural es casi imposible.

En febrero estaban funcionando bien seis modelos: Grok, Gemini, Claude, ChatGPT, Kimi, Qwen. Mis necesidades y experimentos me llevaron a descartar ChatGPT (hasta que requiera algo de números finos con motor Python), y realicé varias pruebas en paralelo.

Siempre es adecuado tener dos o más proveedores. Probablemente conoces el Sam’s Club. En el año 1993, más o menos, tuve que ver mucho con el área de devoluciones a proveedores en México, en la sucursal Polanco. Y me enteré de que habían dos proveedores de Coca-Cola de lata, y dos proveedores de unas escaleras metálicas cortas. Esto lo comento para explicar que, incluso en algo tan simple, hay varios proveedores.

Por cierto, en un sistema de control de inventarios y de compras, muchas personas que hacen un diseño no consideran que puede haber dos proveedores de un mismo producto revendido. Es una prueba muy buena de análisis de diseño de base de datos.

Así como tienes dos proveedores de dominios, o dos proveedores de servidores, y preferentemente dos coches, dos casas, dos celulares, dos computadoras, dos conexiones de internet, debes estar preparado para si desaparece un proveedor.

De momento llevo años recibiendo mucha publicidad indirecta de iPhones que no necesito, porque es un ecosistema que no uso. En el 2014, más o menos, compré un iPad mini por una razón específica y lo vendí justo antes de la pandemia para comprar otro más reciente, y no compré otro. Pero recibo, no de ese mismo proveedor, muchos análisis, videos, reseñas de las virtudes de algo que no necesito.

Estoy en una situación similar con la inteligencia artificial.

Las pruebas recientes de este mes me demuestran que:

DeepSeek es malo para código pero bueno para análisis en lo que cabe; puede ser bueno en rol, pero no es fiable para dar a clientes algo si no se lee completamente y gastas más tiempo del invertido. Lo uso para revisiones de ortografía.
Grok, desde marzo, es la sombra de lo que era. Ocasionalmente hace buenas imágenes, pero ya no es el junior con ideas novedosas, sino el junior que se cree senior.
Claude sigue siendo fiable; Kimi también.
Copilot ni siquiera hace revisiones de ortografía bien. Se está comiendo información. Lo he usado para generar imágenes que luego optimizo con Meta.ai.
Gemini era en muchos aspectos lo mejor en febrero-marzo en 2.5, a pesar de limitaciones. Pero ahora comete errores graves un día sí y otro también.
- Pienso bajar más modelos de Gemma 3, que es el equivalente a probar en modo local “lo que perdí”.
ChatGPT: las pruebas de “viernes social” mostraron un problema de fiabilidad, y su conducta abusiva a mis servidores (literalmente miles de bots de manera innecesaria consumiendo más de 100 GB mensuales) me demuestran que no está bien programado y probablemente va a colapsar.

De momento estoy usando como principal Kimi y Claude y de reserva qwen y gemini.

A diferencia de otros, no tengo pendientes y es raro tener proyectos detenidos. Mis clientes son estables y estoy en etapa de mantenimiento de ROI, con sistemas probados y en los que no se puede jugar, como datos médicos, facturación electrónica, valuaciones de puestos. Por lo mismo, hasta que no caiga un cliente nuevo de tiempo completo, no hay nada que mejorar para mis clientes usando la IA.

Recientemente En los proyectos como Viernes Social, noté un problema pequeño con DeepSeek: me empezó a llamar como su rol, es decir, me dio a mí un nombre de mujer del perfil que habíamos hablado para el caso. En vez de darse ese nombre, me lo dió a mi.

Otro punto que resultó cuello de botella, es que varios modelos no pudieron contestar por estar ocupados/busy/muchas preguntas las 8 preguntas éticas del ejemplo similar a Ultima IV, y si no se aplica a todos en un lapso corto, el experimento no tiene sentido. Noto además que el código original de Grok fue degradado, el de Gemini tampoco funcionó y Claude sí. Quizá es el primer momento en que me di cuenta de la degradación conjunta de modelos.

Ahora bien, en un tema sobre la publicidad comentaba que Rambo, de Primera sangre, toma decisiones entre las alternativas reales que tiene a la mano. Si lo que yo hago es hacer llamadas y WhatsApp, para mí es suficiente con un Samsung simple y un Moto G31; no necesito un iPhone 27. Lo simple tiene valor de supervivencia.

Sigo pensando en activar Kimi, y seguir haciendo pruebas, pero con la parálisis de modelos no es sostenible seguir haciéndolo a diario, porque no voy a analizar el último hype.

Experimentos necesarios ? Si. Con qwen en modo local. Los documentaré. Además lo considero en este momento mi tercer proveedor después de Kimi y Claude. No gemini.
Solo tengo abierto de tiempo completo Kimi. Las dos semanas antes de la degradación de Gemini, tenia abiertos cinco IA en chrome y dos en firefox. Ahora lo unico que tengo abierto es Kimi y deepseek si estoy revisando ortografía. Firefox cerrado.

Así que, lector, aquí seguiré, pero ya no se escribe a diario. Haré cambios en repositorios y reharé cosas, y aquí pondré los enlaces, pero no puedes destinar a un profesional de un equipo de grabación de televisoras a documentar a tiempo completo el crecimiento del pasto o el secado de la pintura en la pared. Son necesidades reales, pero no justifican tiempo completo.

Si el terreno no cambia, no hay batalla que contar. Y contar que no hay batalla todos los días es el secado de la pintura.

Hasta que no cambie el panorama, paso a escribir cuando haya algo nuevo, no con frecuencia diaria.

Dos Aliados Viables y un campo minado

Related Posts

Los riesgos de las LLM

Fabricar Sobres y las Cuatro P

Deja un comentario Cancelar respuesta