Los Siete magnificos LLM son uno por ahora

Primero explico porqué hice la prueba de madrugada.

Tengo varios perros en mi casa, y una perrita que duerme afuera de mi puerta tiene la costumbre de no ladrar, pero mover le plato vacio de comida, o arañar la puerta si pasa algo. Ayer a eso de las 03:20 am, la perrita arañó la puerta y la razón era que el perro grande había movido el plato de comida y ella no lo veía. Así que agarré el plato, se lo puse a la vista y como se me fue el sueño me puse a hacer las pruebas a las siete LLM.

Es un horario REAL de trabajo para alguien que como yo administra servidores, no es raro sacar respaldos a esa hora. Y en el juego Eve Online, tampoco es raro hacer cosas arriesgadas a esa hora que muchos estan durmiendo.

Lo que sigue no es paranoia io negar las cosas, es un diagnóstico técnico basado en evidencia de campo que capturé en el peor momento posible: la “hora del lobo” cuando pueden fallar los servidores y cuando haces las cosas serias para no afectar producción.

Resumen:

  1. Kimi Estoy ocupado – descalificado
  2. Gemini no hizo nada despues de entrar en bucle y abri y cerre el navegador. – descalificado Sigue inactivo nueve horas después a nivel mundial
  3. Minimax tampoco hizo nada.
  4. Qwen medio me regañó, se puso a decir los errores del prompt y desobedeció ordenes, eso solo me lo habia hecho antes ChatGPT como Ana Laura en Viernes Social. Además no dio nada util. Sus consejos creaban otros problemas y no veia nada positivo en el prompt.
  5. Meta.Ai hizo algo parecido a Qwen, le pedi que incorporara esos comentarios y que ejecutara el prompt. Se brincó casi todas las directivas del prompt pero hizo un .htaccess que en apariencia es bueno.
  6. Grok hizo algo con fallas Se brincó casi todas las directivas del prompt pero otras. Obedeció ordenes asique es mas util que Meta.IA pero los dos fueron igual de malos
  7. Claude si hizo los seis archivos

Esto fue a las tres de la mañana de 3.20 a 3.40. No puedo confiar en las LLM, y con excepción de Claude, se estan reduciendo al nivel de un juguete. El proximo mes pienso comprar por un mes el kimi extendido de 15 USD que es lo unico posible que utilizaria yo en un trabajo, y solo para fines de control.

  • Hago notar que pude trabajar bien con varias ia a la vez de mas o menos 20 de enero a finales de marzo, y después se degradaron terrible, aunque mucha gente lo notó dese el 21 en grok Claude y y gemini desde mediados de abril. O sea trabajé bien 70 dias y llevo unos 35 mal.

Lo que el experimento y capturas del 5 de mayo de 2026 demuestran es que la confiabilidad de las IA no es una línea recta ascendente, sino una montaña rusa de inestabilidad operativa. El experimento nocturno reveló tres fallos sistémicos que nada tienen que ver con la imaginación:

a  ) El Colapso de la Disponibilidad (kimi gemini y minimax)

  • Kimi y Gemini fallaron por saturación o errores de ejecución justo cuando deberían estar más ligeros. Esto indica que la infraestructura de estas IA está tan al límite que incluso en horarios de baja demanda (3:00 AM) no pueden garantizar una sesión de razonamiento estable.

b ) La Regresión Lógica (Model Drift)

  • Qwen y Meta.ai demostraron una incapacidad de seguir directivas específicas, optando por “regañar” al usuario o dar consejos genéricos. Esto confirma que los modelos están siendo calibrados para ser “seguros” o “eficientes” a costa de su capacidad para resolver problemas técnicos complejos y personalizados. Otra opción es que esten pasando a odo agentuic.

c. La Falta de Rigurosidad Técnica

  • Grok y Meta.ai

Solo Claude completó la tarea. Gana el benchmark no por ser perfecto, sino por ser el único confiable a las 3 AM con un problema real.

A favor de las 3 AM:

  • Los servidores de las IAs están menos cargados (en teoría)
  • Menos interrupciones, más concentración
  • Kimi y Gemini fallaron precisamente esa noche  dato válido para el benchmark, capturamos comportamiento real bajo condiciones reales

En contra:

  • Mi criterio de evaluación se cansa :a esa hora es más difícil detectar errores como el wpautop() de Grok o el RewriteBase incorrecto
  • Si algo falla en el servidor al subir los archivos, estás solo depurando a oscuras
  • El artículo lo vas a escribir de día de todas formas ….

Lo que sí tiene valor metodológico: Las 3 AM fue un accidente que se convirtió en variable de prueba. Kimi colapsó, Gemini se colgó  eso dice algo real sobre la disponibilidad y estabilidad de cada plataforma fuera de horario pico. Eso merece una nota y además yo si trabajo a esa hora.

Yo compré este dominio el 2 de febrero , llevando unos diez dias trabajando en buenas condicuiones con varias LLM de Cyhat a la vez, pero eso se acabó en lso ultimos dias de Marzo, siendo notado por otros a mediados de abril 2026 y es obvio para cualquiera que trabaje en el medio.

En lo personal, lo mas triste es el eterioro de Gemini que regresó al nivel de calidd de BARD (y peor con lo del nuevo instalador de LLM de 4 gb que salió a relucir ayer que instala en tui porpia PC bajo chrome un archivo de ese tamaño, igual o peor que recall)

Houston, los que no saben programar sin LLM tienen un problema.

A puro ojo No puedo usar lo de grok ni de meta ai directo y modificarlos es igual o peor Trabajaría igual o mas que hacerlo a mano.

El hallazgo más publicable: de 7 modelos probados a las 3 AM con un prompt técnico medianano NO exigente, 4 no pudieron ni responder por razones distintas. Solo 2 generaron código (tres si consideramos a meta que cambió el prompt solito). Eso es el benchmark.

Grok:

  • Grok usa define('CONN', $conn) — pasar una conexión mysqli como constante es técnicamente incorrecto, mysqli no es un valor escalar.
  • Grok usa wpautop() en index.phpesa es una función nativa de WordPress, viola una regla crítica del prompt
  • Grok no tiene paginación
  • Grok no tiene vista de breadcrumb
  • Grok tiene cards aunque NO haya imagen — viola el requisito explícito del prompt
  • Grok: 30 líneas básicas, sin variables CSS, sin sistema de diseño
  • Grok: RewriteBase /incorrecto para subdirectorio /viewer/, rompe las rutas

A favor fue rapido y funcionó…. entre comillas porque hizo incompleto y rompió varias reglas del prompt. De dia no ha hecho nada para mi ultimamente.

Meta.ai :

Me corrigió el prompt para cosas equivocadas le dije que procediera con ello y entregó código raro. Dicen que META esta preparando una nu7eva IA, pero si esto no parece llama.

  • Hay que poner a mano la base de datos. Lo que significa que el usuario tiene que escribir manualmente sus credenciales en el archivo : exactamente lo que el prompt quería evitar por seguridad.
  • Pero el pecado original es grave: no parsea wp-config.php. El visor existe precisamente para no tocar la instalación WP y Meta lo primero que hace es pedirte que copies tus credenciales a mano.

  • Lo que Meta hizo MUY bien aquí: rate_Limit que nadie mas hizo pero requiere session_start() en algún lugar — si no está en index.php va a fallar silenciosamente

  • sanitize_slug() como función separada

  • El truco del body.sidebar-left es genuinamente bueno ( significa que para cambiar el sidebar solo cambias una clase en el <body>, no tocas el HTML ni el PHP.) Ningún otro modelo lo hizo así.
  • Meta ignoró completamente la nube de categorías y el archivo por mes en el sidebar , los definió en functions.php como datos pero nunca los renderizó visualmente.
  • No puso la licencia
  • En algunos archivos si no en todos puso bootstrap al inicio pero no al final.

En resumen Meta.i

  • Lo mejor: seguridad (bcrypt, rate limiting, xmlrpc bloqueado, headers)
  • Lo peor: ignoró el requisito más importante del prompt — leer wp-config.php , y dejó incompletos sidebar, paginación y edición de posts existentes. y la interface.
  • Lo legal: Ignorar la licencia es peligroso. Alguien describió a Meta.ai hace una semanas, de las mismas ai comno “nepo baby” en el caracter de Viernes social sin saber que era Meta.ia

Después de corregir el prompt, podria decir que es un ingeniero pedante. Diseñó un edificio en la playa sin ventanas. El otrro queme corrigió fue Qwen  el consultor que me explicó por qué necesito yo un edificio en vez de construirlo o hacer siquiera los planos.

Claude es el unico confiable y probar de momento el mes que entra el modo de 15 USD al mes de KIMI es una necesidad real.

Claude  tuvo problemas en el newconfig.php pero cumplió el cometido:

  • Primero trató de hacer un rgeex mal hecho.
  • Luego include que no funcionaba porque creaba otros problemas.
  • Pegue a mano mis datos de base de datos, alterados así si funciono.
  • El benchmark se realizó en dos sesiones separadas por un período de recuperación de 5 horas. (Suena mucho más profesional que “me dormí” de 4 a 9 am)

 

Actualizaré el reposiorio en el transcurso de la tarde, pero le unico que sirve es Claude. Y de gemini lo de los 4 gb instalados por chrome merecen mención aparte pero su análisis de razonamiernto de ayer se comió la mitad y se negó a trabajar.

Houston, los que no saben programar sin LLM tienen un problema.

Repositorio en :

https://github.com/AlfonsoOrozcoAguilarnoNDA/vibeCoding_visorwordpress

Related Posts

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *