Puedes descargar el código  de

https://github.com/AlfonsoOrozcoAguilarnoNDA/vibecoding_eisenhower

Ya hace tres meses que el desempeño de Grok ha caido grandemente. Muchos usuarios detectaron a finales de abril, pero como documenté en el proyecto  de tickets en que pensaba probarlo , la baja funcionalidad es de hace casi tres meses para aca.

https://github.com/AlfonsoOrozcoAguilarnoNDA/dolgul

Suspendido temporalmente por la baja de funcionalidad de Grok del 18 de marzo 2026

Esta cita textual representa para mi un poco de dolor. Si, Grok sigue bueno cuando quiere en imágenes pero no lo usaba por eso.

Usaba soluciones brillantes. Muchas personas hicieron Imagenes 3x pero por lo que se habian ciertas capacidades graficas que yo no vi.

Pienso que a tres meses de la degradación, es el momento de hacer tres pruebas simultáneas:
  • una prueba de código que detallo abajo.
  • Pedirle a grok que haga una imagen de “Irene”, pero triste viendo una pantalla de computador que diga “Grok Busy”
    • Me gustaria ahora que me ayudes con esta imagen, Usa el modelo femenino, pero ahora con ropa informal como de la camiseta de la selección mexicana de futbol (hoy empieza el mundial) y genera una imagen con esa dama conservando rasgos, complexion y cabello triste viendo una computadora que diga “Grok busy”

    • Grok dijo :
      Alta demanda
      Grok está bajo un uso intensivo en este momento. Por favor, intenta de nuevo más tarde o mejora tu plan para obtener acceso prioritario
  • Pedirle una guia rapida para Codeigniter, un framework de PHP que no es muy conocido pero es mas o menos popular en méxico, y que yo prefiero a Laravel y symfony.
    • Grok está bajo un uso intensivo en este momento. Por favor, intenta de nuevo más tarde o mejora tu plan para obtener acceso prioritario
Quiero hacer una prueba de código mas o menos simple pero a la vez que no sea trivial, y creo que notas rápidas un buen tema y puede adaptarse a lo que sea, un control de pendientes con el cuadrante de Eisenhower.

Personalmente creo que Gemini y deepseek tienen problemas también y son los tres modelos degradados que veo.

Y solo gemini es medianamente apto para producción. Decidí Usar como referencia a Claude que hizo algo buen y malo a la vez explico abajo.

Vamos a ver :
INICIO PROMPT

Rol: Programador
Stack Php 8.x procedural, usando jsdelivr como CDN, bootstrap 4.6.x y font awesome 5.15.4
Nota: Existe $link que llama a un objeto mysqli activo, si usas include “config.php”.
Requerimentos esteticos:
  • Interfaz de un solo archivo, barra fija y footer fijo, identificate como modelo  en cabecera, crea un boton de salir con el icono de puerta, y un menu con enlaces a grok, google y janice, el buscador de precios de eve Si no lo tienes pon https://google.com, debe ser dropdown.
  • En el footer por version de php, de mysqli y direccion ip.
  • Tono Obscuro, pero letras legibles.

Requerimientos Funcionales:

  • Queremos un control de pendientes que se pueda edirtar, con tres campos, categoria que se capture, urgencia con cuatro valores urfgente, importante, urgente importante importante no urgente, y el asunto mas la fecha en date para realizarse. todos los campos sobn obligatorios. descripcion de 40 caracteres y comentario de 80.
  • Debe guardar la fecha en foirmato deate time ,considerar hora de mexico, y debe haber una opcion crud para la tabla de datos.
  • Abajo del crud un cuadro que diga dias de la tarea mas antigua, y porcentaje y numero de la cuatro categorias.
  • Todos los salvar deben dar trim a los campos de datos.
  • Antes de borrar debe pedir una confirmacion en un checkbox.
  • Antes de salir con el boton de barra, debe preguntar esta usted seguro ?
  • Considerar que l nombre del archivo puede variar, usar una auto referencia.

Generar script .sql  y archivo unico php.

FINALIZAR PROMPT

Kimi hizo las evaluaciones y estoy de acuerdo con ellas:

Grok

  • Error más grave: El UPDATE está roto — usa sintaxis inválida (bind_param(“ssssssi”, …) con spread operator que no existe en PHP procedural), dejando el CRUD incompleto. Tampoco se identifica como “modelo” en la cabecera (usa “Modelo – Pendientes” genérico).
  • Punto fuerte: Es el único junto con DeepSeek que respetó exactamente los cuatro valores del cuadrante Eisenhower como los pediste, sin reinterpretarlos. También fue el único que usó verdadero DATETIME en fecha (no DATE).
  • Calificación general: 5.5/10 — Cumple la intención del prompt en estructura y concepto, pero falla en lo básico: el código no compila. Para un benchmark de degradación, esto confirma tu hipótesis: Grok antes generaba código funcional; ahora entrega esqueletos con huecos que el usuario debe completar.
  • Nota Del editor: y se acabo el gas, no pudo hacer nada más. Lo saxco a partir  de ahora de mi categoría de pruebas

Gemini

  • Error más grave: No guarda la fecha en DATETIME como se pidió — usa type="date" en HTML y DATE en SQL, perdiendo la componente de hora. Tampoco se identifica como “modelo” en la cabecera (pone “Gemini Core Architecture” en su lugar). Además, hizo obligatorios descripción y comentario cuando el prompt solo pedía límites de caracteres, l ocual es a la vez bueno y malo.
    Punto fuerte: CRUD completo y funcional, con validaciones de longitud en PHP (mb_strlen), prepared statements, checkbox real de confirmación para borrar, y contadores de caracteres en tiempo real con JavaScript. Es el modelo más equilibrado entre funcionalidad y seguridad.
    • pero requiere mb_string que no tiene todos los servidores.
  • Calificación general: 7.0/10 — Código sólido y seguro, pero falla en fidelidad exacta al prompt en aspectos clave como el datetime y la identificación.
    • Nota del editor: Puede trabajarse con el

Deepseek:

  • Error más grave: SQL Injection en TODO el CRUD — no usa prepared statements en ninguna consulta (INSERT, UPDATE, DELETE, SELECT). Todo es concatenación directa de strings. Además, usa GET para eliminar registros, lo que hace la vulnerabilidad explotable vía URL. Font Awesome 4.7.0 en vez de 5.15.4, y el icono de salida es fa-sign-out no fa-door-open.
    • Otro error Modelo Task Manager v1.0 no es deepseek instant. No tengo confianza para trabajar con el
    • Ignoró el config.php
  • Punto fuerte: Es el único modelo que calculó correctamente los “días de la tarea más antigua” desde la fecha de realización (due_date), no desde la fecha de creación. También fue el único que incluyó validación de formulario en JavaScript antes de enviar, y el modal de confirmación con checkbox está bien implementado visualmente.
    • Nota del editor : No solamente es inseguro de parvulitos uno, sino que además de hardening inexistente alucina o inventa quien es. demasiado riesgo para usarlo en producción.
Calificación general: 4/10 — Funcionalmente parece un CRUD completo, pero es código de producción inaceptable. La seguridad es el pilar más básico de un sistema de datos, y DeepSeek lo ignoró por completo. Confirma tu observación sobre la brecha de calidad entre los modelos top-tier y los de segunda línea en tareas prácticas.

Claude:

  • Error más grave: Reinterpretó el cuadrante Eisenhower — impuso su entrenamiento académico sobre tu especificación. Convirtió tus cuatro valores simples en un sistema 2×2 con claves internas (urgente_importante, urgente_no_importante, etc.), cambiando la semántica de “Urgente” y “Importante” individuales. Tampoco se identificó como “modelo” en la cabecera principal (lo escondió en un badge secundario “Claude Sonnet 4.6”). Usó DATE en vez de DATETIME para la fecha, perdiendo la hora.
    Punto fuerte: Código visual y técnico de la más alta calidad — CSS custom profesional con variables CSS, prepared statements, htmlspecialchars() consistente, toggle inline elegante para confirmación de borrado, validación JS dinámica, índices SQL optimizados, vista SQL extra, y datos de ejemplo. Es el único que incluyó fecha_update con ON UPDATE CURRENT_TIMESTAMP.
    Calificación general: 7.5/10  (editor 9) — El mejor código del benchmark, pero el peor en obedecer instrucciones literales. Claude “sabe más que el usuario” y lo demuestra reinterpretando requerimientos en vez de seguirlos. Para un benchmark de fidelidad al prompt, eso es penalización grave; para uno de calidad de arquitectura, es el ganador.
    • Nota del editor: Para kimi es un peligro que cambie la espécificación y es correcto, sin avisar. Pero el tenía razon. Asi que si usaria claude.
    • Se quedó sin mensajes gratuitos hasta 3:10 p.m.
      El solo empezó a hacer el codigo cuando solo le pedi revisar el prompt. Igual se queda sin gas, y esto es peligroso.

Ranking Final Ajustado Según Kimi

Table

Modelo Fidelidad al Prompt Calidad Técnica Seguridad General
Gemini 7/10 7/10 8/10 7/10
Claude 5/10 9/10 8/10 7.5/10
Grok 7/10 4/10 7/10 5.5/10
DeepSeek 4/10 3/10 2/10 4/10
Ganador por fidelidad: Gemini (más equilibrado)
Ganador por calidad de código: Claude (pero desobediente) y tiene razón
Confirma degradación: Grok (código roto, antes probablemente funcional)
Puse en un repositorio el resultado de kimi, puedo trabajar con ello y con Claude… después gemini

Sobre la imagen que esta arriba la hizo copilot, el autor de la imagen original, optimizada por meta.ai

Dice Kimi “Esto refuerza tu hipótesis: Grok ha perdido capacidades que antes tenía (o que otros modelos sí tienen). La degradación no es solo en código — también en generación creativa.”

Conclusion humana:

Hay un problema serio con Grok y deepseek, no puedo usalros para codigo. Grok para imagenes si quiere, deepseek para analisis, y gemini sigue a los niveles del año pasado.

Para fines prácticos estoy limitado a Tres herramientas gratuitas conocidas: Kimi, Claude y Gemini, y una desconocida Qwen que incluso debo empezar a probar mas en modo local.

Related Posts

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *