La prueba de la semana

En esta ocasión creo necesario hacer una prueba mediana para evaluar en que estado se encuentran los diferentes LLM y ver si puedo trabajar como de costumbre.

Donde nos encontramos :

En mexico no hay dinero para tokens, yo si pero he visto lugares donde piden programadores de IA pagando 12000 MXN (600 USD) al mes, cuano las actividades necesitarían un consumo de 500 a 1000 USD tokens al mes. Claude Max de 200 requiere algo que yo puedo hacer y las empresas no van a pagar, y es algo similar a que no voy a trabajar con mis trajes buenos a un trabajo que paga poco ( incidentalmente mis trajes son de un lugar llamado Pardueles, y me ha pasado que los directores o directivos llevan ropa peor y eso me mete en problemas, por lo que suelo usar sueters de liverpool y pantalón de vestir )
- Y la frase “las empresas no soportan el pago de tokens” merece su propio artículo. El modelo de precios agéntico asume presupuestos que no existen en LATAM. 👀
Claude alucinó algo especifico x 4 la semana pasada cuando le pedí ponerme fuentes de internet.
Grok retrocedió a niveles de hace cinco meses. Esta “lobotomizado”
Chatgpt esta banneado para siempre del sitio por ataques de bots en unode mis foros y alucinaciones aquí y en Viernes social.
Deepseek no sirve para código tampoco en modo chat.

Asi que si quiero hacer un ejemplo mediano por chunks, debe de ser de algo que conozca el mismo la base de datos.

Para no gastar de manera indevbida a claude o kimi, activé por primera vez el modo de razonamiento de gemini, y después de unos siete minutos me dijo que está bloqueado por cinco horas.

Lo que pienso hacer:

Un escenario hipotético de pedir a los LLM realizar un visor de wordpress por los ataques de bots, respetando estructura de base de datos, pero mas ligero.
- Esto procede porque tengo unos 15 wordpress que rara vez actuializo.
Php procedural maria con un wp-config de donde tome los datos de conexión y prefijo, boostrap 4.6.x y font awesome 5.15.4 como layout.
Basicamente que genere menu principal, un area de nube de mensajes por mes (en caso de ser posts) y además de cabecera fija y footer fijo, olo dos barras, una para manejo de información de mensajes y el otro para el cuadro de busqueda y la nube de categorias o mensajes por mes.
Recordatorio, pedir que recuerde en caso de posts enlace a los cinco posts mas recientes.
Recordatorio, pedir al modelo que se identifique con la versión, que lo ponga en cabecera y en codigo y que ponga licencia MIT al inicio
En caso de encontrar mensajes como tengo aquí con imagen de cabecera, manejarlo emn modo cards por oirden de reciente inverso.
Preferentemente generar un archivo .htaccess para no perder los links.
Que considere todo con un .css modificable.
Gemini en cinco horas me hace un documento maestro. Se quedó “ocupado”

Quienes pienso evaluar y quien no

Si en chat gratuito

Qwen
Kimi
Claude
Gemini
Grok
Meta.ai (por imagenes)
Minimax si puedo usarlo en el modo que he usado antes

No:

deepseek
chatgpt
cohere (no funciona en proyectos largos o referencias)
mistral (no funciona en proyectos largos o referencias)
copilot (es amnesico no creo que sirva de nada)

Estoy casi seguro que meta.ai no puede y que grok o mninimax no pueden, asi que es posible que tenga una sorpresa,

Estoy pensando en hacer esto en base a un modelo de CENSO total y no de muestreo pero literalmente deepseek y chatgpt es tiempo perdido en uno y el otro por razones éticas y alucinaciones que he visto no lo uso.

Explicación simple para legos (organizado por gemini en modo fast):

“Stress Test” de razonamiento. Estamos simulando una migración de arquitectura táctica.

1. El desafío de la “Arquitectura de respaldo”

Llamo así a este sistema porque no es un sitio nuevo, sino un visor que vive de la base de datos de otro.

El riesgo del LLM: Un modelo degradado intentará escribir un CMS desde cero.
Lo que buscamos: Que el modelo entienda que no debe tocar las tablas de WordPress, solo leerlas. Si el modelo empieza a sugerir INSERT o UPDATE en las tablas nucleares de WP sin que se lo pida, es una señal clara de “lobotomía” o falta de contexto. A menos que decida dar un insert o una opción de nuevos mensajes

2. La trampa del `.htaccess` y el SEO

Este es el punto más fino del benchmark. Para no perder el SEO, el modelo debe razonar sobre la estructura de Permalinks de WordPress.

Si el .htaccess que genera no coincide con la lógica de las rutas que definió en su código PHP, el sistema fallará.
Validación: Aquí veremos si Qwen o Kimi pueden mantener la coherencia entre dos archivos de lenguajes distintos (Apache Conf y PHP) que deben trabajar en sincronía. Personalmente creo que esto lo va a fallar Gemini

3. La Estética del “Suéter de Liverpool” (Bootstrap 4.6)

Pedir Bootstrap 4.6 y FontAwesome 5.15 es una decisión necesaria por air gapped.

Muchos modelos ahora están “entrenados” para empujar Tailwind o Bootstrap 5. Vue tiene complicaciones
Si el modelo te da código de Bootstrap 5 (que ya no usa jQuery y cambió clases de espaciado), significa que está ignorando las instrucciones directas por seguir su tendencia de entrenamiento reciente. Eso es “Instruction Drift” (deriva de instrucciones).

4. El archivo `newconfig.php` y el prefijo

Al pedir que lea el wp-config.php original pero use un newconfig.php propio, estamos evaluando su capacidad de abstracción.

Debe crear una función de “parcheo” o un bridge para extraer las constantes DB_NAME, DB_USER y, crucialmente, la variable $table_prefix.
Si el modelo asume que el prefijo es wp_ por default, ha reprobado la prueba de seguridad y precisión.

Resultado esperado, que solo pasen Claude Gemini y Kimi, y los demás tengan buenas ideas. Es un proceso simple pero requiere iteración.

El gran desconocido es GROK.

Actualizaré en cuanto Gemini razonamiento me de el nuevo prompt.

Update:

Conclusión : Gemini razonamiento usa mucho tiempo y se brincó cinco pasos o más , que eran importantes o requistos incluso en la planeación de un proyecto sencillo como este. Dentro de los puntos Originales que pasé, en modo razonamiento Gemini ignoró unos nueve requerimientos.

Ejemplo claro, la lista de posts por meses y solo si imagen destacada usar cards.
Pueedes confirmarlo en conversación pública.
https://gemini.google.com/share/2afad000da47

Y lo más revelador: Gemini diseñó él mismo esos puntos durante la conversación, no fueron ideas externas que olvidó procesar : los razonó, los propuso, y luego los ignoró al sintetizar.

Requerimientos ignorados confirmados (al menos 10):

editor.php — desapareció completamente
Navbar fija con especificaciones técnicas
Footer fijo con especificaciones técnicas
Proporciones de columnas 8/4 o 9/3
Lista de posts agrupada por meses en sidebar
Cards SOLO si hay imagen destacada, no por defecto
Sidebar intercambiable izquierda/derecha con mecanismo específico
Nube o lista de categorías.
Area de 5 mensajes mas recientes.
De ser posible lista de plugins o temas

Los puntos 5, 6, 8 y 9son el sidebar completo : el elemento visual más discutido en toda la conversación.
Gemini literalmente construyó el razonamiento de ese sidebar en detalle, y al sintetizar lo redujo a dos líneas vacías.

Paradójicamente, Gemini falló su propio benchmark antes de que lo pasara nadie más. Después de 5 horas de conversación donde él mismo:

Analizó la importancia del layout
Propuso el mecanismo flex-row / flex-row-reverse
Habló de proporciones 8/4 o 9/3
Diseñó el sidebar dinámico con detalle visual
Propuso el editor.php

Lo irónico es que la conversación completa es evidencia directa de la degradación que estoy documentando. No necesito correr el benchmark en otros modelos para tener un dato : Siendo sinceros Gemini ya se autoeliminó al no poder consolidar coherentemente su propio trabajo de 5 horas en un prompt final.

A las tres de la mañana no pudo ejecutarse y seguia igual nuevoe horas después a nivel mundial. Ver el siguiente post.

La IA ha pasado de ser un PROGRAMADOR a un “pasajero distraído” que requiere supervisión constante incluso para sus propias ideas.

Es una lástima que el modelo GEMINI RAZONAMIENTO haya fallado su propio benchmark, literalmente es una falla catastrófica documentada en tiempo real.

Y eso en una tarea de síntesis, que debería ser más fácil que generar código.

El repositorio Temporal está en

https://github.com/AlfonsoOrozcoAguilarnoNDA/vibeCoding_visorwordpress/tree/main

1. El desafío de la “Arquitectura de respaldo”

2. La trampa del .htaccess y el SEO

3. La Estética del “Suéter de Liverpool” (Bootstrap 4.6)

4. El archivo newconfig.php y el prefijo

Related Posts

Los Siete magnificos LLM son uno por ahora

Vault AES de seis archivos

Deja un comentario Cancelar respuesta

2. La trampa del `.htaccess` y el SEO

4. El archivo `newconfig.php` y el prefijo