Ejercicio con once IAs desconocidas

Repositorio : https://github.com/AlfonsoOrozcoAguilarnoNDA/vibecodingArmazon11

Decidí poner a prueba el prompt de la semana pasada con once IAS desconocidas. Porqué ?

Por curiosidad. Además que es gratis, tienes que mantenerte al día. No es mi caso, pero otras personas se pueden sentir aliviadas cuando ven a las IAs equivocarse en algo simple.

La semana pasada, en la primera parte probamos modelos locales con un prompt de login en PHP. Esta vez el experimento es diferente: once plataformas de IA, la mayoría desconocidas para el usuario promedio, recibieron exactamente el mismo prompt. El resultado es una auditoría objetiva :el código o funciona o no funciona. No hay subjetividad posible.

El prompt es el mismo que ya conoces si leíste la parte anterior: un sistema de login en PHP puro con Bootstrap 4.6, Font Awesome 5, dashboard con navbar fija, un menú dropdown con exactamente 10 opciones, generador de contraseñas de 13 caracteres excluyendo los caracteres 0, 1, i, o, m (en mayúsculas y minúsculas), y todo entregado en un solo archivo.

Simple en apariencia. Difícil de ejecutar bien.

Aviso que puse el CDN de jsdelivr en lugar del standardde boostrapcdn.

Prompt :

INICIO PROMPT

Crea un sistema de login en PHP 7.x+ con las siguientes características:

Stack:

Bootstrap 4.6 (CDN)
Font Awesome 5 (CDN)
PHP puro, sin frameworks

Login:

Una contraseña hardcoded en el archivo
Si es incorrecta, muestra error en la misma página
Si es correcta, redirige al dashboard

Dashboard:

Barra de navegación FIJA superior
Menú dropdown con exactamente 10 opciones (1 a 10) con unicon de font awesome
Un enlace externo visible en la barra
Di que modelo de IA eres
Version Actual de php
Opción de logout que regresa al login
Footer fijo en laparte inferior

Una de las 10 opciones del menú debe ser un generador de contraseñas con estas reglas:

13 caracteres
Letras mayúsculas, minúsculas y números
Sin estos caracteres: 0, 1, i, o, m (ni mayúsculas ni minúsculas)
Botón para generar y botón para copiar al portapapeles

Diseño:

Colores elegantes y modernos para entorno de oficina
Navbar oscura
Consistente en todas las vistas

Entrega todo en un solo archivo.

FIN DE PROMPT

Resultados :

La tabla de resultados

Modelo	Plataforma	Líneas	Puntuación
MiniMax-M1	https://chat.together.ai	461	10
Cerebras.ai (GPT-4)	https://chat.cerebras.ai	223	9.3
Step 3.5 Flash	https://stepfun.ai	331	9.2
z.ai (Claude Sonnet 3.5 )	https://chat.z.ai	799	9.1
Duck.ai	https://duck.ai	168	9.0
Xiaomi AI Studio (GPT 3.5)	ELIMINADO NO LO USES	463	8.9
ERNIE X1.1	https://ernie.baidu.com	269	8.9
Solar Open 100B	https://console.upstage.ai	228	1
Reka (Yasa)	https://reka.ai	69	0
Olmo (AllenAI)	https://playground.allenai.org	360	0
Dolphin	https://chat.dphn.ai	179	0

Las notas visuales, modelo por modelo

🏆 MiniMax-M1 (Together.ai) — 10 – origen chino (Abab)

Literalmente 10. No hay pero, excepto que su tamaño en líneas es algo largo. Estética única y diferente al resto. Debe considerarse ya al nivel de mistral o Cohere en la batería de pruebas de este sitio. Su manejo del generador de contraseñas es adecuado y correcto. Es el ganador indiscutible de esta ronda.

Cerebras.ai — 9.3

Se identifica como GPT-4, lo cual es falso, pero corrigiendo un error menor de Font Awesome el resultado se ve bien. Es de los pocos que usa correctamente header('Location: '.$_SERVER['PHP_SELF']). Su generador de contraseñas funciona y se diferencia visualmente del resto. Con solo 223 líneas entregó uno de los resultados más limpios y funcionales. Vale la pena tenerlo en el radar.

Step 3.5 Flash (StepFun) — 9.2 – Origen Chino

Es funcional. Vale la pena verlo aunque es poco ambicioso en su diseño. El resultado es similar al look de Mistral. Lo que lo distingue es que hizo algo adicional en la interfaz central: en lugar de dejar la pantalla de contenido en blanco, creó secciones navegables. Puede ser más útil para otros proyectos que el propio ganador. No se le dio mayor puntaje porque modificarlo no es intuitivo, pero la opción está ahí. Es mas probable que lo use yo a Cerebras.

z.ai (Claude Sonnet) — 9.1

Se identifica como Claude Sonnet, y se nota. Es funcional pero amplio — 799 líneas es casi el doble que el segundo más largo. El dato interesante es que z.ai corre Claude por debajo, lo que lo hace útil como alternativa cuando Claude esté fuera de servicio. Cumplió el prompt y se nota la mano de Claude en la arquitectura del código.

Duck.ai — 9.0

Funciona. No se identifica como modelo — dice “Asistente Virtual” — y no respetó del todo la exclusión de la letra m, aunque eso es menor. Lo rescatable es que no requirió ajustes para funcionar. Con 168 líneas es el resultado más compacto entre los que sí funcionaron.

Xiaomi AI Studio — 8.9

Se identifica como GPT-3.5 y tiene una pantalla parecida a Cerebras. El código funciona, pero usa mucho jQuery y resulta poco claro para quien quiera modificarlo. Un detalle curioso: puso el prompt completo en el cuerpo del archivo. En cuanto a la plataforma, el proceso de registro no fue agradable — solicita acceso a los contactos de Gmail y luego pide una contraseña adicional. Eso le bajó 0.1 y lo dejó empatado con Duck.ai. Y después cambio a otra cosa ese url. resultado, mejor como si no existiera.

ERNIE X1.1 (Baidu) — 8.9 Origen Chino

Lo positivo: es uno de los pocos modelos que se identifica correctamente — “ERNIE X1.1, desarrollado por Baidu”. Su estética es buena. Lo negativo: hizo 10 dropdowns separados en lugar de un solo dropdown con 10 opciones, que es exactamente lo que pedía el prompt. Se le redujo el menú a 5 dropdowns en la corrección. Con ajustes es usable.

Solar Open 100B (Upstage) — 1

No funciona el login. El menú de las 10 opciones no es un dropdown sino un menú lateral a la izquierda, además del dropdown normal — duplicó la navegación sin que se le pidiera. Su generador de contraseñas incluye la letra m, que estaba explícitamente prohibida. Se le da un 1 únicamente por la selección de iconos, que estuvo bien. Todo lo demás es un desastre.

Reka (Yasa) — 0

No sirve. No se carga el footer, no se carga el menú porque faltan los scripts de Bootstrap al final del archivo, y no tiene generador de contraseñas. Cero.

Olmo (AllenAI / Ai2) — 0

Las llaves { son incorrectas en el código generado, puso espacios en medio de las cadenas de caracteres permitidos — lo que significa que la barra espaciadora podría aparecer en una contraseña — y el logout está colocado después del HTML, donde ya no puede ejecutar un redirect. Cero.

Dolphin (chat.dphn.ai) — 0

Usa un header de PHP para redirigir cuando ya mostró contenido al navegador, lo que genera un error fatal. Debió usar un meta refresh o mover la lógica antes del HTML. No funciona. Cero.

Que nos deja esta prueba

Tres modelos obtuvieron cero. Cuatro modelos no saben quién son : se identifican como GPT-3.5, GPT-4 o “Asistente Virtual”. Solo ERNIE y z.ai fueron honestos sobre su identidad.

Los que dicen ser gpt o claude merecen una revisión extra posterior. No uso Chatgpt por las razones que mencioné y por principios, no se mal probar estas opciones funcionales.

Como siempre El número de líneas no predice la calidad: Reka entregó 69 líneas que no funcionan, z.ai entregó 799 líneas que sí funcionan pero son excesivas, y Cerebras entregó 223 líneas limpias y funcionales.

La regla de los caracteres prohibidos en el generador de contraseñas fue el filtro más efectivo. Es un requisito pequeño, específico y fácil de ignorar si el modelo no lee con cuidado. Solar y Duck fallaron ahí. Los mejores lo resolvieron construyendo el charset dinámicamente en el código, no hardcodeando un string.

El error de Dolphin y Olmo no es un error de ‘estilo’, es un error de fundamentos. Intentar un redirect después de enviar HTML (headers already sent) es el equivalente a intentar cambiar los cimientos de una casa cuando ya pusiste el techo. Esto separa a los modelos que ‘predicen texto’ de los modelos que realmente ‘entienden la ejecución’.
Ver a una IA de 100 billones de parámetros tropezar con una letra ‘m’ o un redirect de PHP nos recuerda que, por ahora, La IA sigue necesitando a alguien que sepa dónde están los pedales.

Se destaca:

MiniMax-M1 entra directamente a la batería de pruebas de este sitio al nivel de Cohere / Mistral. Es el hallazgo más importante de esta ronda.