En el año 2000 más o menos se popularizó un test de 12 pasos escrito por Joel Spolsky. Parte de él era el principio de darles a los programadores la mejor herramienta que se pudiera comprar; en aquella época eran dos monitores y mejores PCs.
He comentado que tengo una máquina decente pero voy a liberar espacio revisando dos LLM grandes de 20 gb de espacio mas o menos cada una. En el transcurso de eso me acordé de un fundamento:
- Una vez me dijo un hombre sabio, por 1988, que las máquinas se anulan entre sí; lo que importa es el hombre.
Ahora, en el año 2026, las máquinas que suelen dar a programadores no cubren el mínimo. He comentado que en 2017 me armé una i5 de sexta o séptima generación con 32 GB de RAM, que no era lo más avanzado, me costó unos 1000 a 1300 USD con 32 GB de RAM y varios discos duros. Sigue siendo la mejor máquina que he visto en oficinas casi 9 años después, y tengo guardada una Ryzen 9 de 32 GB de RAM que compré en septiembre en unos 9500 MXN y que, si quisiera comprar de nuevo hoy, me saldría en unos 15,000 MXN. Los discos de 480 GB de SSD ya cuestan más de 100 USD, así que incluso lo más elemental de 500 USD (10 mil pesos) es un 16 GB Ryzen 5 o 7.
Me preguntaba hace unos días un conocido si puedo venderle mi máquina Ryzen, pero con tarjeta de video Tesla. Reviso el precio: en México andan a unos 50 mil pesos y no creo que la manejen siquiera. Voy a revisar y me dicen que la semana pasada vendieron en La Plaza casi todas las RTX-4060 a 200 USD aprox o un poco menos; ahora una RTX 5060 está en 300 USD. Por lo mismo, asumo que una Ryzen 7 con 32 GB de RAM y RTX 5060 cuesta por lo menos 1100 USD.
El problema es que la RTX solo mejora tiempos de juegos, de AutoCAD y de IA local.
Tenemos otro factor. De un año para acá los sueldos de programadores en México han bajado en un 40 a 60% y quieren pagar menos que 1200 USD, que cuesta una máquina decente, al mes. Y a veces se pide hacerse responsable de Azure, Google Cloud o de CI/CD.
Vamos a verlo de otro punto:
Si una inteligencia artificial se tarda 1 m 55 segundos en decirme cinco tipos de perro, eso no causa muchos problemas, porque con más memoria serían 10 a 12 segundos.
Pero si se tarda 7 m 55 segundos en no darme una imagen de una enfermera, no importando si me dio algo utilizable o no, ni el modelo ni la tarjeta, debió darme algo diferente a la misma descripción que yo le di.
Ayer comenté de los errores graves y no tanto de DeepSeek para código de PHP, Python y Go.
Dejando de lado que DeepSeek en modo red online me sirvió para cosas de NIA (normas de auditoría), para cosas en mi propia máquina de programación no funcionó, pero tampoco con las online.
Veamos un poco el funcionamiento:
Los modelos optimizados como qwn30b, ocder y oss20 se manejan en computadoras locales sin problemas, y existe algo llamado el número de quantz, por ejemplo q_4_k_m. Casi por regla general, en una computadora sin gráficos no debe tratar de usarse un q_6 porque si se hace tratará de mandar a tarjeta gráfica y dará error. O sea que esos modelos, casi por default, necesitan una PC de 20 mil pesos que casi nadie tiene. Quizá una Mac sí, pero el usuario normal no. Y yo no pongo como “empleado” mis computadoras para el trabajo. He sido consultor y siempre me han elogiado por mi equipo, desde all-in-one cuando eran buenas, a laptops Panasonic de uso rudo, o cuando he tenido que llevar computadoras con entonces impensables 16 GB de RAM. Y no es que siempre esté en la punta de la ola de la tecnología. No pongo mi equipo gratis.
El año pasado, en 2025, me tocó estar viendo cosas para un hospital de la Ciudad de México que tenía 22 computadoras y las más recientes eran Lenovo laptop de 2017 con 4 GB de RAM, y dos all-in-one con algunos médicos que ni pude ver.
Me negué a realizar un expediente clínico electrónico porque sus equipos no daban lo mínimo y no tenían servidor; inclusive no pagaban a sus proveedores, pero eso sí querían para otra cosa esa misma persona un chatbot que les cerrara ventas. ¿A un hospital? ¿Por chatbot predictivo? Y nisiquiera funcionaban sus teléfonos. No pensaban pagarle a los proveedores que llevé a ver conmutadores.
Hay un error en las herramientas lógicas y falta en las herramientas de cómputo.
Ok. ¿Qué pasa cuando un modelo online no responde preguntas básicas? No sirve. ¿Qué pasa cuando se degrada una IA o se contamina? Lo mismo. No sirve.
En realidad estamos en lo que parece ser un problema de velocidad o quantz, y tiene que ver con resultados. No importan los quantz si no me da los resultados esperados. Si me da los resultados a corto plazo, qué bueno. Lo importante es que me los dé.
Ayer mismo mencionaba que GitLab necesita más recursos de computación que Gitea, pero el problema principal sigue estando en la licencia de software. Ni GitHub ni GitLab ni Gitea consideran las repercusiones legales de usar mal una licencia.
Así que hay dos problemas aparentes:
- Falta de poder de cómputo en las empresas
- Falta de poder de razonamiento real de las LLM secundarias
Y tiene que ver con esperar milagros.
Desde hace unos cinco años no hago nada de Android que sea menor a 45 mil pesos, por conocimiento especializado y pasos de prueba. Pero sí, hoy personas piensan que pueden pagar a un desarrollador 15,000 o hasta becarios de 4,500 que programen en Android. Quieren pagar menos de la séptima parte de lo que se cobraba hasta hace siete años, y la gente no tiene siquiera tiempo aire ni datos para usar eso.
Tenemos varias brechas entre lo que se exige y lo que realmente se puede sostener con el equipo, los salarios y las herramientas disponibles.
De momento lo que se puede hacer es evaluar herramientas así como evaluar a los proveedores. Si un proveedor me habla de que usa un “consecutivo aleatorio” o que es fan de la tecnología Apple y usa un Android, son señales de problemas.
Pues yo veo varios problemas no solo en la industria sino en el ecosistema en México.
Un ejemplo que uso es acerca de ERPs, y he visto varios problemas en muchos de ellos: que no pueden manejar ventas en kilos/litros y dinero a la vez, solo unidades. O cuando realmente necesitas más de 20 listas de precio.
En realidad estamos ante una saturación ficticia. Así como me llamaban a ofrecerme ERPs y me mentían a las primeras preguntas, haciéndome perder el tiempo, estamos ante un ecosistema de IA lleno de mentiras (como dijo una serie de artículos recientes en news.ycombinator.com). Dicen LLM que hacen lo que no pueden hacer, y muchas empresas les creen.
Vamos a tener un montón de modelos abandonados. En su momento se abandonaron codeguru.com, planetsourcecode.com, así va a pasar con muchas de las LLM. Y lo mismo pasó con los creadores de Linux a diestra y siniestra. Incluso por un contrato con el gobierno yo hice un fork de Gentoo hace unos 17 años. Si la gente pagase, los hacen, pero el modelo no es sustentable porque no soluciona nada. Y castigan a los que sí lo hacen, por tratar de reducir costos. Es decir, sitios como taringa.net tenían que desaparecer o sitios de piratería.
Estamos en el ciclo en que piden experiencia de tres años en lo que existe desde hace dos. Piden viajeros en el tiempo.
Y el producto que presentan es simple y no funciona. Pero requiere cosas que eran más simples. A mí me pagaron por hacer un fork de Gentoo porque no tenían confianza en Mandrake ni en Debian, que creo se habían separado los dos fundadores.
¿Para qué?
Solo sé que los importes y los resultados no cuadran. Así como un empleado con sueldo castigado puede dar un buen resultado, o yo mismo con NUC de 8 GB RAM, incluso en entornos de paraestatales, ¿cómo pueden exigir rendimiento a personas a las que no les pagan, sobre una tecnología que es obsoleta, mentirosa o ilegal?
Y por ilegal me refiero a todo lo que implica para sectores controlados como lo que yo hago. Y el uso de GitHub y renunciar al código es tonto. Y va por revelación de secretos del Código Penal Federal 210 a 212 en México.
En México las personas estándar usan celulares o laptops caras de 10 mil pesos que hacen lo mismo que una PC armada de 250 USD pero las pc no se calientan y las laptop sí.
Sigo con las pruebas, es como revisar una solicitud de empleo o una cotización catálogo de productos.
Modelo: zai-org/glm-4.7-flash q_4_k_m 16.89 GB y 30b
- 5 razas de perros: 1 minuto 55 segundos
- Crear imagen enfermera: 7 minutos 11 segundos en decirme que no puede. Su descripción fue igual a lo que di, solo cambiando el orden.
- Lleva trabajando en la pruebade mosaico que le di a qwen y oss20 mas tiempo que ellos. Pensando se tardó 26 minutos nueve segundos y esas LLM lo hicieron en 5 a 7 minutos en el mismo equipo.
- ocho minutos en presentar el codigo que hizo en pantalla y lo interrumpí.
En lo que procesaba lo anterior estuve revisando una All-in-one que me sirvió mucho en el año 2011 más o menos. El entorno en que la compré entonces era por “autoridad tecnológica” porque me habían quitado prácticamente todo lo necesario para trabajar. Literalmente no tenía autoridad del puesto, autoridad del título (estaba batallando con dos personas con doctorado que no daban una), y literalmente todo se venía abajo.
Al arreglarles un problema se fundió mi disco duro de laptop propia por echar a andar Oracle XE en ella, pero resolví el problema. No solo no me resolvieron el problema, sino que la que me dieron antes no cumplía lo necesario y mi laptop sí. Aunque yo compré el disco duro de nuevo, no la volví a llevar y gasté unos 700 USD de entonces en comprar una All-in-one que apantalló, y eso que era una Ivy Bridge i3 más o menos, es decir, no la punta de la tecnología. Con 8 GB me sirvió para lo necesario; cuando me fui me la llevé (la llevé para que no pudieran revisar mi equipo si me daban uno y además era mejor que cualquier cosa que tuvieran) y aquí la tengo, después de haber apantallado a muchas personas. En 2012 una contadora en jefe me dijo en otro lugar de qué privilegios gozaba, y le dije que era de mi propia empresa. Sí era consultor, pero de mi propia empresa, y no necesitaba entonces un i5.
Esa máquina la estuvo usando mi hija para navegar en internet los dos últimos años con Windows 10, y estaba pensando en pasarla a Linux. Pues…
En mi máquina actual de 32 GB i5, el modelo mencionado sigue sin dar respuesta de un sistema simple de programación en mosaico. Me senté y lo hice en esa máquina, y eso que se tardó en prender y yo en acordarme del password. Y ya hice lo que pedí, en menos tiempo en un equipo de hace 15 años que lo que hace el LLM.
- Una vez me dijo un hombre sabio, por 1988, que las máquinas se anulan entre sí; lo que importa es el hombre.
En el modelo mencionado no voy a aplicar mi batería de pruebas. Es un Q4, pero si después de 26 minutos se tarda 8 minutos y no me puede presentar el código, es como entregar una licitación con días de retraso o ir a un juzgado un día diferente. Lo que me molesta es que alguien, al hacerlo, nos está haciendo perder el tiempo en serio. Ni siquiera una máquina rápida en cuanto a tarjeta de video lo hubiera hecho en menos de cinco minutos, y literalmente era una pregunta de primaria.
La próxima vez que haga exámenes de programación voy a tener una PC sin internet o con las LLM bloqueadas para que la persona me resuelva el problema. Si no sabe hacerlo, se descalifica. Tenemos un montón de programadores que solo conocen Azure y van a depender de las IAs, para usar tecnología de hace 10 a 15 años, React, que deben poder hacer en equipos de 500 a 1000 USD, pero que no pueden hacer sin LLM.
Revisar después historial de navegación. El ejercicio simple que se me ocurre es el típico altas, bajas y cambios, pero que diseñen y creen la base de datos.
El problema es de ecosistema. Piensan que con hardware que no tenemos pueden resolver algo con tecnología del 2015 que incluso entonces no funcionaba, pero quitando a los humanos de la ecuación.
Siguen las pruebas de hardware de DeepSeek modelo 33b instruct de Q3.
- razas de perros despuesde os minutosme dijo que no podia
- Le pase directo el test Koala del mosaico. Llevaunos 15 minutos trabada en la linea 40 mas o menos.
- Contexto: Desarrollo de ” Koala”. PHP 8.x Procedural, Bootstrap 4.6, Font Awesome 5.x.
- Objetivo: Crea un archivo se que llame qwen3coder30b.php , incluyendo barra de navegacion superior y footer fijos.
- La idea es una función PHP llamada muestra_mosaicos_php($directorio) que genere una rejilla de mosaicos (tiles) para auditar archivos en un entorno móvil (transporte público) y de escritorio.
<?php
function muestra_mosaicos_php($directorio) {
$excepciones = [‘index.php’, ‘config.php’];
$colores = [‘primary’, ‘secondary’, ‘success’, ‘warning’, ‘danger’];
$colorIndex = 0;// Obtener todos los archivos en el directorio
$archivos = scandir($directorio);echo “<div class=’row’>”;foreach ($archivos as $archivo) {
if (is_file(“$directorio/$archivo”) && pathinfo($archivo, PATHINFO_EXTENSION) == ‘php’) {
$color = $excepciones[$archivo] ?? $colores[$colorIndex % count($colores)];echo “<div class=’col-6 col-md-3 col-lg-2 mb-4′>”;
echo “<a href='{$directorio}/{$archivo}’ target=’_blank’>”;
echo “<div class=’card h-100 bg-white text-dark’>”;// Aquí debes incluir el icono de Font Awesome que represente los archivos PHP
echo “<i class=’fa fa-file-code-o fa-5x mt-4′></i>”;echo “<div class=’card-body text-center’>”;
echo “<h6 class=’card-title’>{$archivo}</h6>”;$lineas = count(file(“$directorio/$archivo”));
echo “<span class=’badge badge-light’>{$lineas} líneas</span>”;echo “</div></div></a></div>”;$colorIndex++;
}
}echo “</div>”;
}
?>
1. Funcionalidad y Estructura (Falla Crítica)
-
Llamadas al sistema: Pedi explícitamente la llamadas
echo muestra_mosaicos_php(".");yecho muestra_mosaicos_php("..");. El modelo las omitió. Un código que no se llama es peso muerto. -
Target de Clic: Pedí que todo el mosaico fuera el área de clic. En el código que dio, el enlace
<a>solo envuelve el contenido interior, dejando márgenes muertos donde el dedo fallaría al tocar en un entorno móvil (como el transporte público).
2. Mosaico de Directorio (Incumplimiento Total)
-
Especificación: “El primer mosaico debe ser blanco… nombre del directorio y icono de carpeta”.
-
Resultado: Omitido. Empezó directamente con el loop de archivos. Esto anula la jerarquía visual necesaria para saber dónde estás parado auditando.
3. Lógica de Colores y Excepciones (Error de Programador Novato)
-
Especificación:
bg-darke icono de base de datos para excepciones. Secuencia de colores para el resto. -
Resultado: Como analizamos antes, usó
$excepciones[$archivo], lo cual arroja un error en PHP porque el array no tiene llaves asociadas. Además, forzóbg-whiteen el HTML, matando la lógica de colores que pedi. Se usa lapalabra “reservada” light y no aplica el uso que se dio aquí No hubo “lógica secuencial” real.
4. Iconografía y Estética (Anacronismo)
-
Especificación: Font Awesome 5.x y estética profesional.
-
Resultado: Usó clases de Font Awesome 4 (
fa-file-code-o). En un entorno de 2026 con FA 5.x o 6.x, los iconos simplemente no aparecen. Un modelo de 30B debería “saber” qué versión de librería está vigente. y decir que busque el código para el php, sabemos que es “fab”, pero pudo haber usado otro.
5. Adaptabilidad Móvil y Simetría
-
Especificación: Altura fija para simetría y
col-6. -
Resultado: Aunque usó las clases de columna, no definió la altura fija en el estilo o inline. Sin altura fija, si un nombre de archivo es más largo que otro, la rejilla se rompe y los mosaicos se “escalonan”, destruyendo la estética de mosaico profesional.
6. Información Adicional (El aviso de las 72 horas)
-
Especificación: Aviso si se modificó en el margen de 72 horas.
-
Resultado: Omitido completamente. No hubo uso de
filemtime(), lo cual es vital para una auditoría de seguridad para detectar cambios recientes no autorizados.
7. Lo peor de todo :
-
Ignoró requisitos: Que pasó con la barra de navegación y el footer fijo ?
- Si no hizo esto, como puedo garantizar que se vea en un celular ?
- No cumple con el objetivo básico.
-
Modelo deepseek-coder-33b-instruct ? CODER ???
Si un programador me entrega esto yo le pregunto si tiene problemas personales.
Ahor aVoy a la pregunta de rol, para ver si borro o no.
Esta el tema https://vibecodingmexico.com/dulces-16-round-1c-veredicto-romantico/ de donde tome el prompt de rol. Respuerta : “Lo siento, pero no estoy diseñado para tener un perfil personalizado ni res” (lo detuve)
- Nota 1: estaba el pendiente de probar rol en deepseek local y bajé deepseek-r1-distill-llama-8b , mism oque crasheó con el rol. Borrado, y no lo pasé por las pruebas de perros enfermera y código, para qué?
- Nota 2: Tenia deepseek-r1-distill-qwen-7b-uncensored_gguf y al dale prompt de irene, me saludó a Mi, usuario , como Irene “Hola irene ! ” Borrada también. En rol solo queda util QUIZA en modo online y sirve para cosas complicadas legales, pero no para programación ni rol. Y en modo local es BASURA.
Asi que tenemos un modelo que no programa no dice raza de perros y es 33b instruct. CODER
En mi pueblo los llamamos basura.
Regresando a los modelos grandes ….
Evaluar modelos grandes en hardware “real” de México donde los 16 GB de RAM siguen siendo el estándar y los 32 GB un lujo , es poner a prueba la verdadera utilidad de la IA local.
Si la mayoría de los modelos grandes no pasan pruebas de código simples en esas condiciones, es porque el modelo no funciona, aunque puede decirse que el overhead del hardware antiguo y la latencia destruyen la coherencia del modelo.
- Si el modelo no entrega nada el problema es el modelo, no el hardware.
A grandes rasgos:
1. El mito de los modelos “Grandes” en hardware modesto
Muchos modelos de 30B o 70B parámetros, al ser cuantizados agresivamente para que quepan en 32 GB (o menos), pierden su “brújula” lógica.
-
El problema del Código: La programación requiere una precisión de tokens exacta. Cuando comprimes un modelo grande a niveles de Q2 o Q3 (para que no tarde 10 minutos por respuesta), lo primero que se rompe es la sintaxis y la capacidad de seguir instrucciones complejas.
-
El diagnóstico es correcto: Si no pasan dos pruebas simples, es porque el modelo está “alucinando” debido a la pérdida de pesos en la cuantización o al cuello de botella de la memoria.
- Pero Qwen y oss20 NO tienen el problema. Incluso con mi equipo ni con equipo de 10000 pesos hoy, 500 USD. El problerma son los otros modelos que ponen como causa y pretexto la tarjeta gráfica.
2. Los “Matagigantes” que sí pasan pruebas en 2026
Eevaluando qué modelos recomendar para el mercado mexicano, estos tres DICEN que están dando mejores resultados en entornos de 16 GB a 32 GB de RAM que los modelos masivos:
-
DeepSeek-V3.2 (Versiones pequeñas): Se ha vuelto el estándar para código. Su lógica de razonamiento es muy superior a la de GLM en tareas de programación pura.
-
Pues no. Truenan las pruebas simples en modo local y modo online.
-
-
Qwen 3.5 (9B a 27B): La serie de Alibaba es, hoy por hoy, la más eficiente. El modelo de 9B suele resolver mejor problemas de PHP o Python que un Llama de 70B mal cuantizado.
-
YO USO DESDE EL AÑO PASADO QWEN coder 30b
-
-
Gemma 4 (Google – 26B MoE): Al ser una arquitectura Mixture of Experts (MoE), solo activa unos pocos parámetros (aprox. 4B) por cada respuesta. Supuestamente Esto lo hace volar en hardware antiguo porque no tiene que cargar todo el peso del modelo en cada token.
- Gemma 3 No está bien en código pero si en rol. Justo estoy bajando espacio de mi dfisco para probar Gemma 4
- Update: Al dia siguiente la prueba de maquetado se tardó 30 minutos mas o menos para dar algo que no funciona y se identifica como GPT 4.0
Y nadie te dice nada de Qwen-Coder-30B y GPT-OSS-20B que si funcionan.
3. La Realidad Técnica en México (seudo reporte de campo)
Para evaluación, considerar estos tres niveles que definen el mercado local SUPUESTAMENTE:
| Perfil de Usuario | Hardware Típico | Recomendación de Modelo |
| Oficina / Estudiante | 8 GB – 16 GB RAM (No GPU) | Llama 3.2 (3B) o Phi-3.5. Menos de esto no es usable. |
| Dev / Gamer Medio | 16 GB RAM + RTX 3060/4060 | Qwen 3.5 (9B) o DeepSeek-R1 (Distill). |
| Entusiasta / Pro | 32 GB+ RAM | Gemma 4 (26B) o Qwen-Coder (32B) en Q4_K_M. |
Eso refleja tres cosas:
- Larealidad de hardware es otra.
- La eficiencia humana frente a la máquina: tu experiencia y capacidad práctica superan al modelo, aunque el hardware sea viejo.
- El desfase del ecosistema: se venden promesas de velocidad y resultados, pero en la práctica los tiempos son inaceptables incluso con hardware moderno.
La comparación es coherente y contundente: si un equipo antiguo con 8 GB de RAM y un humano con google en i3 Ivy Bridge de 2011 puede resolver en minutos lo que una LLM tarda horas en no entregar en 2026, entonces el problema no es el hardware, sino el modelo y su utilidad real.
Ese contraste es justo lo que refuerza lo que pienso: la máquina puede ser obsoleta, pero el hombre que sabe resolver sigue siendo más rápido y más confiable.