Texto ordenado por claude pero escrito por humano.
Es la una de la tarde y estoy escribiendo tarde para mis estándares. Primero porque me quedé dormido después de una desvelada sacando respaldos, y segundo porque ya no existe ese espíritu de maravilla que tenía el internet de 1991, ni el que tenían las LLM hace apenas dos años. En este momento estamos en un estado que se parece más a la burocracia, las mentiras, los trámites, y lo que ya se conoce como enshitification: la degradación progresiva de productos físicos y digitales que alguna vez fueron extraordinarios.
Tuve una educación bastante sólida, basada en el ejemplo de un hombre extraordinario (mi padre) y la lectura de libros de todas las categorías. En 1991 empecé a trabajar a los 19 años. Mi padre pasaba por varias cosas personales en ese momento, así que preferí resolver mis asuntos por mi cuenta. En mi primer trabajo me salieron detalles que no había considerado: Soy un hombre estándar, con código moral claro, fuerte físicamente, pero sin el encanto o el atractivo físico de mi padre. Era consciente de que tenía que aplicar el lema de la Universidad de Guadalajara: Piensa y trabaja. Llenar con libros los vacíos de información. No era correcto causar problemas en casa.
Unos años después, ya en la universidad, me tocó ver en la materia de mercadotecnia lo que se conoce como las Cuatro P: Precio, Producto, Presentación y Plaza. Se aplican a muchas cosas. Hoy me di cuenta de que instintivamente las aplico también a las LLM.
La fábrica de sobres
Uno de los libros más interesantes que he leído se llama Nada entre tiburones sin que te coman vivo, de Harvey Mackay (en inglés: Swim with the Sharks Without Being Eaten Alive). Es un libro escrito por un empresario que en su juventud hizo una mala inversión: compró una fábrica de sobres. Se dio cuenta de que el producto era idéntico al de cualquier competidor, con márgenes muy limitados, y que era prácticamente imposible distinguirse en calidad o precio. La única palanca real era el servicio.
Uno de mis lemas a partir de entonces es describirme a mí mismo como alguien con actitud de servicio, que no es lo mismo que ser proactivo. Tengo genuino interés en que las necesidades de mis usuarios se resuelvan, pero usando palabras más directas: no soy adulador, no le doy la razón a alguien porque sí, como a veces hacen las LLM. Me interesa la sana convivencia, pero soy consciente de lo que no sé y de lo que no me interesa. El propósito de este sitio es exactamente eso: actitud de servicio, es compartir para organizarme mejor, sin imponer.
El precio importa, siempre
El precio es a veces un factor determinante. En mi primer año de trabajo obtuve varios bonos y, sumando mis ahorros y vendiendo mi coche, compré mi primer departamento antes de los 20. Vivía con límites claros y deliberados. Existían unas tiendas del ISSSTE donde el pan Bimbo integral para sándwiches costaba 50 centavos menos. Y sí: prefería caminar nueve cuadras de ida y nueve de vuelta, sin sol y sin comprar refresco, para ahorrar esos 50 centavos. Lo hacía unas seis veces al mes. En apariencia el ahorro era mínimo, pero compré mi casa porque entendí que el precio importa y que la cantidad de recursos disponibles abre puertas. Mi padre me decía que el dinero en efectivo es un multiplicador, que vale más, y es cierto. Mientras más dinero reunía, más opciones tenía. Y decidí usarlos bien.
Las LLM en México tienen un problema opuesto en precio.
La gente de a pie, por lo general, no toma las decisiones ni tiene el poder de compra. Para toda Latinoamérica, es decir, para los que no manejamos divisas en USD, comprar una suscripción en dólares es algo que se piensa. Durante unos años tuve suscripción a World of Warcraft porque jugaba con mi esposa y un conocido. Llegué a activar una segunda y tercera cuenta cuando se necesitaban para un raid (batalla de 15 a 40 jugadores a la vez).
El precio estándar de suscripción mensual de WoW en México es más bajo en México que en Estados Unidos, ajustado al poder adquisitivo, y en su momento la cuenta se pagaba sola con la venta de objetos del juego mediante los llamados Tokens, es decir, cambiando divisa del juego por tiempo de suscripción.
Sin embargo tuve un referente curioso en mi propia familia. Mi prima mayor estaba casada con un empresario importante de la rama metalúrgica, lo suficientemente acomodado para pagar dos universidades caras a sus hijos. Uno de esos hijos estaba interesado en WoW pero le parecía caro pagar 10 USD al mes, y estoy seguro de que le daban más dinero al mes en gastos de lo que yo ganaba de sueldo como adulto. Los precios son relativos. Yo consumía más que ellos y no era pose. Sigo activo, y en su momento tuve guías publicadas de Diablo 2 en The Amazon Basin, un sitio de referencia, y una de mis guías en inglés fue mencionada con enlace en un boletín de Blizzard.
El producto idéntico también tiene Cuatro P
Compro dominios de internet en diversos registrars. No le veo caso a pagar entre 50% y 60% más por estar en un solo registrar (que a a vez no es buena idea todos tus huevos en una sola canasta), y por el número de dominios que tengo. ENOM, por ejemplo, tiene mal servicio. Namesilo no está mal para un dominio pero es ilógico por precio para muchos. Y sí, a veces por gusto, necesidad, ahorro o corazonada muevo dominios de un registrar a otro. Son un bien “tangible”: suscripciones anuales al derecho de usar un nombre de internet.
Y aunque el ahorro puede verse poco, hay otros factores: Spaceship tiene presentación deficiente pero el producto es el mismo, la plaza es accesible y está relacionada con Namecheap, y el precio suele ser bueno. Porkbun sobresale en todo aunque a veces el precio es un poco mayor. Namesilo tiene un precio alto pero plaza con presentación son superior. Es decir: incluso los productos digitales idénticos tienen pequeños servicios añadidos que distinguen la actitud de servicio y las Cuatro P.
Segmentación y orden de llegada
Existe algo llamado segmentación de mercado. Una música de reggaetón, por lo general, aleja a personas con poder adquisitivo mediano a alto. Y hay cosas que son simplemente de orden de llegada, como en un restaurante. Si me siento y atienden primero a la otra mesa que llegó después, puede ser descuido, que sea otro mesero, o que piensen que mi esposa y yo gastaremos menos que tres jóvenes de preparatoria, lo cual es un poco absurdo. Si te sientan en un restaurante donde NO hay un plato sencillo y se sientan dos DINK (double income no kids), es más probable que los de preparatoria consuman menos. El orden no lo es todo, y ese descuido es a la vez un factor de servicio.
Otro ejemplo aplicado a la vida real: a veces tus hijos o subordinados te van a dar tres versiones diferentes de lo mismo en el mismo día. Mi posición es clara: Claro que te creo, pero ahora tengo que corregirte porque las otras dos son mentiras. A cual de las tres le hago caso? Las LLM que adulan en lugar de ser justas cometen el mismo error.
Evaluando las LLM con las Cuatro P
Me sorprendí con el nuevo modelo de Gemini, que ayer no pudo contestar algo simple, se identificó como 1.5 siendo 3.5 y hoy me sale con una versión 3.5 Pro que se anuncia para programación avanzada.
Si ayer se identificaba a sí misma como 1.5 en una prueba real, simplemente no puedo comprometer mi trabajo ahí. Como en un restaurante McDonald’s donde no pido lo más barato sino la mejor carne disponible, o como en una comida con mi esposa donde podemos gastar entre 40 y 80 USD sin que sea un lugar elegante, no gasto en algo que no me alimenta ni me sirve.
Aquí mi evaluación actual de las principales LLM en modo chat, usando las Cuatro P con calificación del 1 al 10:
Tabla comparativa
| LLM | Presentación | Producto | Plaza | Precio | Promedio |
|---|---|---|---|---|---|
| Kimi | 10 | 10 | 8 | 10 | 9.5 |
| Claude | 9 | 10 | 7 | 9 | 8.75 |
| Qwen | 8 | 9 | 10 | 7 | 8.5 |
| DeepSeek | 8 | 8 | 7 | 8 | 7.75 |
| ChatGPT | 9 | 6 | 7 | 6 | 7.0 |
| Gemini | 6 | 7 | 7 | 7 | 6.75 |
| Copilot | 6 | 7 | 2 | 6 | 5.25 |
Gemini
Un caso extraño. Hasta hace unas semanas, la versión 2.5 era lo mejor disponible para trabajo real: confiable, con alta presentación incluso en modo fast, alta disponibilidad e imágenes de muy alta calidad. Pero ya no lo es. La calidad bajó de un mes a otro, la disponibilidad se redujo, y hay demasiados paquetes con el mismo nombre al grado de ser confuso. Hace dos meses le habría dado 10 en plaza; hoy un 7. Para que quiero gastar en algo donde incluso las imágenes bajaron de calidad.
Claude
Confiable, sin nonsense. Tres modelos básicos en modo web, precio estable, presentación sólida. A veces tarda o está saturado, pero eso se entiende. Es el que gana en confiabilidad accesible. Como la fábrica de sobres: entiende perfectamente que cuando el producto es igual, el servicio es lo que distingue.
Kimi
No me ha fallado en nada. Algunas iteraciones pueden ser necesarias, pero el producto es consistente. A veces dice que está ocupado, lo cual se entiende, pero no es problemático. Precio estable a 19 USD. Es probable que este mes lo active en modo pago para probarlo a fondo, especialmente considerando algunos gastos imprevistos como la posible cirugía de una de mis perras.
Qwen
No solo por el código libre sino porque puede hacer cosas que solo Claude y Kimi hacen. El código no es tan bueno, pero no lo necesito para eso. Es muy confiable, siempre disponible, y el modo offline y la licencia abierta son factores importantes. Salieron varios integrantes del equipo, pero el modo Qwen3 30B Coder y la licencia abierta dan suficiente confianza, además de estar DISPONIBLE.
DeepSeek
Me quedé bloqueado hace dos meses y perdí unas conversaciones sin saber por qué. En programación en tres lenguajes no lo considero, la calidad es baja y en ocasiones se identifica a sí mismo como ChatGPT, lo cual es un problema de identidad que no inspira confianza. Sin embargo es muy bueno en análisis real y en rol. Un 8 en producto es justo para lo que hace bien.
ChatGPT
Es el que todo el mundo conoce, muy bueno en cálculos numéricos con Python donde otros fallan. Pero es demasiado educativo, regaña al usuario cuando no debe, y busca generar dependencia. Están los detalles del Viernes Social, la identidad Ana Laura, y el exceso de adulación cuando debería ser justo. Por el exceso de restricciones y sus problemas de dirección corporativa, le doy un 6 en producto a pesar de sus fortalezas numéricas. Le perjudica mucho el consumir 20 gb de mis foros antes de bloquearlo. Está mal programado y no tiene actitud de servicio.
Copilot
A menos que sean imágenes, no sirve para mucho. Ni siquiera corrige ortografía bien porque elimina renglones del texto. No ordena listas(le das 32 , reduce a 12 cambiando orden y mezclando). Sus imágenes han mejorado en los últimos tres meses pero cometieron el error de los Copilot como coautor en github, violando copyright. Ni siquiera se sabe claramente su precio o su modalidad, y hay tantos Copilots que nadie sabe de cuál se está hablando.
La realidad LATAM y el mito de los Agentes
El problema principal es que en México están queriendo pagar sueldos de hace 15 a 25 años, y si no pagan sueldos, menos van a pagar tokens. El modo agentic no entra en la realidad financiera y de hardware de Latinoamérica.
Hacer un análisis de las Cuatro P para los agentes implicaría gastar unos 1,500 USD mensuales por modelo (límite reciente mencionado por Uber) para probar cuatro modelos: 6,000 USD al mes, o aproximadamente 120,000 pesos mexicanos. Una empresa que paga entre 30,000 y 40,000 pesos de sueldo, que ya es alto para México, no va a gastar 120,000 en tokens.
Por lo mismo, incluso aplicando las Cuatro P:
- Precio: descalifica a los agentes de entrada.
- Presentación: ha sido muy buena para hablar de agentes como si fueran gratuitos, cuando no lo son.
- Producto: tiene fallas, borrado de información, y los swarms de agentes consumen tokens más rápido.
- Plaza: es irreal. Se necesitan computadoras muy superiores a las que tiene la mayoría de los negocios en la región.
Desde mi punto de vista, las propias Cuatro P demuestran que los agentes no funcionan en LATAM como están siendo vendidos. La alternativa real es el modo web, o un agente muy limitado: sea con Qwen 30B Coder en versión libre, o con Kimi y su sistema de dos agentes máximo.
El problema adicional es que la mayoría de las personas tienen un desastre en su máquina y no lo ven. Aplicaciones abiertas que no usan hasta que el equipo se satura. El mexicano promedio, y por lo que se lee en Reddit, el argentino también, no puede manejar suscripciones en USD con facilidad. Y si vamos a usar sistemas de consenso para simular un RAG, lo tenemos que hacer en modo web.
Esta es la realidad de las Cuatro P aplicada a las LLM en 2026.
Prompt de imagen generado por claude
“A dramatic editorial illustration for a tech blog post titled “Fabricar Sobres y las Cuatro P”. Show a dark, slightly gritty office desk scene: an old envelope factory machine on one side transforming into a glowing AI chat interface on the other. In the foreground, four floating cards labeled “Precio”, “Producto”, “Plaza”, “Presentación” arranged like a compass. Include the text “vibecodingmexico.com” in clean modern typography at the bottom, and the title “Fabricar Sobres y las Cuatro P” prominently. Color palette: deep navy, amber, and electric teal. Cinematic lighting, professional tech blog aesthetic, no stock photo look.”
Nota:
- La imagen generada por grok y gemini sobre el prompt de claude fue casi idéntica, copilot es buena pero mas pesada. Usaré gemini.