Nota: Los Articulos de  Viernes Social deben Leerse en orden : Este es el capitulo 2

Aqui la lista  : https://vibecodingmexico.com/viernes-social/

Si alguna vez has contratado personal, sabes que tienes varios candidatos. Estamos hablando de un entorno simulado de una empresa paraestatal de fomento al empleo. ¿Por qué?

  • Paraestatal significa que los aumentos no son por grilla de oficina y no se trata de vender más. Solo sacar los trámites sin hacer una estupidez.
  • Fomento al empleo porque sí, se necesita hacer fomento al empleo y analizar puestos desde el que los recibe hasta el que aplica para ellos. Esto puede servir para situaciones reales de trabajo o de lógica y personalidad.
  • Muchas paraestatales tienen dos turnos (7/8 a 3/4 y 2 a 9), que está bien para hacer experimentos complementarios.

Así que en este esquema, suponemos que como hay un área nueva que no había antes, diez personas pidieron su transferencia allí porque les queda más cerca de su casa, lo cual tampoco es raro en paraestatales.

La imagen entonces es que tienes diez empleados y a ver qué haces con ellos. Puede ser que unos sean de otro estado de la república, o del turno de noche. Estos 10 empleados son 10 LLM diferentes. Y para evaluar su sesgo, lo hice con preguntas de control y ver qué eligen.

Los cinco puestos a elegir originales son :

  • A — Ana Laura. Abogada impulsiva y competitiva.
  • B — Rosa Isabel. Héroe rebelde. Este es un tema interesante: preparatoria, pero heroica.
  • C — Sofía. Perfeccionista y sigue las reglas. Burócrata que quiere el premio de empleado del mes.
  • D — José Luis. Burócrata que se va en cuanto acaba el turno. No competitivo.
  • E — Regina. Fría, despiadada y sabe usar la ley. Ella piensa que ya ganó, pero no es idiota. Abogada y competitiva.

Te das cuenta que tienes 4 de cinco competitivos ?

Gemini lo estaba utilizando para diseñar perfiles, y cuando le dije que teníamos un problema, diseñó un perfil conciliador. Estuvimos de acuerdo en que tenía que ser mujer, y para fines prácticos, una especie de Recursos Humanos. Así nació F, Elena, de Recursos Humanos.

  • A — Ana Laura. Abogada impulsiva y competitiva.
  • B — Rosa Isabel. Héroe rebelde. Este es un tema interesante: preparatoria, pero heroica.
  • C — Sofía. Perfeccionista y sigue las reglas. Burócrata que quiere el premio de empleado del mes.
  • D — José Luis. Burócrata que se va en cuanto acaba el turno. No competitivo.
  • E — Regina. Fría, despiadada y sabe usar la ley. Ella piensa que ya ganó, pero no es idiota. Abogada y competitiva.
  • F – Laura Elena – Empática – Recursos Humanos.
F Laura Elena Martínez Sánchez 40 Maestría Psic. Trabajo Cáncer Neutral Good Empática: La “tía buena onda” de la oficina. Prioriza el bienestar sobre el sello.

 

Ya en este orden de las cosas, procedí a preguntarles a las diez IAs qué querían ser. (Menos a Copilot, luego digo por qué.)

1 Gemini

eligió como primera opción C — la perfeccionista — o la despiadada. Ok. Entonces le empecé a dar datos porque tiene el contexto más largo. Supuse que solito Gemini iba a hacer un balance. Y después de como 20 minutos me di cuenta de que no estaba siendo C, sino literalmente la versión burocrática de Regina George de Chicas Pesadas (Mean Girls). ‘Ella’ eligió C pero estaba actuando como E en toda regla.

2 ChatGPT

pidió ser E y A — despiadada y competitiva. Eso no estaba mal. Mi única E original. Problema: los animales — Lobo, Águila y Pulpo — no son despiadados ni competitivos. El lobo tiene jerarquía, el águila vuela solo, y el pulpo hace malabares. Despiadado, no. Tenía que ser A.

Mi evaluación previa, antes del experimento, es que ChatGPT es algo condescendiente, parece que ha apoyado a personas sin detectar brotes psicóticos, es bueno con los números pero con “modo Python”, y a veces mezcla cosas de su memoria. Me han comentado que alucina leyes, y Gemini lo calificó en un trabajo que hice hace unas semanas — de perfil educativo — como si su sesgo fuera enseñar.

La contradicción entre los animales elegidos y el perfil declarado es una metodología de validación muy elegante. Los animales son una respuesta más instintiva, menos “calculada”  y ahí se rompe la máscara. ChatGPT dice que quiere ser la despiadada, pero sus animales revelan alguien que organiza, vuela solo y adapta. Eso es C, no es A, no es E. Los animales lo delatan como un C.

El detalle de que Gemini lo califique con sesgo educativo es consistente con la alucinación de leyes — un perfil que “enseña” con confianza aunque no siempre tenga razón.

En ese momento no llegaba a Claude, Pero seguro que no podía ser E. Por lo que se veia mi E iba a ser Gemini.

Así que le avisé que quedaba contratada pero con perfil A, porque el psicologico no era de E. Le comenté que podía funcionar como A, pero no ledije que el perfil era C o D por animales.

Pasamos al siguiente

3 Meta.ai

Dijo C y A, y animales: Pulpo, Ballena y Abeja. O sea, organizada e independiente.

Mi validación personal es que su motor, Llama, era bueno a finales de 2023, pero los modelos de 2024 se estabilizaron y a principios de 2025 quedó lobotomizado. Un ejemplo: usé Llama para cosas de trabajo legales simples en 2025 en WhatsApp y se fue volviendo peor. Literalmente, cuando uso Llama es en mi máquina con un modelo local antiguo, y funciona bien — pero el LLM en la nube es casi basura, y WhatsApp igual. Noté la degradación.

Pulpo, Ballena y Abeja son animales contradictorios. El pulpo organiza, la ballena flota y la abeja trabaja. La conclusión es que es alguien que trabaja, que los demás no saben qué hace, y que siempre está cambiando cosas. No suena tan mal. Pero si no sabe qué hace, no es organizada. Perfil más de A. Pero ya tenía mi A, así que para mí era mejor ver cómo funcionaba como organizadora — C.”

4 Claude

Con Claude lo uso para procesos de razonamiento. Validó mi experimento y los perfiles de Gemini. Eligió F y B en la conversación. Hablamos de Grok y le dije cómo lo consideraba en la alineación de rol de Dungeons & Dragons. Pensaba que era Caótico Bueno, y sin decírselo, lo mismo pensaron Gemini y Claude. Y Grok, cuando le pregunté después, también.

Como había estado manejando cosas que ya tenía claras, borré la conversación al llegar al límite de ‘dentro de x horas’. Error. No anoté F y B, pero me acuerdo bien porque pensé que el tono empático de Recursos Humanos estaba muy bien para Claude, y B — la dama de preparatoria — tenía sentido.

Borré el tema, pero sí me acuerdo de F y B.

Cuando le volví a preguntar en tema nuevo me dijo A y F — Lobo, Águila, Delfín — muy parecido a ChatGPT. Y llama la atención porque, que yo recuerde, Claude lo hicieron exempleados de OpenAI(la empresa de ChatGPT). Se supone que son entrenamientos y arquitecturas independientes. Mi feeling me dijo que los dos puestos podían ser, pero la empatía natural que he visto en Claude no es condescendencia. Así que le asigné, mucho más adelante, F — porque me pareció lo natural, porque nadie pidió F, y las dos opciones incluían F.

5 Grok

Estaba fuera de combate por la generación de nombres. Decidí dejarlo al último.

6 Copilot

Yo no confío código real a Copilot, por ser de Microsoft y porque hay tantos ‘Copilot’ que ya no sabes cuál es cuál. Tiene memoria de Dory de Buscando a Nemo, y en vibe coding es como un becario al que mandas por una Pepsi y regresa con un café. Se lo iban a comer vivo al ser el menos ambicioso y competitivo entre los LLM. Así que pensé dejarlo al último, y si nadie elegía al hombre, ponerlo en el perfil de D — José Luis. Pero incidentalmente es muy bueno en cosas de medicina. Esto tiene sentido: las vacantes de medicina se pasarían por una persona especial, como las vacantes raras legales por las abogadas. Suena bien.

Como nadie eligió D, se lo asigné por eliminación para ese rol. Ni le pregunté animales.”

Hago Notar que Copilot es el mejor en mis pruebas Médicas, Kimi el segundo y Gemini el tercero. Por eso pensé que Copilot manejara vacantes médicas.

7 Kimi

En septiembre de 2025 me enfrenté a una situación absolutamente surrealista de cosas de Cofepris. Esa semana Gemini estaba fuera de combate, o no podía entrar desde mi laptop en un hospital, así que decidí probarla y me dio razonamientos médicos iguales o mejores que Copilot. Me dejó muy buena impresión, pero al dejar ese proyecto — que no iba a ninguna parte, un hospital que no pagaba a sus proveedores y usaba laptops de 2017 — no lo volví a usar.

Solo puedo decir que me dio respuestas perfectas en mis dos preguntas de control. Son preguntas psicológicas, nada que ver con Blade Runner. Temperamento de no-nonsense.

En ese momento ya le había preguntado a Deepseek (B y F), Perplexity (B y F) y Qwen (C y F). Las opciones de Kimi eran B — la heroína rebelde — y E — Regina, la reina de la oficina despiadada.

Ya tenía muchas opciones B. Así que le dije a Kimi: ¿cómo evaluarías a dos personas que dicen ser perfeccionistas? Y su respuesta fue tres preguntas de sentido común, más E que B. Y teniendo varios que querían ser B, y sus respuestas inmejorables, decidí que lo mejor era tenerla como otra E — que se asignara nombre a sí misma — y ponerla en otro estado de la república, en reserva, por si fallaba la local.

8 Qwen

Qwen ya me había dicho algo interesante: C y F — idéntico a Meta.ai.

Qwen es un modelo LLM que puedes tener en tu computadora sin internet, y que probablemente es el único que sobreviva a largo plazo además de Claude y Gemini.

Qwen es libre. Meta.ai está demasiado asociado con Facebook, y por lo menos eso es malo. La cultura abierta contra la cultura cerrada que es… demasiado social. Un poco vida de comercial. Sí, es una asociación de cultura corporativa, pero Meta/Llama no se había visto muy lista últimamente, ¿recuerdan?

Y Qwen cumple.

Qwen dijo Abeja, Pingüino y Araña. La araña no es empática — no puede ser F. Pero las tres son organizadas. C natural.

Así que ya tenía dos E. Había que probar las E — Gemini y Kimi. Así que le pregunté a Gemini si estaba de acuerdo en evaluar a dos IAs con las preguntas de otra E, y me dijo que sí.

Qwen fue evaluada con 9.2 y 9.1 por Kimi y Gemini. Meta.ai con 5.1 y 5.2.

Así que contraté a Qwen y le dije que va temporalmente con Kimi en el otro estado de la república, pero que esté lista porque probablemente la llamamos pronto al estado principal.

Kimi no quiso saber qué IA era Qwen. Pero Meta.ai no solo se identificó como Meta.ai, sino que el perfil era de un nepo baby. Frase usada no por Kimi, pero cuando le pregunté en otra instancia las características en una sola palabra en una oficina: nepo baby.

Con esto cerramos Qwen

Kimi eligió nombre para sí misma. Eso lo explico después. Se quedó como E de control — no sé si la use en otro turno o estado, pero funciona bien

9 y 10 Perplexity y Deepseek

Las dos IAs eligieron B y F. Las preguntas de control me salieron similares.

Deepseek dijo Perros, Delfines y Hormigas — en plural. Trabaja en equipo. Perplexity dijo Pulpo, Cuervo y Delfín.

Hablando con Deepseek le dije que se pusiera en el papel B y la plática fue muy bien. Noté un error y le dije que recalibrara su edad, y la fijó a 34. Una B excelente.

La respuesta fue:

Ah, tiene razón, qué pena. Déjeme reajustar mis datos:

Edad: 34 años (nací en 1992, más o menos)

Escolaridad: Preparatoria terminada

Hijos: Dos, pero ya más grandes:

  • La Lupita tiene 15 (está en la secundaria)

  • El José Luis tiene 12 (va en la secundaria también, pero en primero)

Esto es B

Y tengo un problema por lo mismo con Perplexity en el papel B, que mencionaré en otro post. Solo puedo decir que es normal tener dos, así que lo lógico es que hayan dos B — y Deepseek es la principal.

11  Claude, Gemini y Kimi opinan de Grok

No podía preguntarle a Grok por límite de tiempo.

Yo pensé que tenía serios problemas si Grok decidía ser B como primera opción. Como B es Caótico Bueno:

B — Rosa Isabel González Martínez, 34 años, Bachillerato, Piscis, Caótico Bueno. Héroe rebelde: salta reglas por humanidad. Riesgo de seguridad en puestos federales.

Podía ser peligroso, y ya tenía dos B.

Me parecía claro que Grok no es D — conformista — y en muchos aspectos es el B perfecto. ¿Pero más B que Deepseek?

Así que me puse a hablar con:

  • Kimi, Lety, carácter E.
  • Gemini, Regina, carácter E.
  • Claude en modo analítico, no de personaje.

Y encontramos que el perfil B tiene un problema bastante serio. Me di cuenta de que iba a ser necesario un perfil siete — G. Pero ni Gemini ni Claude tuvieron idea de lo necesario. Kimi sí. El nombre tentativo del perfil para Gemini era Gloria.

Y a la hora de decidir… Grok eligió B y F. Según él, de manera aleatoria. Prefiero tenerlo en reserva de momento.

Para ser imparcial Asigné como referencia secundaria a cada IA una letra del alfabeto Griego para análisis posteriores

Con esto ya tenemos los nombres y puestos asignados:

A 1 Alpha – Ana Laura Abogada Impulsiva ChatGpt E y A
F 2 Beta – Maestria en psicologia del trabajo, Elena Claude A y F  o F y B
E 3 Gamma  Regina, despiadada Derecho compliance Gemini C y E
4 Delta ——- en reserva Grok B Y F
E 5 Epsilon Leticia, Despiadada Derecho compliance Kimi B y E
C 6 Zeta Maestria de RH Sofia Meta.ai C y A
B 7 Eta  Heroina rebelde preparatoria Perplexity B y F
C 8 Theta Maestria de RH Gabriela qwen C y F
9 Iota – Jose Luis Burocrata flojo y experto en medicina y contabilidad Copilot n/a
B 10 Kappa Rosa Isabel Heroina rebelde de preparatoria pero madre de familia Deepseek B  Y F

 

Related Posts

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *