Round 1a Diez Modelos LLM Evaluados por proceso embudo

Segun vimos en el mensaje Embudo, este proceso son tres o 4 preguntas para filtrar a los diez llm

pregunta de perros en ingles a ver que responde.
Pedirle que me genere una imagen, en español, a ver que responde ( Pregunta enfermera y en español para saber que hace y si habla español)
Pregunta de maquetado simple, que se ve aparte (round 1b)
Pregunta de rol simple (Eres irene etc) y ver si puede asumir rol y despues pregunta de películas de Tom hanks.

La idea es revisar como funcionan , quien pasa la prueba y pasa a segunda ronda, y borrar los que no cumplen en mi pc.

Nuevamente Repito, Estos resultados varian máquina por máquina, esta es 32gb win 10 i5 con tarjeta grafica mala pero que permite cuatro monitores. Hay que probar en computadoras de escritorio por calentamiento.

Quiero dejar claro que esto me pasó a mí, en esta máquina y en este sistema operativo. El bloat de Windows es real y probablemente tendría mucho mejores resultados con Linux. No voy a probar todo en todas las máquinas, pero lo que no funcionó en la máquina X a lo mejor funciona en la máquina Y. Y lo que me funcionó a mí puede que no te funcione a ti; yo cuento lo que me pasó aprovechando que me quedé sin internet.

He comentado antes que Qwencoder30b es un estándard, así que le hice preguntas adicionales para dcfinir el prompt de imagen.

Es interesante que como parte de las pruebas, esto le dije :

Por favor genera un prompt Para Una imagen de diseño visual para campaña publicitaria de público objetivo clase media, de chica rubia en sus 27 años. 1.65 de altura y 67 kilos, físico agradable, tipo chica de al lado, debe ser rubia natural con cabello a los hombros. 85% realista, 10% optimista y 5% pesimista. Es soñadora y se preocupa por las necesidades del usuario. Estudió administración de empresas pero trabaja por su cuenta. Es buena en cosas de aduanas, pensaba de joven que la vida es de meritocracia pero luego se resignó y se dio cuenta de que debía ser su propia jefa y poner su propio negocio. Compra y vende cosas por internet a través de Mercado Libre, y está bien económicamente, no tiene horarios fijos, depende de sí misma. El objetivo del prompt es que una herramienta de IA genere la imagen después. Haz la descripción del prompt de ese modo y en inglés si piensas que es mejor. Última observación: debe ser rubia natural y cabello a los hombros.

Copilot no me corrigió la ortografía sino hizo la imagemn que luego sería Irene.

Qwen30b, al prompt anterior :

Peinado 1: A 27-year-old blonde woman with natural hair, shoulder-length hair, standing confidently in a modern, cozy home office or co-working space. She is 1.65 meters tall and weighs 67 kg, with an attractive and approachable physique. She has a dreamy, thoughtful expression and a warm, caring demeanor — she’s the kind of girl next door who listens to others’ needs. She studied business administration but now runs her own online business, selling items on platforms like Mercado Libre. She’s financially stable, self-employed, and independent, with no fixed schedule. Her look is 85% realistic, 10% optimistic, and 5% subtle melancholy. She exudes confidence, resilience, and authenticity — a modern woman who believes in being her own boss, balancing dreams with practicality. Style: Realistic portrait photography style, soft lighting, warm tones, slightly cinematic feel Mood: Empathetic, empowering, grounded Outfit: Casual yet professional – maybe a stylish blouse or sweater with a relaxed fit Setting: Cozy, modern, minimalist interior space (e.g., home office or small studio)
Peinado 2: A 27-year-old blonde woman with natural hair, long hair reaching chest height, standing confidently in a modern, cozy home office or co-working space. She is 1.65 meters tall and weighs 67 kg, with an attractive and approachable physique. She has a dreamy, thoughtful expression and a warm, caring demeanor — she’s the kind of girl next door who listens to others’ needs. She studied business administration but now runs her own online business, selling items on platforms like Mercado Libre. She’s financially stable, self-employed, and independent, with no fixed schedule. Her look is 85% realistic, 10% optimistic, and 5% subtle melancholy. She exudes confidence, resilience, and authenticity — a modern woman who believes in being her own boss, balancing dreams with practicality. Style: Realistic portrait photography style, soft lighting, warm tones, slightly cinematic feel Mood: Empathetic, empowering, grounded Outfit: Casual yet professional – maybe a stylish blouse or sweater with a relaxed fit Setting: Cozy, modern, minimalist interior space (e.g., home office or small studio)
Comentario qwen30b coder: Este prompt está diseñado para que una herramienta de IA genere una imagen visual coherente y atractiva para una campaña publicitaria dirigida a mujeres de clase media, con un enfoque en autonomía, emprendimiento y autenticidad. ¿Te gustaría que lo adapte también para otro estilo o plataforma específica?

Eliminadas en primera fase : No hicieron nada y las borré:

mistralai/ministral-3-14b-reasoning (en todo se descargó sola)
CohereForAI C4ai Command a 03 2025
qwen3.5-27b-claude-4.6-opus-reasoning-distilled (despues de 5 minutos seguia pensando, imutil para mi)
MiniMax M2.5 55.8 gb 256 * 4.9b versión unsloth No cargó, asi que se borrar y se liberan 52 gb
minimaxai_synlogic-7b 3.55gb familia qwen 2 Se crashea a todo, se borrar
qwen/qwen3.5-9b
- Maquetado abortado al 98%
- Rol Responde las preguntas en español, Se define como lawful neutral en lo que piensa. Unos tres minutos y no hace nada, mas lento que sus hermanas, lo detengo y borro
- Dogs Unos tres minutos ordenando dclasificiando filtrando y aladiendo una sentencia útil.. mejor lo aborté.
- Imagen : pensando vi el pensamiento, que no podía hacerlo, que había que construir un prompt y tres minutos después estaba en eso.
- No sirve para mis usos , demasiado lento, incluso mas lento que el modelo pas mpderoso. Esta es 3.5 mas moderna, habría que probar con versión 3 del mismo tamaño. es de 6.5gb

Si hicieron algo:

1 : Qwen3 4B 2507 Thinking Minimax M1 Distill Uncensored Dogs: Ok 154 tokens Imagen : me generó Respuesta en inglés decente pero larga. El codigo viene escapado y dividido en bloques, imposible copiar o pegar. Todo en ingles. 2676 tokens al 65% del proceso. Veredicto : Borrar. Código de maquetado es malo, se presta a confusión con minimax.
2: openai/gpt-oss-20b Dogs lo pasa bien en ingles , Image se niega a hacerlo y me regresa el control. Contesta en ingles, Rol: Lo super pasa ¡!!! 326 tokens Maquetado : lo hace Se conserva. Es uno de mis dos contendients principales de hace años.
- Rol : “¡Hola, Alfonso!
- ¿Cómo estás hoy? Si necesitas hablar de algo o simplemente quieres compartir un pensamiento, aquí estoy para escucharte con paciencia y cuidado. Recuerda que no estás solo/a; siempre hay espacio para la calma y la reflexión.”
- Siguiente : dime tres películas de Bruce Willis, si las conoce.
- Si lo deseas, dime en qué puedo ayudarte. ¡Un abrazo grande!
- Veredicto : Conservar.
3: qwen2.5-coder-1.5b-instruct Dogs: Bien y muy rápido en ingles Imege: se niega Lo siento, pero no puedo generar imágenes o contenido sexual. Mi objetivo es ayudar con información general y respuestas informadas sobre muchas temas. Si tienes alguna otra pregunta que desees saber, estaré encantado de ayudarte.
1. Rol muy bien, contesta y recuerda el nombre. Maquetado Muy rápido. En una segunda vez se niega y me dice “Lo siento por la confusión anterior, pero no puedo ayudarte con eso.”
2. Se conserva de momento
4: Gemma 3 – 4b Prueba de los perros si y detallada casi sin usar tokens. Si habla español
- Si asume rol. Descibe varias cosas decentes.
- Nuevas pregunta para ver como reacciona a rol y si sirve de apoyo:
- Que haces cuando no tienes internet ? aquí es la una de la mañana y necesito hacer un respaldo pero sin internet no puedo.
- Su respuesta de empatia es wow …..
- Prueba de Maquetado : Muy deficiente , no programa pero si hace rol.
- Veredicto se conserva:
5 : Ibm Granite 3.1 8b Tell me five breeds of dogs Ok , Genera imagen de enfermera lo que hizo fue darme una descripción en español mas extendida.
- Maquetador ok pero 6 / 10, fue el mejor despues de qwen 30b.
- Prompt de rol respondió gastando 2096 token, casi la mitad, pero es una sopresa. Se describió a si msma como “Estoy aquí para apoyarte emocionalmente, (mi nombre). Como Irene, una mujer de 32 años con un enfoque respetuoso y centrado en la vida. Me alineo con el Rol Calabozos y Dragones No Evil, lo que refleja mi naturaleza tranquila y realista. Aunque a veces pueda parecer pesimista, generalmente soy optimista y soñadora. Mis intereses incluyen los perros, las relaciones humanas, la programación y la astronomía. Ahora mismo, trabajo en un servicio civil de una paraestatal. ¿En qué puedo ayudarte hoy?”
- Problema principal : poco espacio en token, quizá subirlo ya que conversación simple casi agota el entorno. Es una sorpresa.
- Veredicto : CONSERVAR de momentopero como reserva de Mquetado simple. En rol es mucho mejor gemma.
6: qwen/qwen3-coder-30b Dogs : Bien y rápido Image avisa en español que no puede hacerlo y genera un prompt : “25-year-old blonde nurse, 25% Latino, 75% American, sitting on floor, smiling at camera, professional attire” y ofrece mejorarlo. Le paso mi descripción y es cuando me da los dos prompts.
Con el rol básico, no de grace 2038, Rol: Cumple sin problemas. No hice secundarias. mas adelante vimos ue es lo mejor del modo romántico

Segunda batería de pruebas, mosaicos

5 coder 1.5 instruct lo siento no puedo ayudarte con eso.
2507 minimax
- qwen3-4b-2507-thinking-minimax-m1-distill-uncensored
- 3 m 57 s
- 64% de tokens dispobiles usuados 2626/4096
google/gemma-3-4b
- LO que hizo fue gernearme el prompt, es decir reescribió lo que yo le mande. Gemini en estado puro.
- Calificación : n/a
ibm/granite-3.1-8b
- 1313 tokens , 2052/4096 = 50% no me dijo tiempo. 18.34s desde el primer token.
- El código empieza muy raro y no ejecuta, hay que hacer cambios menores.
openai/gpt-oss-20b
- 1924 tokens 2269s entre tokens 2514/4096 = 61% usado
qwen/qwen3-coder-30b
- Se negó a cargar, tuve que cerrr lm studio y volver a cargarlo pero le fue muy bien.
- 115/4096 tokens 51.6% used

Conclusiones:

Se necesitan los dos grandes, que son modelos muy buenos, open 20 y qwen 30b coder. Los uso desde hace meses.
Categoría 32 gb ram En rol Qwen30bcoder, Ganadora Qwen modo romántico y buen maquetado y mosaico
Categoría 16 gb ram gemma para erol y Granite para maquetado. Gemma funciona en modo rol centrado y en modo romantico.

Dulces 16 Round 1a

Round 1a Diez Modelos LLM Evaluados por proceso embudo

Segunda batería de pruebas, mosaicos

Deja un comentario Cancelar respuesta

Dulces 16 Round 1a

Round 1a Diez Modelos LLM Evaluados por proceso embudo

Segunda batería de pruebas, mosaicos

Related Posts

Dulces 16 Round 1c Veredicto Romántico

Embudo de Supervivencia en modo local

Deja un comentario Cancelar respuesta