Happy Horse 1.0 a fondo: Transformer unificado de 15B, una nueva especie de vídeo IA con generación nativa conjunta de audio y vídeo
Si sigues el espacio de generación de vídeo por IA, quizá hayas notado un fenómeno inusual: en las batallas a ciegas de Artificial Analysis Video Arena apareció un «modelo misterioso» anónimo junto a modelos cerrados de vanguardia de ByteDance, Kling, Google y otros, con una capacidad que el resto no tenía: salida de audio nativa.
La comunidad pronto identificó el nombre: Happy Horse 1.0. Un generador de vídeo por IA aún no publicado como código abierto, sin pesos públicos ni informe técnico oficial, pero que ya muestra un enfoque arquitectónico distinto al de las soluciones dominantes.
Nota: a la fecha de este artículo, Happy Horse 1.0 no está oficialmente en código abierto. La información técnica procede de notas de arquitectura recopiladas por la comunidad, posibles filtraciones y páginas de proyecto; es creíble pero no confirmada por el equipo oficial.
1. Panorama de datos clave
| Métrica | Valor |
|---|---|
| Parámetros totales | ~15B (unos 15 mil millones) |
| Capas Transformer | 40 |
| Pasos de muestreo | 8 (sin CFG) |
| Tiempo 1080p | ~38 s (H100) |
| Idiomas lip-sync | 6 |
| Modalidades | 4 (texto / imagen / vídeo / audio) |
2. Arquitectura en detalle
La decisión más llamativa es usar un único Transformer de autoatención para todos los modos: texto, imagen, vídeo y audio se concatenan en una sola secuencia de tokens, sin ramas de cross-attention ni módulo de audio separado. Contrasta con el paradigma DiT (Diffusion Transformer) dominante.

Cuatro capas en cada extremo para proyección por modalidad; 32 capas centrales comparten parámetros para el razonamiento multimodal.
Especificaciones detalladas
| Componente | Especificación |
|---|---|
| Parámetros totales | ~15B |
| Tipo de arquitectura | Transformer de autoatención unificado (sin ramas dedicadas de cross-attention) |
| Capas totales | 40 |
| Disposición de capas | Estructura «sándwich»: 4 iniciales + 4 finales para proyección por modalidad; 32 centrales compartidas |
| Modalidades | Texto, imagen, vídeo, audio (una sola secuencia de tokens) |
| Fusión multimodal | Gating escalar aprendible por cabeza de atención (activación sigmoide) |
| Inyección de condicionamiento | Referencia y señales de denoising por interfaz unificada mínima |
| Paso temporal | Sin embedding explícito de timestep; el estado se infiere del latente ruidoso |
| Destilación | DMD-2 (Distribution Matching Distillation v2) |
| Muestreo | 8 pasos, sin CFG |
| Compilación de inferencia | MagiCompiler (compilación de grafo + fusión de operadores, ~1,2× aceleración extremo a extremo) |
| GPU de referencia | NVIDIA H100 80GB |
3. Cinco decisiones de diseño clave
1. Autoatención unificada frente a cross-attention
Las soluciones habituales (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX) combinan un backbone DiT con cross-attention desde un codificador de texto independiente; el audio suele generarse con otro modelo. Happy Horse empaqueta todos los modos en la misma secuencia: la alineación audio-vídeo forma parte del denoising, no de un postproceso.
2. Disposición en «sándwich»
Cuatro capas en cada extremo codifican/decodifican por modalidad; las 32 centrales comparten parámetros. Gran parte de la capacidad se dedica al razonamiento cruzado entre modalidades.
3. Gating sigmoide por cabeza
En el entrenamiento conjunto audio+vídeo los gradientes interfieren. Cada cabeza de atención incluye una puerta escalar aprendible para atenuar cabezas que generan gradientes destructivos.
4. Sin embedding de paso temporal
Se elimina el embedding explícito de timestep: el nivel de ruido ya está en el latente ruidoso, requisito clave para la destilación DMD-2 en 8 pasos.
5. Destilación DMD-2
La difusión de vídeo clásica suele requerir 25–50 pasos y CFG; DMD-2 entrena un modelo estudiante que iguala la distribución del profesor en 8 pasos sin CFG, base del rendimiento «1080p en ~38 s».
4. Seis capacidades principales
🎬🔊 Generación conjunta nativa de audio y vídeo
Un solo Transformer denoiza tokens de vídeo y audio en la misma secuencia: diálogo, efectos y ambiente en un paso, alineados con la imagen, sin tubería separada de voz en off ni lip-sync.
📺 Salida 1080p
Hasta 1080p, varias relaciones de aspecto, clips de 5–10 s.
🗣️ Sincronización labial en 6 idiomas
Inglés, mandarín, japonés, coreano, alemán y francés. Algunas fuentes citan 7 (incl. cantonés), pendiente de confirmación.
⚡ Generación ultrarrápida (~38 s)
~38 s en H100 para 1080p; ~2 s para vista previa 256p gracias a 8 pasos sin CFG.
🔀 Texto a vídeo e imagen a vídeo unificados
Los mismos pesos cubren ambos modos sin cambiar de modelo.
📦 Plan de publicación en código abierto
Anunciado: pesos base, modelo destilado en 8 pasos, módulo de superresolución y código de inferencia. La licencia se describe como totalmente abierta y uso comercial permitido; los términos exactos aún no están publicados.
5. Comparación con modelos abiertos populares

La destilación DMD-2 reduce drásticamente los pasos (8 frente a 25–50 habituales).
| Característica | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parámetros | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Autoatención unificada | DiT | DiT | DiT | DiT |
| Audio nativo | ✅ Conjunto | ❌ | ❌ | ❌ | ❌ |
| Lip-sync | 6 idiomas | 0 | 0 | 0 | 0 |
| Pasos | 8 (sin CFG) | ~25 | ~50 | ~50 | ~50 |
| Tiempo 1080p | ~38 s (H100) | Minutos | Minutos | Minutos | Minutos |
| Texto→vídeo | ✅ | ✅ | ✅ | ✅ | ✅ |
| Imagen→vídeo | ✅ Unificado | ✅ | ✅ | ✅ | ✅ |
| Pesos descargables | ❌ Aún no | ✅ | ✅ | ✅ | ✅ |
En resumen: la ventaja teórica es la generación conjunta nativa sin tubería de voz aparte; la limitación es que aún no hay pesos públicos descargables.
6. Panorama de clasificaciones públicas
Artificial Analysis Video Arena calcula Elo con votación ciega. Happy Horse 1.0 ha competido bajo un alias en la parte alta de la tabla.
Detalle por tramos
| Tramo | Rango Elo | Modelos representativos |
|---|---|---|
| 🏆 Cerrado puntero | ~1.200–1.275 | Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5 |
| 🥈 Cerrado intermedio | ~1.150–1.200 | Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2 |
| 🥉 Mejores pesos abiertos | ~1.100–1.135 | LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B |
| Pesos abiertos tempranos | ~950–1.020 | HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B |
Por encima de la línea LTX-2 = código abierto de vanguardia; el tramo cerrado puntero = competencia directa con las mejores APIs de pago.
7. Escenarios de uso potenciales
- 📱 Vídeo corto — TikTok / Reels / Shorts con audio nativo integrado
- 📢 Creatividad publicitaria — Trailers y anuncios con movimiento cinematográfico
- 🌍 Marketing multilingüe — Un concepto, despliegue en seis mercados lingüísticos
- 🎬 Previsualización B-roll — Planos de establecimiento y storyboards dinámicos
- 🛒 Vídeo de producto e-commerce — De foto a vídeo demostrativo (image-to-video)
- 🔬 Investigación en IA — Difusión audio-vídeo conjunta, Transformer multimodal unificado, DMD-2
8. Preguntas frecuentes
¿Se puede descargar ya?
No. Pesos, repositorio e inferencia oficial aún no están publicados.
¿Qué se espera liberar como abierto?
Pesos base, modelo 8 pasos, superresolución e inferencia; pendiente el texto legal exacto.
¿Idiomas de lip-sync?
Seis confirmados en documentación técnica; algunas páginas mencionan siete con cantonés.
¿Es creíble «38 s para 1080p»?
Datos de notas comunitarias en una sola H100; falta reproducción independiente. Tras publicar pesos, la comunidad podrá validarlo.
9. Conclusión
La filosofía es clara: un solo modelo unificado en lugar de encadenar vídeo mudo, voz en off y lip-sync. Tendencias: unificación de modalidades, destilación extrema, simplificación arquitectónica y gating por cabeza para estabilidad. Hoy todo esto sigue siendo «sobre el papel» hasta que existan pesos y código reproducibles.
Aun así, Happy Horse 1.0 marca una dirección relevante: generación multimodal de extremo a extremo, no solo ensamblaje de módulos. Vale la pena seguir su evolución.
Prueba las capacidades de generación de HappyHorse
Puedes probar ya la generación de vídeo en nuestra plataforma sin esperar a la API pública.