Happy Horse 1.0 a fondo: Transformer unificado de 15B, una nueva especie de vídeo IA con generación nativa conjunta de audio y vídeo - HappyHorse AI

Si sigues el espacio de generación de vídeo por IA, quizá hayas notado un fenómeno inusual: en las batallas a ciegas de Artificial Analysis Video Arena apareció un «modelo misterioso» anónimo junto a modelos cerrados de vanguardia de ByteDance, Kling, Google y otros, con una capacidad que el resto no tenía: salida de audio nativa.

La comunidad pronto identificó el nombre: Happy Horse 1.0. Un generador de vídeo por IA aún no publicado como código abierto, sin pesos públicos ni informe técnico oficial, pero que ya muestra un enfoque arquitectónico distinto al de las soluciones dominantes.

Nota: a la fecha de este artículo, Happy Horse 1.0 no está oficialmente en código abierto. La información técnica procede de notas de arquitectura recopiladas por la comunidad, posibles filtraciones y páginas de proyecto; es creíble pero no confirmada por el equipo oficial.

1. Panorama de datos clave

Métrica	Valor
Parámetros totales	~15B (unos 15 mil millones)
Capas Transformer	40
Pasos de muestreo	8 (sin CFG)
Tiempo 1080p	~38 s (H100)
Idiomas lip-sync	6
Modalidades	4 (texto / imagen / vídeo / audio)

2. Arquitectura en detalle

La decisión más llamativa es usar un único Transformer de autoatención para todos los modos: texto, imagen, vídeo y audio se concatenan en una sola secuencia de tokens, sin ramas de cross-attention ni módulo de audio separado. Contrasta con el paradigma DiT (Diffusion Transformer) dominante.

Visión general de la arquitectura «sándwich» de Happy Horse 1.0

Cuatro capas en cada extremo para proyección por modalidad; 32 capas centrales comparten parámetros para el razonamiento multimodal.

Especificaciones detalladas

Componente	Especificación
Parámetros totales	~15B
Tipo de arquitectura	Transformer de autoatención unificado (sin ramas dedicadas de cross-attention)
Capas totales	40
Disposición de capas	Estructura «sándwich»: 4 iniciales + 4 finales para proyección por modalidad; 32 centrales compartidas
Modalidades	Texto, imagen, vídeo, audio (una sola secuencia de tokens)
Fusión multimodal	Gating escalar aprendible por cabeza de atención (activación sigmoide)
Inyección de condicionamiento	Referencia y señales de denoising por interfaz unificada mínima
Paso temporal	Sin embedding explícito de timestep; el estado se infiere del latente ruidoso
Destilación	DMD-2 (Distribution Matching Distillation v2)
Muestreo	8 pasos, sin CFG
Compilación de inferencia	MagiCompiler (compilación de grafo + fusión de operadores, ~1,2× aceleración extremo a extremo)
GPU de referencia	NVIDIA H100 80GB

3. Cinco decisiones de diseño clave

1. Autoatención unificada frente a cross-attention

Las soluciones habituales (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX) combinan un backbone DiT con cross-attention desde un codificador de texto independiente; el audio suele generarse con otro modelo. Happy Horse empaqueta todos los modos en la misma secuencia: la alineación audio-vídeo forma parte del denoising, no de un postproceso.

2. Disposición en «sándwich»

Cuatro capas en cada extremo codifican/decodifican por modalidad; las 32 centrales comparten parámetros. Gran parte de la capacidad se dedica al razonamiento cruzado entre modalidades.

3. Gating sigmoide por cabeza

En el entrenamiento conjunto audio+vídeo los gradientes interfieren. Cada cabeza de atención incluye una puerta escalar aprendible para atenuar cabezas que generan gradientes destructivos.

4. Sin embedding de paso temporal

Se elimina el embedding explícito de timestep: el nivel de ruido ya está en el latente ruidoso, requisito clave para la destilación DMD-2 en 8 pasos.

5. Destilación DMD-2

La difusión de vídeo clásica suele requerir 25–50 pasos y CFG; DMD-2 entrena un modelo estudiante que iguala la distribución del profesor en 8 pasos sin CFG, base del rendimiento «1080p en ~38 s».

4. Seis capacidades principales

🎬🔊 Generación conjunta nativa de audio y vídeo

Un solo Transformer denoiza tokens de vídeo y audio en la misma secuencia: diálogo, efectos y ambiente en un paso, alineados con la imagen, sin tubería separada de voz en off ni lip-sync.

📺 Salida 1080p

Hasta 1080p, varias relaciones de aspecto, clips de 5–10 s.

🗣️ Sincronización labial en 6 idiomas

Inglés, mandarín, japonés, coreano, alemán y francés. Algunas fuentes citan 7 (incl. cantonés), pendiente de confirmación.

⚡ Generación ultrarrápida (~38 s)

~38 s en H100 para 1080p; ~2 s para vista previa 256p gracias a 8 pasos sin CFG.

🔀 Texto a vídeo e imagen a vídeo unificados

Los mismos pesos cubren ambos modos sin cambiar de modelo.

📦 Plan de publicación en código abierto

Anunciado: pesos base, modelo destilado en 8 pasos, módulo de superresolución y código de inferencia. La licencia se describe como totalmente abierta y uso comercial permitido; los términos exactos aún no están publicados.

5. Comparación con modelos abiertos populares

Comparación de pasos de muestreo

La destilación DMD-2 reduce drásticamente los pasos (8 frente a 25–50 habituales).

Característica	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Parámetros	~15B	~13B	14B	~13B	5B
Backbone	Autoatención unificada	DiT	DiT	DiT	DiT
Audio nativo	✅ Conjunto	❌	❌	❌	❌
Lip-sync	6 idiomas	0	0	0	0
Pasos	8 (sin CFG)	~25	~50	~50	~50
Tiempo 1080p	~38 s (H100)	Minutos	Minutos	Minutos	Minutos
Texto→vídeo	✅	✅	✅	✅	✅
Imagen→vídeo	✅ Unificado	✅	✅	✅	✅
Pesos descargables	❌ Aún no	✅	✅	✅	✅

En resumen: la ventaja teórica es la generación conjunta nativa sin tubería de voz aparte; la limitación es que aún no hay pesos públicos descargables.

6. Panorama de clasificaciones públicas

Artificial Analysis Video Arena calcula Elo con votación ciega. Happy Horse 1.0 ha competido bajo un alias en la parte alta de la tabla.

Detalle por tramos

Tramo	Rango Elo	Modelos representativos
🏆 Cerrado puntero	~1.200–1.275	Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5
🥈 Cerrado intermedio	~1.150–1.200	Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2
🥉 Mejores pesos abiertos	~1.100–1.135	LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B
Pesos abiertos tempranos	~950–1.020	HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B

Por encima de la línea LTX-2 = código abierto de vanguardia; el tramo cerrado puntero = competencia directa con las mejores APIs de pago.

7. Escenarios de uso potenciales

📱 Vídeo corto — TikTok / Reels / Shorts con audio nativo integrado
📢 Creatividad publicitaria — Trailers y anuncios con movimiento cinematográfico
🌍 Marketing multilingüe — Un concepto, despliegue en seis mercados lingüísticos
🎬 Previsualización B-roll — Planos de establecimiento y storyboards dinámicos
🛒 Vídeo de producto e-commerce — De foto a vídeo demostrativo (image-to-video)
🔬 Investigación en IA — Difusión audio-vídeo conjunta, Transformer multimodal unificado, DMD-2

8. Preguntas frecuentes

¿Se puede descargar ya?

No. Pesos, repositorio e inferencia oficial aún no están publicados.

¿Qué se espera liberar como abierto?

Pesos base, modelo 8 pasos, superresolución e inferencia; pendiente el texto legal exacto.

¿Idiomas de lip-sync?

Seis confirmados en documentación técnica; algunas páginas mencionan siete con cantonés.

¿Es creíble «38 s para 1080p»?

Datos de notas comunitarias en una sola H100; falta reproducción independiente. Tras publicar pesos, la comunidad podrá validarlo.

9. Conclusión

La filosofía es clara: un solo modelo unificado en lugar de encadenar vídeo mudo, voz en off y lip-sync. Tendencias: unificación de modalidades, destilación extrema, simplificación arquitectónica y gating por cabeza para estabilidad. Hoy todo esto sigue siendo «sobre el papel» hasta que existan pesos y código reproducibles.

Aun así, Happy Horse 1.0 marca una dirección relevante: generación multimodal de extremo a extremo, no solo ensamblaje de módulos. Vale la pena seguir su evolución.

Prueba las capacidades de generación de HappyHorse

Puedes probar ya la generación de vídeo en nuestra plataforma sin esperar a la API pública.

Empezar con HappyHorse