HappyHorse
Blog

Happy Horse 1.0 a fondo: Transformer unificado de 15B, una nueva especie de vídeo IA con generación nativa conjunta de audio y vídeo

HappyHorse Team
Happy Horse 1.0 a fondo: Transformer unificado de 15B, una nueva especie de vídeo IA con generación nativa conjunta de audio y vídeo

Si sigues el espacio de generación de vídeo por IA, quizá hayas notado un fenómeno inusual: en las batallas a ciegas de Artificial Analysis Video Arena apareció un «modelo misterioso» anónimo junto a modelos cerrados de vanguardia de ByteDance, Kling, Google y otros, con una capacidad que el resto no tenía: salida de audio nativa.

La comunidad pronto identificó el nombre: Happy Horse 1.0. Un generador de vídeo por IA aún no publicado como código abierto, sin pesos públicos ni informe técnico oficial, pero que ya muestra un enfoque arquitectónico distinto al de las soluciones dominantes.

Nota: a la fecha de este artículo, Happy Horse 1.0 no está oficialmente en código abierto. La información técnica procede de notas de arquitectura recopiladas por la comunidad, posibles filtraciones y páginas de proyecto; es creíble pero no confirmada por el equipo oficial.

1. Panorama de datos clave

MétricaValor
Parámetros totales~15B (unos 15 mil millones)
Capas Transformer40
Pasos de muestreo8 (sin CFG)
Tiempo 1080p~38 s (H100)
Idiomas lip-sync6
Modalidades4 (texto / imagen / vídeo / audio)

2. Arquitectura en detalle

La decisión más llamativa es usar un único Transformer de autoatención para todos los modos: texto, imagen, vídeo y audio se concatenan en una sola secuencia de tokens, sin ramas de cross-attention ni módulo de audio separado. Contrasta con el paradigma DiT (Diffusion Transformer) dominante.

Visión general de la arquitectura «sándwich» de Happy Horse 1.0

Cuatro capas en cada extremo para proyección por modalidad; 32 capas centrales comparten parámetros para el razonamiento multimodal.

Especificaciones detalladas

ComponenteEspecificación
Parámetros totales~15B
Tipo de arquitecturaTransformer de autoatención unificado (sin ramas dedicadas de cross-attention)
Capas totales40
Disposición de capasEstructura «sándwich»: 4 iniciales + 4 finales para proyección por modalidad; 32 centrales compartidas
ModalidadesTexto, imagen, vídeo, audio (una sola secuencia de tokens)
Fusión multimodalGating escalar aprendible por cabeza de atención (activación sigmoide)
Inyección de condicionamientoReferencia y señales de denoising por interfaz unificada mínima
Paso temporalSin embedding explícito de timestep; el estado se infiere del latente ruidoso
DestilaciónDMD-2 (Distribution Matching Distillation v2)
Muestreo8 pasos, sin CFG
Compilación de inferenciaMagiCompiler (compilación de grafo + fusión de operadores, ~1,2× aceleración extremo a extremo)
GPU de referenciaNVIDIA H100 80GB

3. Cinco decisiones de diseño clave

1. Autoatención unificada frente a cross-attention

Las soluciones habituales (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX) combinan un backbone DiT con cross-attention desde un codificador de texto independiente; el audio suele generarse con otro modelo. Happy Horse empaqueta todos los modos en la misma secuencia: la alineación audio-vídeo forma parte del denoising, no de un postproceso.

2. Disposición en «sándwich»

Cuatro capas en cada extremo codifican/decodifican por modalidad; las 32 centrales comparten parámetros. Gran parte de la capacidad se dedica al razonamiento cruzado entre modalidades.

3. Gating sigmoide por cabeza

En el entrenamiento conjunto audio+vídeo los gradientes interfieren. Cada cabeza de atención incluye una puerta escalar aprendible para atenuar cabezas que generan gradientes destructivos.

4. Sin embedding de paso temporal

Se elimina el embedding explícito de timestep: el nivel de ruido ya está en el latente ruidoso, requisito clave para la destilación DMD-2 en 8 pasos.

5. Destilación DMD-2

La difusión de vídeo clásica suele requerir 25–50 pasos y CFG; DMD-2 entrena un modelo estudiante que iguala la distribución del profesor en 8 pasos sin CFG, base del rendimiento «1080p en ~38 s».

4. Seis capacidades principales

🎬🔊 Generación conjunta nativa de audio y vídeo

Un solo Transformer denoiza tokens de vídeo y audio en la misma secuencia: diálogo, efectos y ambiente en un paso, alineados con la imagen, sin tubería separada de voz en off ni lip-sync.

📺 Salida 1080p

Hasta 1080p, varias relaciones de aspecto, clips de 5–10 s.

🗣️ Sincronización labial en 6 idiomas

Inglés, mandarín, japonés, coreano, alemán y francés. Algunas fuentes citan 7 (incl. cantonés), pendiente de confirmación.

⚡ Generación ultrarrápida (~38 s)

~38 s en H100 para 1080p; ~2 s para vista previa 256p gracias a 8 pasos sin CFG.

🔀 Texto a vídeo e imagen a vídeo unificados

Los mismos pesos cubren ambos modos sin cambiar de modelo.

📦 Plan de publicación en código abierto

Anunciado: pesos base, modelo destilado en 8 pasos, módulo de superresolución y código de inferencia. La licencia se describe como totalmente abierta y uso comercial permitido; los términos exactos aún no están publicados.

5. Comparación con modelos abiertos populares

Comparación de pasos de muestreo

La destilación DMD-2 reduce drásticamente los pasos (8 frente a 25–50 habituales).

CaracterísticaHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parámetros~15B~13B14B~13B5B
BackboneAutoatención unificadaDiTDiTDiTDiT
Audio nativo✅ Conjunto
Lip-sync6 idiomas0000
Pasos8 (sin CFG)~25~50~50~50
Tiempo 1080p~38 s (H100)MinutosMinutosMinutosMinutos
Texto→vídeo
Imagen→vídeo✅ Unificado
Pesos descargables❌ Aún no

En resumen: la ventaja teórica es la generación conjunta nativa sin tubería de voz aparte; la limitación es que aún no hay pesos públicos descargables.

6. Panorama de clasificaciones públicas

Artificial Analysis Video Arena calcula Elo con votación ciega. Happy Horse 1.0 ha competido bajo un alias en la parte alta de la tabla.

Detalle por tramos

TramoRango EloModelos representativos
🏆 Cerrado puntero~1.200–1.275Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5
🥈 Cerrado intermedio~1.150–1.200Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2
🥉 Mejores pesos abiertos~1.100–1.135LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B
Pesos abiertos tempranos~950–1.020HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B

Por encima de la línea LTX-2 = código abierto de vanguardia; el tramo cerrado puntero = competencia directa con las mejores APIs de pago.

7. Escenarios de uso potenciales

  • 📱 Vídeo corto — TikTok / Reels / Shorts con audio nativo integrado
  • 📢 Creatividad publicitaria — Trailers y anuncios con movimiento cinematográfico
  • 🌍 Marketing multilingüe — Un concepto, despliegue en seis mercados lingüísticos
  • 🎬 Previsualización B-roll — Planos de establecimiento y storyboards dinámicos
  • 🛒 Vídeo de producto e-commerce — De foto a vídeo demostrativo (image-to-video)
  • 🔬 Investigación en IA — Difusión audio-vídeo conjunta, Transformer multimodal unificado, DMD-2

8. Preguntas frecuentes

¿Se puede descargar ya?

No. Pesos, repositorio e inferencia oficial aún no están publicados.

¿Qué se espera liberar como abierto?

Pesos base, modelo 8 pasos, superresolución e inferencia; pendiente el texto legal exacto.

¿Idiomas de lip-sync?

Seis confirmados en documentación técnica; algunas páginas mencionan siete con cantonés.

¿Es creíble «38 s para 1080p»?

Datos de notas comunitarias en una sola H100; falta reproducción independiente. Tras publicar pesos, la comunidad podrá validarlo.

9. Conclusión

La filosofía es clara: un solo modelo unificado en lugar de encadenar vídeo mudo, voz en off y lip-sync. Tendencias: unificación de modalidades, destilación extrema, simplificación arquitectónica y gating por cabeza para estabilidad. Hoy todo esto sigue siendo «sobre el papel» hasta que existan pesos y código reproducibles.

Aun así, Happy Horse 1.0 marca una dirección relevante: generación multimodal de extremo a extremo, no solo ensamblaje de módulos. Vale la pena seguir su evolución.


Prueba las capacidades de generación de HappyHorse

Puedes probar ya la generación de vídeo en nuestra plataforma sin esperar a la API pública.