Happy Horse 1.0 approfondito: Transformer unificato da 15B, una nuova specie di video IA con generazione nativa congiunta audio-video
Chi segue la generazione video IA avrà notato un fenomeno insolito: nell’Artificial Analysis Video Arena è comparso un «modello misterioso» anonimo accanto a modelli closed-source all’avanguardia di ByteDance, Kling, Google e altri, con una caratteristica unica: uscita audio nativa.
La community ha presto identificato il nome: Happy Horse 1.0. Un generatore video non ancora open source ufficiale, senza pesi pubblici né report tecnico ufficiale, ma già con un approccio architettonico diverso dal mainstream.
Nota: alla data di questo articolo Happy Horse 1.0 non è ufficialmente open source. Le informazioni tecniche provengono da appunti della community, possibili leak e pagine progetto — plausibili ma non confermate ufficialmente.
1. Panoramica dei dati chiave
| Metrica | Valore |
|---|---|
| Parametri totali | ~15B (circa 15 miliardi) |
| Layer Transformer | 40 |
| Passi di campionamento | 8 (senza CFG) |
| Tempo 1080p | ~38 s (H100) |
| Lingue lip-sync | 6 |
| Modalità | 4 (testo/immagine/video/audio) |
2. Architettura in dettaglio
La scelta più evidente è un unico Transformer a self-attention per tutte le modalità: testo, immagine, video e audio sono concatenati in una sequenza di token, senza rami cross-attention né modulo audio separato — in contrasto con il paradigma DiT dominante.

4 layer a ciascun estremo per proiezione per modalità; 32 layer centrali condividono i parametri per il reasoning multimodale.
Specifiche dettagliate
| Componente | Specifica |
|---|---|
| Parametri totali | ~15B |
| Tipo di architettura | Transformer a self-attention unificato (nessun ramo cross-attention dedicato) |
| Layer totali | 40 |
| Layout | Struttura «sandwich» — primi 4 + ultimi 4 per proiezione per modalità; 32 centrali condivisi |
| Modalità | Testo, immagine, video, audio (singola sequenza di token) |
| Fusione multimodale | Gating scalare apprendibile per testa di attenzione (attivazione sigmoide) |
| Condizionamento | Immagini di riferimento e segnali di denoising tramite interfaccia unificata minima |
| Timestep | Nessun embedding esplicito di timestep; stato inferito dal rumore latente |
| Distillazione | DMD-2 (Distribution Matching Distillation v2) |
| Campionamento | 8 passi, senza CFG |
| Compilazione inferenza | MagiCompiler (grafo completo + fusione operatori, ~1,2× accelerazione end-to-end) |
| GPU di riferimento | NVIDIA H100 80GB |
3. Cinque scelte di design chiave
1. Self-attention unificata vs. cross-attention
Le soluzioni comuni (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX) usano backbone DiT + cross-attention da encoder di testo separato; l’audio spesso con un altro modello. Happy Horse mette tutto nella stessa sequenza — l’allineamento audio-video è parte del denoising, non post-processing.
2. Layout «sandwich»
4 layer per estremità per codifica/decodifica per modalità; 32 centrali condividono i parametri.
3. Gating sigmoide per testa
Nel training congiunto audio+video i gradienti interferiscono. Ogni testa ha uno scalare apprendibile per sopprimere teste distruttive.
4. Nessun embedding di timestep
Si elimina l’embedding esplicito del passo — il livello di rumore è già nel latente; prerequisito per DMD-2 a 8 passi.
5. Distillazione DMD-2
La diffusione video standard richiede spesso 25–50 passi + CFG; DMD-2 addestra uno studente a eguagliare il maestro in 8 passi senza CFG — base del «1080p in ~38 s».
4. Sei capacità principali
🎬🔊 Generazione nativa congiunta audio-video
Un solo Transformer denoizza token video e audio nella stessa sequenza — dialoghi, effetti, ambiente in un’unica passata.
📺 Uscita 1080p
Fino a 1080p, più aspect ratio, clip 5–10 s.
🗣️ Lip-sync in 6 lingue
Inglese, mandarino, giapponese, coreano, tedesco, francese. Alcune fonti citano 7 (+cantonese), da confermare.
⚡ Generazione molto veloce
~38 s su H100 per 1080p; ~2 s per anteprima 256p.
🔀 Text-to-video e image-to-video unificati
Stessi pesi, nessun cambio di modello.
📦 Piano di rilascio open source
Annunciati: pesi base, modello distillato a 8 passi, super-risoluzione, codice di inferenza. Licenza descritta come pienamente open e uso commerciale consentito — termini definitivi mancanti.
5. Confronto con modelli open popolari

DMD-2: 8 passi vs. 25–50 tipici.
| Caratteristica | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parametri | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Self-attention unificata | DiT | DiT | DiT | DiT |
| Audio nativo | ✅ Congiunto | ❌ | ❌ | ❌ | ❌ |
| Lip-sync | 6 lingue | 0 | 0 | 0 | 0 |
| Passi | 8 (no CFG) | ~25 | ~50 | ~50 | ~50 |
| Tempo 1080p | ~38 s (H100) | Minuti | Minuti | Minuti | Minuti |
| Testo→video | ✅ | ✅ | ✅ | ✅ | ✅ |
| Immagine→video | ✅ Unificato | ✅ | ✅ | ✅ | ✅ |
| Pesi scaricabili | ❌ Non ancora | ✅ | ✅ | ✅ | ✅ |
In sintesi: vantaggio teorico = generazione congiunta nativa; limite = nessun peso pubblico ancora.
6. Panorama delle classifiche
L’Arena calcola Elo con votazione alla cieca. Happy Horse 1.0 ha gareggiato in cima sotto pseudonimo.
Livelli
| Livello | Intervallo Elo | Modelli rappresentativi |
|---|---|---|
| 🏆 Closed source d’avanguardia | ~1.200–1.275 | Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5 |
| 🥈 Closed source medio | ~1.150–1.200 | Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2 |
| 🥉 Migliori pesi aperti | ~1.100–1.135 | LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B |
| Pesi aperti precoci | ~950–1.020 | HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B |
Sopra la linea LTX-2 = open source all’avanguardia; tier closed top = competizione diretta con le migliori API a pagamento.
7. Scenari applicativi
- 📱 Video brevi — TikTok / Reels / Shorts con audio nativo
- 📢 Pubblicità e trailer — motion cinematografico
- 🌍 Marketing multilingue — un concept, sei mercati
- 🎬 Previs B-roll — inquadrature e storyboard
- 🛒 E-commerce — foto prodotto → video demo (I2V)
- 🔬 Ricerca IA — diffusione congiunta, Transformer unificato, DMD-2
8. FAQ
È già scaricabile?
No. Pesi, repository e inferenza ufficiale non sono ancora stati rilasciati.
Cosa sarà open source?
Pesi base, modello a 8 passi, super-risoluzione, codice inferenza — termini legali in arrivo.
Lingue lip-sync?
Sei nella documentazione tecnica; alcune pagine citano sette con cantonese.
«38 s per 1080p» è credibile?
Dati da note community su singola H100; serve riproduzione indipendente dopo il rilascio dei pesi.
9. Conclusione
Filosofia chiara: un solo modello unificato invece di concatenare video muto, voiceover e lip-sync. Tendenze: unificazione delle modalità, distillazione estrema, semplificazione architettonica, gating per testa per stabilità. Fino a pesi e codice riproducibili, molto resta «sulla carta» — l’approccio multimodale end-to-end merita comunque di essere seguito.
Prova le capacità di generazione HappyHorse
Puoi provare subito la generazione video sulla nostra piattaforma senza attendere l’apertura dell’API.