HappyHorse
Blog

Happy Horse 1.0 approfondito: Transformer unificato da 15B, una nuova specie di video IA con generazione nativa congiunta audio-video

HappyHorse Team
Happy Horse 1.0 approfondito: Transformer unificato da 15B, una nuova specie di video IA con generazione nativa congiunta audio-video

Chi segue la generazione video IA avrà notato un fenomeno insolito: nell’Artificial Analysis Video Arena è comparso un «modello misterioso» anonimo accanto a modelli closed-source all’avanguardia di ByteDance, Kling, Google e altri, con una caratteristica unica: uscita audio nativa.

La community ha presto identificato il nome: Happy Horse 1.0. Un generatore video non ancora open source ufficiale, senza pesi pubblici né report tecnico ufficiale, ma già con un approccio architettonico diverso dal mainstream.

Nota: alla data di questo articolo Happy Horse 1.0 non è ufficialmente open source. Le informazioni tecniche provengono da appunti della community, possibili leak e pagine progetto — plausibili ma non confermate ufficialmente.

1. Panoramica dei dati chiave

MetricaValore
Parametri totali~15B (circa 15 miliardi)
Layer Transformer40
Passi di campionamento8 (senza CFG)
Tempo 1080p~38 s (H100)
Lingue lip-sync6
Modalità4 (testo/immagine/video/audio)

2. Architettura in dettaglio

La scelta più evidente è un unico Transformer a self-attention per tutte le modalità: testo, immagine, video e audio sono concatenati in una sequenza di token, senza rami cross-attention né modulo audio separato — in contrasto con il paradigma DiT dominante.

Panoramica architettura «sandwich» Happy Horse 1.0

4 layer a ciascun estremo per proiezione per modalità; 32 layer centrali condividono i parametri per il reasoning multimodale.

Specifiche dettagliate

ComponenteSpecifica
Parametri totali~15B
Tipo di architetturaTransformer a self-attention unificato (nessun ramo cross-attention dedicato)
Layer totali40
LayoutStruttura «sandwich» — primi 4 + ultimi 4 per proiezione per modalità; 32 centrali condivisi
ModalitàTesto, immagine, video, audio (singola sequenza di token)
Fusione multimodaleGating scalare apprendibile per testa di attenzione (attivazione sigmoide)
CondizionamentoImmagini di riferimento e segnali di denoising tramite interfaccia unificata minima
TimestepNessun embedding esplicito di timestep; stato inferito dal rumore latente
DistillazioneDMD-2 (Distribution Matching Distillation v2)
Campionamento8 passi, senza CFG
Compilazione inferenzaMagiCompiler (grafo completo + fusione operatori, ~1,2× accelerazione end-to-end)
GPU di riferimentoNVIDIA H100 80GB

3. Cinque scelte di design chiave

1. Self-attention unificata vs. cross-attention

Le soluzioni comuni (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX) usano backbone DiT + cross-attention da encoder di testo separato; l’audio spesso con un altro modello. Happy Horse mette tutto nella stessa sequenza — l’allineamento audio-video è parte del denoising, non post-processing.

2. Layout «sandwich»

4 layer per estremità per codifica/decodifica per modalità; 32 centrali condividono i parametri.

3. Gating sigmoide per testa

Nel training congiunto audio+video i gradienti interferiscono. Ogni testa ha uno scalare apprendibile per sopprimere teste distruttive.

4. Nessun embedding di timestep

Si elimina l’embedding esplicito del passo — il livello di rumore è già nel latente; prerequisito per DMD-2 a 8 passi.

5. Distillazione DMD-2

La diffusione video standard richiede spesso 25–50 passi + CFG; DMD-2 addestra uno studente a eguagliare il maestro in 8 passi senza CFG — base del «1080p in ~38 s».

4. Sei capacità principali

🎬🔊 Generazione nativa congiunta audio-video

Un solo Transformer denoizza token video e audio nella stessa sequenza — dialoghi, effetti, ambiente in un’unica passata.

📺 Uscita 1080p

Fino a 1080p, più aspect ratio, clip 5–10 s.

🗣️ Lip-sync in 6 lingue

Inglese, mandarino, giapponese, coreano, tedesco, francese. Alcune fonti citano 7 (+cantonese), da confermare.

⚡ Generazione molto veloce

~38 s su H100 per 1080p; ~2 s per anteprima 256p.

🔀 Text-to-video e image-to-video unificati

Stessi pesi, nessun cambio di modello.

📦 Piano di rilascio open source

Annunciati: pesi base, modello distillato a 8 passi, super-risoluzione, codice di inferenza. Licenza descritta come pienamente open e uso commerciale consentito — termini definitivi mancanti.

5. Confronto con modelli open popolari

Confronto passi di campionamento

DMD-2: 8 passi vs. 25–50 tipici.

CaratteristicaHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parametri~15B~13B14B~13B5B
BackboneSelf-attention unificataDiTDiTDiTDiT
Audio nativo✅ Congiunto
Lip-sync6 lingue0000
Passi8 (no CFG)~25~50~50~50
Tempo 1080p~38 s (H100)MinutiMinutiMinutiMinuti
Testo→video
Immagine→video✅ Unificato
Pesi scaricabili❌ Non ancora

In sintesi: vantaggio teorico = generazione congiunta nativa; limite = nessun peso pubblico ancora.

6. Panorama delle classifiche

L’Arena calcola Elo con votazione alla cieca. Happy Horse 1.0 ha gareggiato in cima sotto pseudonimo.

Livelli

LivelloIntervallo EloModelli rappresentativi
🏆 Closed source d’avanguardia~1.200–1.275Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5
🥈 Closed source medio~1.150–1.200Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2
🥉 Migliori pesi aperti~1.100–1.135LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B
Pesi aperti precoci~950–1.020HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B

Sopra la linea LTX-2 = open source all’avanguardia; tier closed top = competizione diretta con le migliori API a pagamento.

7. Scenari applicativi

  • 📱 Video brevi — TikTok / Reels / Shorts con audio nativo
  • 📢 Pubblicità e trailer — motion cinematografico
  • 🌍 Marketing multilingue — un concept, sei mercati
  • 🎬 Previs B-roll — inquadrature e storyboard
  • 🛒 E-commerce — foto prodotto → video demo (I2V)
  • 🔬 Ricerca IA — diffusione congiunta, Transformer unificato, DMD-2

8. FAQ

È già scaricabile?

No. Pesi, repository e inferenza ufficiale non sono ancora stati rilasciati.

Cosa sarà open source?

Pesi base, modello a 8 passi, super-risoluzione, codice inferenza — termini legali in arrivo.

Lingue lip-sync?

Sei nella documentazione tecnica; alcune pagine citano sette con cantonese.

«38 s per 1080p» è credibile?

Dati da note community su singola H100; serve riproduzione indipendente dopo il rilascio dei pesi.

9. Conclusione

Filosofia chiara: un solo modello unificato invece di concatenare video muto, voiceover e lip-sync. Tendenze: unificazione delle modalità, distillazione estrema, semplificazione architettonica, gating per testa per stabilità. Fino a pesi e codice riproducibili, molto resta «sulla carta» — l’approccio multimodale end-to-end merita comunque di essere seguito.


Prova le capacità di generazione HappyHorse

Puoi provare subito la generazione video sulla nostra piattaforma senza attendere l’apertura dell’API.