HappyHorse
Blogg

Happy Horse 1.0 på djupet: 15B unified Transformer – en ny AI-videosort med nativ gemensam ljud- och videogenerering

HappyHorse Team
Happy Horse 1.0 på djupet: 15B unified Transformer – en ny AI-videosort med nativ gemensam ljud- och videogenerering

I Artificial Analysis Video Arena dök ett anonymt «mysteriemodell» upp jämte ledande stängda modeller – med nativ ljudutgång. Gemenskapen namngav det Happy Horse 1.0: ännu inte officiellt öppen källkod, inga offentliga vikter, men en annan arkitekturväg än mainstream DiT.

Obs: Informationen bygger på community-anteckningar och projektsidor – inte officiellt bekräftad.

1. Nyckeltal

MåttVärde
Parametrar~15B
Transformer-lager40
Sampling-steg8 (utan CFG)
1080p-tid~38 s (H100)
Lip-sync-språk6
Modaliteter4 (text/bild/video/ljud)

2. Arkitektur

En enhetlig self-attention-Transformer konkatenerar text, bild, video och ljud till en token-sekvens utan separata cross-attention-grenar eller ljudmodul.

«Sandwich»-arkitektur Happy Horse 1.0

KomponentSpecifikation
Parametrar~15B
TypUnified self-attention Transformer
Lager40
DestillationDMD-2
Sampling8 steg, ingen CFG
GPUNVIDIA H100 80GB

3. Fem designval

Unified self-attention ger ljud–video-linje som del av denoising; sandwich-layout; per-head sigmoid-gating för stabilitet; inget timestep-embedding; DMD-2 för 8 steg utan CFG («1080p på ~38 s»).

4. Sex kärnfunktioner

Nativ gemensam ljud-video, 1080p, lip-sync på 6 språk, snabb inferens, enhetlig T2V/I2V, planerat open source-utsläpp (vikter, 8-stegsmodell, superupplösning, kod).

5. Jämförelse

FunktionHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parametrar~15B~13B14B~13B5B
BackboneUnified self-attentionDiTDiTDiTDiT
Nativt ljud
Steg8~25~50~50~50
Nedladdningsbara vikter

6. Leaderboard (Arena)

🏆 Cutting-edge closed ~1.200–1.275 · 🥈 Mid ~1.150–1.200 · 🥉 Top open ~1.100–1.135 · Early open ~950–1.020.

7. Användning

Kortvideo, annonsering, flerspråkig marknadsföring, B-roll, e-handel, forskning.

8. FAQ

Inte nedladdningsbart än. Open source: basvikter, 8-stegsmodell, superupplösning, inferenskod. Lip-sync: 6 språk i dokumentationen. 38 s: community-mätning på H100.

9. Slutsats

Ett enhetligt steg i stället för pipeline video → röst → läpp-sync. Värt att följa tills reproducerbara vikten finns.


Prova HappyHorse