Happy Horse 1.0 på djupet: 15B unified Transformer – en ny AI-videosort med nativ gemensam ljud- och videogenerering
I Artificial Analysis Video Arena dök ett anonymt «mysteriemodell» upp jämte ledande stängda modeller – med nativ ljudutgång. Gemenskapen namngav det Happy Horse 1.0: ännu inte officiellt öppen källkod, inga offentliga vikter, men en annan arkitekturväg än mainstream DiT.
Obs: Informationen bygger på community-anteckningar och projektsidor – inte officiellt bekräftad.
1. Nyckeltal
| Mått | Värde |
|---|---|
| Parametrar | ~15B |
| Transformer-lager | 40 |
| Sampling-steg | 8 (utan CFG) |
| 1080p-tid | ~38 s (H100) |
| Lip-sync-språk | 6 |
| Modaliteter | 4 (text/bild/video/ljud) |
2. Arkitektur
En enhetlig self-attention-Transformer konkatenerar text, bild, video och ljud till en token-sekvens utan separata cross-attention-grenar eller ljudmodul.

| Komponent | Specifikation |
|---|---|
| Parametrar | ~15B |
| Typ | Unified self-attention Transformer |
| Lager | 40 |
| Destillation | DMD-2 |
| Sampling | 8 steg, ingen CFG |
| GPU | NVIDIA H100 80GB |
3. Fem designval
Unified self-attention ger ljud–video-linje som del av denoising; sandwich-layout; per-head sigmoid-gating för stabilitet; inget timestep-embedding; DMD-2 för 8 steg utan CFG («1080p på ~38 s»).
4. Sex kärnfunktioner
Nativ gemensam ljud-video, 1080p, lip-sync på 6 språk, snabb inferens, enhetlig T2V/I2V, planerat open source-utsläpp (vikter, 8-stegsmodell, superupplösning, kod).
5. Jämförelse
| Funktion | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parametrar | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Unified self-attention | DiT | DiT | DiT | DiT |
| Nativt ljud | ✅ | ❌ | ❌ | ❌ | ❌ |
| Steg | 8 | ~25 | ~50 | ~50 | ~50 |
| Nedladdningsbara vikter | ❌ | ✅ | ✅ | ✅ | ✅ |
6. Leaderboard (Arena)
🏆 Cutting-edge closed ~1.200–1.275 · 🥈 Mid ~1.150–1.200 · 🥉 Top open ~1.100–1.135 · Early open ~950–1.020.
7. Användning
Kortvideo, annonsering, flerspråkig marknadsföring, B-roll, e-handel, forskning.
8. FAQ
Inte nedladdningsbart än. Open source: basvikter, 8-stegsmodell, superupplösning, inferenskod. Lip-sync: 6 språk i dokumentationen. 38 s: community-mätning på H100.
9. Slutsats
Ett enhetligt steg i stället för pipeline video → röst → läpp-sync. Värt att följa tills reproducerbara vikten finns.