Happy Horse 1.0 deep dive: 15B unified Transformer, een nieuwe AI-videosoort met native gezamenlijke audio-video-generatie
Wie AI-videogeneratie volgt, zag onlangs een opmerkelijk fenomeen: in de blinde evaluaties van Artificial Analysis Video Arena verscheen een anoniem «mysterie-model» naast closed-source toppers van ByteDance, Kling, Google en anderen — met iets dat niemand anders had: native audio-output.
De community identificeerde de naam: Happy Horse 1.0. Nog niet officieel open source, geen openbare gewichten, geen officieel technisch rapport — maar wél een andere architectuurkeuze dan de mainstream.
Let op: op moment van schrijven is Happy Horse 1.0 niet officieel open source. Onderstaande technische informatie komt uit community-notities, vermoedelijke leaks en projectpagina’s — aannemelijk maar niet officieel bevestigd.
1. Kerncijfers
| Metric | Waarde |
|---|---|
| Totaal parameters | ~15B |
| Transformer-lagen | 40 |
| Sampling-stappen | 8 (geen CFG) |
| 1080p-tijd | ~38 s (H100) |
| Lip-sync-talen | 6 |
| Modaliteiten | 4 (tekst/beeld/video/audio) |
2. Architectuur
Happy Horse gebruikt één unified self-attention Transformer voor alle modaliteiten; tekst, beeld, video en audio vormen één tokensequentie, zonder cross-attention-takken of apart audiomodule — in contrast met gangbare DiT.

4 lagen aan elk uiteinde voor modaliteitsprojectie; 32 middenlagen delen parameters voor cross-modale reasoning.
Specificaties
| Component | Specificatie |
|---|---|
| Parameters | ~15B |
| Type | Unified self-attention Transformer |
| Lagen | 40 (sandwich: 4+32+4) |
| Modaliteiten | Tekst, beeld, video, audio (één sequentie) |
| Fusie | Leerbare scalaire gates per attention-head (sigmoid) |
| Timestep | Geen expliciet timestep-embedding |
| Distillatie | DMD-2 |
| Sampling | 8 stappen, geen CFG |
| Compilatie | MagiCompiler (~1,2×) |
| GPU | NVIDIA H100 80GB |
3. Vijf ontwerpkeuzes
1. Unified self-attention vs. cross-attention
Mainstream (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX): DiT + cross-attention; audio vaak apart. Happy Horse: alles in één sequentie — uitlijning audio-video hoort bij het denoising.
2. Sandwich-layout
Weinig parameters aan de randen voor modaliteitsspecifieke encode/decode; het merendeel van de capaciteit in het midden voor cross-modale reasoning.
3. Per-head sigmoid-gating
Bij joint training interfereren gradienten; leerbare gates per head stabiliseren het proces.
4. Geen timestep-embedding
Ruisniveau zit al in de latent — voorwaarde voor 8-staps DMD-2.
5. DMD-2-distillatie
Standaard vaak 25–50 stappen + CFG; student matcht leraar in 8 stappen zonder CFG — basis van «1080p in ~38 s».
4. Zes kernfuncties
🎬🔊 Native gezamenlijke audio-video
Eén Transformer denoiseert video- en audiotokens tegelijk — dialoog, sfx, omgeving in één doorloop.
📺 1080p
Tot 1080p, meerdere aspectverhoudingen, clips 5–10 s.
🗣️ Lip-sync in 6 talen
Engels, Mandarijn, Japans, Koreaans, Duits, Frans (sommige bronnen: +Kantonees).
⚡ Snel
~38 s op H100 voor 1080p; ~2 s voor 256p-preview.
🔀 Unified T2V & I2V
Zelfde gewichten, geen modelwissel.
📦 Open-sourceplan
Aangekondigd: basisgewichten, 8-stapsmodel, super-resolutie, inferentiecode — licentietekst volgt.
5. Vergelijking met populaire open-gewicht-modellen

| Kenmerk | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parameters | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Unified self-attention | DiT | DiT | DiT | DiT |
| Native audio | ✅ Joint | ❌ | ❌ | ❌ | ❌ |
| Lip-sync | 6 talen | 0 | 0 | 0 | 0 |
| Stappen | 8 (geen CFG) | ~25 | ~50 | ~50 | ~50 |
| 1080p-tijd | ~38 s (H100) | Minuten | Minuten | Minuten | Minuten |
| T2V | ✅ | ✅ | ✅ | ✅ | ✅ |
| I2V | ✅ Unified | ✅ | ✅ | ✅ | ✅ |
| Downloadbare weights | ❌ Nog niet | ✅ | ✅ | ✅ | ✅ |
Kernvoordeel op papier: native joint-generatie; grootste «maar»: nog geen openbare weights.
6. Leaderboard
| Tier | Elo-bereik | Voorbeelden |
|---|---|---|
| 🏆 Cutting-edge closed | ~1.200–1.275 | Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5 |
| 🥈 Mid closed | ~1.150–1.200 | Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2 |
| 🥉 Top open weights | ~1.100–1.135 | LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B |
| Early open | ~950–1.020 | HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B |
7. Toepassingsscenario’s
- 📱 Korte video (TikTok/Reels/Shorts) met native audio
- 📢 Marketing en trailers
- 🌍 Meertalige campagnes
- 🎬 B-roll-previs
- 🛒 E-commerce productvideo’s
- 🔬 Onderzoek (joint diffusion, unified Transformer, DMD-2)
8. FAQ
Nu downloaden? Nee — weights en repo nog niet uit.
Wat wordt open source? Basis, 8-stapsmodel, super-resolutie, inferentiecode.
Lip-sync-talen? Zes in technische docs; soms zeven genoemd.
38 s voor 1080p geloofwaardig? Community-meting op één H100; onafhankelijke reproductie volgt na release.
9. Conclusie
Filosofie: één unified model i.p.v. keten «video → voice-over → lipsync». Tot er reproduceerbare weights zijn, blijft veel op papier — de richting end-to-end multimodaal is wel de moeite om te volgen.
HappyHorse uitproberen
Ervaar nu videogeneratie op ons platform.