HappyHorse
Blog

Happy Horse 1.0 deep dive: 15B unified Transformer, een nieuwe AI-videosoort met native gezamenlijke audio-video-generatie

HappyHorse Team
Happy Horse 1.0 deep dive: 15B unified Transformer, een nieuwe AI-videosoort met native gezamenlijke audio-video-generatie

Wie AI-videogeneratie volgt, zag onlangs een opmerkelijk fenomeen: in de blinde evaluaties van Artificial Analysis Video Arena verscheen een anoniem «mysterie-model» naast closed-source toppers van ByteDance, Kling, Google en anderen — met iets dat niemand anders had: native audio-output.

De community identificeerde de naam: Happy Horse 1.0. Nog niet officieel open source, geen openbare gewichten, geen officieel technisch rapport — maar wél een andere architectuurkeuze dan de mainstream.

Let op: op moment van schrijven is Happy Horse 1.0 niet officieel open source. Onderstaande technische informatie komt uit community-notities, vermoedelijke leaks en projectpagina’s — aannemelijk maar niet officieel bevestigd.

1. Kerncijfers

MetricWaarde
Totaal parameters~15B
Transformer-lagen40
Sampling-stappen8 (geen CFG)
1080p-tijd~38 s (H100)
Lip-sync-talen6
Modaliteiten4 (tekst/beeld/video/audio)

2. Architectuur

Happy Horse gebruikt één unified self-attention Transformer voor alle modaliteiten; tekst, beeld, video en audio vormen één tokensequentie, zonder cross-attention-takken of apart audiomodule — in contrast met gangbare DiT.

Overzicht «sandwich»-architectuur Happy Horse 1.0

4 lagen aan elk uiteinde voor modaliteitsprojectie; 32 middenlagen delen parameters voor cross-modale reasoning.

Specificaties

ComponentSpecificatie
Parameters~15B
TypeUnified self-attention Transformer
Lagen40 (sandwich: 4+32+4)
ModaliteitenTekst, beeld, video, audio (één sequentie)
FusieLeerbare scalaire gates per attention-head (sigmoid)
TimestepGeen expliciet timestep-embedding
DistillatieDMD-2
Sampling8 stappen, geen CFG
CompilatieMagiCompiler (~1,2×)
GPUNVIDIA H100 80GB

3. Vijf ontwerpkeuzes

1. Unified self-attention vs. cross-attention

Mainstream (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX): DiT + cross-attention; audio vaak apart. Happy Horse: alles in één sequentie — uitlijning audio-video hoort bij het denoising.

2. Sandwich-layout

Weinig parameters aan de randen voor modaliteitsspecifieke encode/decode; het merendeel van de capaciteit in het midden voor cross-modale reasoning.

3. Per-head sigmoid-gating

Bij joint training interfereren gradienten; leerbare gates per head stabiliseren het proces.

4. Geen timestep-embedding

Ruisniveau zit al in de latent — voorwaarde voor 8-staps DMD-2.

5. DMD-2-distillatie

Standaard vaak 25–50 stappen + CFG; student matcht leraar in 8 stappen zonder CFG — basis van «1080p in ~38 s».

4. Zes kernfuncties

🎬🔊 Native gezamenlijke audio-video

Eén Transformer denoiseert video- en audiotokens tegelijk — dialoog, sfx, omgeving in één doorloop.

📺 1080p

Tot 1080p, meerdere aspectverhoudingen, clips 5–10 s.

🗣️ Lip-sync in 6 talen

Engels, Mandarijn, Japans, Koreaans, Duits, Frans (sommige bronnen: +Kantonees).

⚡ Snel

~38 s op H100 voor 1080p; ~2 s voor 256p-preview.

🔀 Unified T2V & I2V

Zelfde gewichten, geen modelwissel.

📦 Open-sourceplan

Aangekondigd: basisgewichten, 8-stapsmodel, super-resolutie, inferentiecode — licentietekst volgt.

5. Vergelijking met populaire open-gewicht-modellen

Sampling-stappen

KenmerkHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parameters~15B~13B14B~13B5B
BackboneUnified self-attentionDiTDiTDiTDiT
Native audio✅ Joint
Lip-sync6 talen0000
Stappen8 (geen CFG)~25~50~50~50
1080p-tijd~38 s (H100)MinutenMinutenMinutenMinuten
T2V
I2V✅ Unified
Downloadbare weights❌ Nog niet

Kernvoordeel op papier: native joint-generatie; grootste «maar»: nog geen openbare weights.

6. Leaderboard

TierElo-bereikVoorbeelden
🏆 Cutting-edge closed~1.200–1.275Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5
🥈 Mid closed~1.150–1.200Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2
🥉 Top open weights~1.100–1.135LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B
Early open~950–1.020HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B

7. Toepassingsscenario’s

  • 📱 Korte video (TikTok/Reels/Shorts) met native audio
  • 📢 Marketing en trailers
  • 🌍 Meertalige campagnes
  • 🎬 B-roll-previs
  • 🛒 E-commerce productvideo’s
  • 🔬 Onderzoek (joint diffusion, unified Transformer, DMD-2)

8. FAQ

Nu downloaden? Nee — weights en repo nog niet uit.

Wat wordt open source? Basis, 8-stapsmodel, super-resolutie, inferentiecode.

Lip-sync-talen? Zes in technische docs; soms zeven genoemd.

38 s voor 1080p geloofwaardig? Community-meting op één H100; onafhankelijke reproductie volgt na release.

9. Conclusie

Filosofie: één unified model i.p.v. keten «video → voice-over → lipsync». Tot er reproduceerbare weights zijn, blijft veel op papier — de richting end-to-end multimodaal is wel de moeite om te volgen.


HappyHorse uitproberen

Ervaar nu videogeneratie op ons platform.