Happy Horse 1.0 deep dive: 15B unified Transformer, een nieuwe AI-videosoort met native gezamenlijke audio-video-generatie - HappyHorse AI

Wie AI-videogeneratie volgt, zag onlangs een opmerkelijk fenomeen: in de blinde evaluaties van Artificial Analysis Video Arena verscheen een anoniem «mysterie-model» naast closed-source toppers van ByteDance, Kling, Google en anderen — met iets dat niemand anders had: native audio-output.

De community identificeerde de naam: Happy Horse 1.0. Nog niet officieel open source, geen openbare gewichten, geen officieel technisch rapport — maar wél een andere architectuurkeuze dan de mainstream.

Let op: op moment van schrijven is Happy Horse 1.0 niet officieel open source. Onderstaande technische informatie komt uit community-notities, vermoedelijke leaks en projectpagina’s — aannemelijk maar niet officieel bevestigd.

1. Kerncijfers

Metric	Waarde
Totaal parameters	~15B
Transformer-lagen	40
Sampling-stappen	8 (geen CFG)
1080p-tijd	~38 s (H100)
Lip-sync-talen	6
Modaliteiten	4 (tekst/beeld/video/audio)

2. Architectuur

Happy Horse gebruikt één unified self-attention Transformer voor alle modaliteiten; tekst, beeld, video en audio vormen één tokensequentie, zonder cross-attention-takken of apart audiomodule — in contrast met gangbare DiT.

Overzicht «sandwich»-architectuur Happy Horse 1.0

4 lagen aan elk uiteinde voor modaliteitsprojectie; 32 middenlagen delen parameters voor cross-modale reasoning.

Specificaties

Component	Specificatie
Parameters	~15B
Type	Unified self-attention Transformer
Lagen	40 (sandwich: 4+32+4)
Modaliteiten	Tekst, beeld, video, audio (één sequentie)
Fusie	Leerbare scalaire gates per attention-head (sigmoid)
Timestep	Geen expliciet timestep-embedding
Distillatie	DMD-2
Sampling	8 stappen, geen CFG
Compilatie	MagiCompiler (~1,2×)
GPU	NVIDIA H100 80GB

3. Vijf ontwerpkeuzes

1. Unified self-attention vs. cross-attention

Mainstream (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX): DiT + cross-attention; audio vaak apart. Happy Horse: alles in één sequentie — uitlijning audio-video hoort bij het denoising.

2. Sandwich-layout

Weinig parameters aan de randen voor modaliteitsspecifieke encode/decode; het merendeel van de capaciteit in het midden voor cross-modale reasoning.

3. Per-head sigmoid-gating

Bij joint training interfereren gradienten; leerbare gates per head stabiliseren het proces.

4. Geen timestep-embedding

Ruisniveau zit al in de latent — voorwaarde voor 8-staps DMD-2.

5. DMD-2-distillatie

Standaard vaak 25–50 stappen + CFG; student matcht leraar in 8 stappen zonder CFG — basis van «1080p in ~38 s».

4. Zes kernfuncties

🎬🔊 Native gezamenlijke audio-video

Eén Transformer denoiseert video- en audiotokens tegelijk — dialoog, sfx, omgeving in één doorloop.

📺 1080p

Tot 1080p, meerdere aspectverhoudingen, clips 5–10 s.

🗣️ Lip-sync in 6 talen

Engels, Mandarijn, Japans, Koreaans, Duits, Frans (sommige bronnen: +Kantonees).

⚡ Snel

~38 s op H100 voor 1080p; ~2 s voor 256p-preview.

🔀 Unified T2V & I2V

Zelfde gewichten, geen modelwissel.

📦 Open-sourceplan

Aangekondigd: basisgewichten, 8-stapsmodel, super-resolutie, inferentiecode — licentietekst volgt.

5. Vergelijking met populaire open-gewicht-modellen

Sampling-stappen

Kenmerk	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Parameters	~15B	~13B	14B	~13B	5B
Backbone	Unified self-attention	DiT	DiT	DiT	DiT
Native audio	✅ Joint	❌	❌	❌	❌
Lip-sync	6 talen	0	0	0	0
Stappen	8 (geen CFG)	~25	~50	~50	~50
1080p-tijd	~38 s (H100)	Minuten	Minuten	Minuten	Minuten
T2V	✅	✅	✅	✅	✅
I2V	✅ Unified	✅	✅	✅	✅
Downloadbare weights	❌ Nog niet	✅	✅	✅	✅

Kernvoordeel op papier: native joint-generatie; grootste «maar»: nog geen openbare weights.

6. Leaderboard

Tier	Elo-bereik	Voorbeelden
🏆 Cutting-edge closed	~1.200–1.275	Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5
🥈 Mid closed	~1.150–1.200	Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2
🥉 Top open weights	~1.100–1.135	LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B
Early open	~950–1.020	HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B

7. Toepassingsscenario’s

📱 Korte video (TikTok/Reels/Shorts) met native audio
📢 Marketing en trailers
🌍 Meertalige campagnes
🎬 B-roll-previs
🛒 E-commerce productvideo’s
🔬 Onderzoek (joint diffusion, unified Transformer, DMD-2)

8. FAQ

Nu downloaden? Nee — weights en repo nog niet uit.

Wat wordt open source? Basis, 8-stapsmodel, super-resolutie, inferentiecode.

Lip-sync-talen? Zes in technische docs; soms zeven genoemd.

38 s voor 1080p geloofwaardig? Community-meting op één H100; onafhankelijke reproductie volgt na release.

9. Conclusie

Filosofie: één unified model i.p.v. keten «video → voice-over → lipsync». Tot er reproduceerbare weights zijn, blijft veel op papier — de richting end-to-end multimodaal is wel de moeite om te volgen.

HappyHorse uitproberen

Ervaar nu videogeneratie op ons platform.

Start met HappyHorse