Happy Horse 1.0 på djupet: 15B unified Transformer – en ny AI-videosort med nativ gemensam ljud- och videogenerering - HappyHorse AI

I Artificial Analysis Video Arena dök ett anonymt «mysteriemodell» upp jämte ledande stängda modeller – med nativ ljudutgång. Gemenskapen namngav det Happy Horse 1.0: ännu inte officiellt öppen källkod, inga offentliga vikter, men en annan arkitekturväg än mainstream DiT.

Obs: Informationen bygger på community-anteckningar och projektsidor – inte officiellt bekräftad.

1. Nyckeltal

Mått	Värde
Parametrar	~15B
Transformer-lager	40
Sampling-steg	8 (utan CFG)
1080p-tid	~38 s (H100)
Lip-sync-språk	6
Modaliteter	4 (text/bild/video/ljud)

2. Arkitektur

En enhetlig self-attention-Transformer konkatenerar text, bild, video och ljud till en token-sekvens utan separata cross-attention-grenar eller ljudmodul.

«Sandwich»-arkitektur Happy Horse 1.0

Komponent	Specifikation
Parametrar	~15B
Typ	Unified self-attention Transformer
Lager	40
Destillation	DMD-2
Sampling	8 steg, ingen CFG
GPU	NVIDIA H100 80GB

3. Fem designval

Unified self-attention ger ljud–video-linje som del av denoising; sandwich-layout; per-head sigmoid-gating för stabilitet; inget timestep-embedding; DMD-2 för 8 steg utan CFG («1080p på ~38 s»).

4. Sex kärnfunktioner

Nativ gemensam ljud-video, 1080p, lip-sync på 6 språk, snabb inferens, enhetlig T2V/I2V, planerat open source-utsläpp (vikter, 8-stegsmodell, superupplösning, kod).

5. Jämförelse

Funktion	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Parametrar	~15B	~13B	14B	~13B	5B
Backbone	Unified self-attention	DiT	DiT	DiT	DiT
Nativt ljud	✅	❌	❌	❌	❌
Steg	8	~25	~50	~50	~50
Nedladdningsbara vikter	❌	✅	✅	✅	✅

6. Leaderboard (Arena)

🏆 Cutting-edge closed ~1.200–1.275 · 🥈 Mid ~1.150–1.200 · 🥉 Top open ~1.100–1.135 · Early open ~950–1.020.

7. Användning

Kortvideo, annonsering, flerspråkig marknadsföring, B-roll, e-handel, forskning.

8. FAQ

Inte nedladdningsbart än. Open source: basvikter, 8-stegsmodell, superupplösning, inferenskod. Lip-sync: 6 språk i dokumentationen. 38 s: community-mätning på H100.

9. Slutsats

Ett enhetligt steg i stället för pipeline video → röst → läpp-sync. Värt att följa tills reproducerbara vikten finns.

Prova HappyHorse

Börja använda HappyHorse