Happy Horse 1.0 în profunzime: Transformer unificat 15B, o nouă specie de video AI cu generare nativă comună audio-video - HappyHorse AI

În Artificial Analysis Video Arena a apărut un model anonim «misterios» alături de modele închise de top — cu ieșire audio nativă. Comunitatea l-a numit Happy Horse 1.0: încă nu open source oficial, fără greutăți publice, dar cu o arhitectură diferită de mainstream-ul DiT.

Notă: Informațiile provin din notițe comunitare — neconfirmate oficial.

1. Date cheie

Metrică	Valoare
Parametri totali	~15B
Straturi Transformer	40
Pași de eșantionare	8 (fără CFG)
Timp 1080p	~38 s (H100)
Limbi lip-sync	6
Modalități	4 (text/imagine/video/audio)

2. Arhitectură

Un singur Transformer self-attention unificat concatenează toate modalitățile într-o singură secvență de tokeni.

Arhitectură «sandwich» Happy Horse 1.0

Componentă	Specificație
Parametri	~15B
Tip	Unified self-attention Transformer
Straturi	40
Distilare	DMD-2
Eșantionare	8 pași, fără CFG
GPU	NVIDIA H100 80GB

3–5

Auto-atentție unificată; layout sandwich; gating sigmoid per cap; fără embedding explicit de pas temporal; DMD-2 în 8 pași fără CFG.

6. Comparație

Caracteristică	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Parametri	~15B	~13B	14B	~13B	5B
Backbone	Unified self-attention	DiT	DiT	DiT	DiT
Audio nativ	✅	❌	❌	❌	❌
Pași	8	~25	~50	~50	~50
Greutăți descărcabile	❌	✅	✅	✅	✅

7–9

Scenarii: video scurt, publicitate, marketing multilingv, B-roll, e-commerce, cercetare AI. Concluzie: un model unificat în locul lanțului video mut → voce off → sincron buze.

Încearcă HappyHorse

Începe să folosești HappyHorse