HappyHorse
Blog

Happy Horse 1.0 în profunzime: Transformer unificat 15B, o nouă specie de video AI cu generare nativă comună audio-video

HappyHorse Team
Happy Horse 1.0 în profunzime: Transformer unificat 15B, o nouă specie de video AI cu generare nativă comună audio-video

În Artificial Analysis Video Arena a apărut un model anonim «misterios» alături de modele închise de top — cu ieșire audio nativă. Comunitatea l-a numit Happy Horse 1.0: încă nu open source oficial, fără greutăți publice, dar cu o arhitectură diferită de mainstream-ul DiT.

Notă: Informațiile provin din notițe comunitare — neconfirmate oficial.

1. Date cheie

MetricăValoare
Parametri totali~15B
Straturi Transformer40
Pași de eșantionare8 (fără CFG)
Timp 1080p~38 s (H100)
Limbi lip-sync6
Modalități4 (text/imagine/video/audio)

2. Arhitectură

Un singur Transformer self-attention unificat concatenează toate modalitățile într-o singură secvență de tokeni.

Arhitectură «sandwich» Happy Horse 1.0

ComponentăSpecificație
Parametri~15B
TipUnified self-attention Transformer
Straturi40
DistilareDMD-2
Eșantionare8 pași, fără CFG
GPUNVIDIA H100 80GB

3–5

Auto-atentție unificată; layout sandwich; gating sigmoid per cap; fără embedding explicit de pas temporal; DMD-2 în 8 pași fără CFG.

6. Comparație

CaracteristicăHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parametri~15B~13B14B~13B5B
BackboneUnified self-attentionDiTDiTDiTDiT
Audio nativ
Pași8~25~50~50~50
Greutăți descărcabile

7–9

Scenarii: video scurt, publicitate, marketing multilingv, B-roll, e-commerce, cercetare AI. Concluzie: un model unificat în locul lanțului video mut → voce off → sincron buze.


Încearcă HappyHorse