Happy Horse 1.0 în profunzime: Transformer unificat 15B, o nouă specie de video AI cu generare nativă comună audio-video
În Artificial Analysis Video Arena a apărut un model anonim «misterios» alături de modele închise de top — cu ieșire audio nativă. Comunitatea l-a numit Happy Horse 1.0: încă nu open source oficial, fără greutăți publice, dar cu o arhitectură diferită de mainstream-ul DiT.
Notă: Informațiile provin din notițe comunitare — neconfirmate oficial.
1. Date cheie
| Metrică | Valoare |
|---|---|
| Parametri totali | ~15B |
| Straturi Transformer | 40 |
| Pași de eșantionare | 8 (fără CFG) |
| Timp 1080p | ~38 s (H100) |
| Limbi lip-sync | 6 |
| Modalități | 4 (text/imagine/video/audio) |
2. Arhitectură
Un singur Transformer self-attention unificat concatenează toate modalitățile într-o singură secvență de tokeni.

| Componentă | Specificație |
|---|---|
| Parametri | ~15B |
| Tip | Unified self-attention Transformer |
| Straturi | 40 |
| Distilare | DMD-2 |
| Eșantionare | 8 pași, fără CFG |
| GPU | NVIDIA H100 80GB |
3–5
Auto-atentție unificată; layout sandwich; gating sigmoid per cap; fără embedding explicit de pas temporal; DMD-2 în 8 pași fără CFG.
6. Comparație
| Caracteristică | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parametri | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Unified self-attention | DiT | DiT | DiT | DiT |
| Audio nativ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Pași | 8 | ~25 | ~50 | ~50 | ~50 |
| Greutăți descărcabile | ❌ | ✅ | ✅ | ✅ | ✅ |
7–9
Scenarii: video scurt, publicitate, marketing multilingv, B-roll, e-commerce, cercetare AI. Concluzie: un model unificat în locul lanțului video mut → voce off → sincron buze.