Happy Horse 1.0 w pigułce: ujednolicony Transformer 15B, nowy typ wideo AI z natywną wspólną generacją audio-wideo
Na Artificial Analysis Video Arena pojawił się anonimowy „tajemniczy model” obok zamkniętych systemów klasy enterprise — z unikalną cechą: natywnym wyjściem audio. Społeczność zidentyfikowała go jako Happy Horse 1.0: brak oficjalnego open source, publicznych wag i raportu, ale już inna filozofia architektoniczna niż w mainstreamie.
Uwaga: w momencie pisania Happy Horse 1.0 nie jest oficjalnie open source. Poniższe informacje pochodzą z notatek społeczności i stron projektu — wiarygodne, lecz niepotwierdzone przez twórców.
1. Kluczowe liczby
| Metryka | Wartość |
|---|---|
| Parametry | ~15B |
| Warstwy Transformer | 40 |
| Kroki próbkowania | 8 (bez CFG) |
| Czas 1080p | ~38 s (H100) |
| Języki lip-sync | 6 |
| Modalności | 4 (tekst/obraz/wideo/audio) |
2. Architektura
Jeden ujednolicony Transformer self-attention łączy tekst, obraz, wideo i audio w jedną sekwencję tokenów — bez dedykowanych gałęzi cross-attention i bez osobnego modułu audio, w przeciwieństwie do popularnego DiT.

| Komponent | Specyfikacja |
|---|---|
| Parametry | ~15B |
| Typ | Unified self-attention Transformer |
| Warstwy | 40 (sandwich 4+32+4) |
| Destylacja | DMD-2 |
| Próbkowanie | 8 kroków, bez CFG |
| GPU | NVIDIA H100 80GB |
3. Pięć decyzji projektowych
- Self-attention vs cross-attention — wszystkie modalności w jednej sekwencji; wyrównanie audio-wideo jest częścią denoisingu.
- Układ sandwich — większość pojemności na rozumowanie międzymodalne.
- Gating sigmoidalny per-head — stabilność treningu joint audio+wideo.
- Brak embeddingu kroku czasu — poziom szumu w latentcie; warunek dla DMD-2 w 8 krokach.
- DMD-2 — student dopasowuje rozkład nauczyciela bez CFG — podstawa „1080p w ~38 s”.
4. Sześć cech
🎬🔊 Natywna wspólna generacja audio-wideo — jeden przebieg. 📺 1080p. 🗣️ Lip-sync w 6 językach (EN, mandaryński, JP, KR, DE, FR). ⚡ ~38 s na H100. 🔀 Ujednolicone T2V i I2V. 📦 Plan open source (wagi bazowe, model 8-krokowy, super-rozdzielczość, kod inferencji).
5. Porównanie
| Cecha | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parametry | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Unified self-attention | DiT | DiT | DiT | DiT |
| Natywne audio | ✅ | ❌ | ❌ | ❌ | ❌ |
| Kroki | 8 | ~25 | ~50 | ~50 | ~50 |
| Czas 1080p | ~38 s | Minuty | Minuty | Minuty | Minuty |
| Wagi do pobrania | ❌ | ✅ | ✅ | ✅ | ✅ |
6. Ranking (Arena)
| Tier | Elo | Przykłady |
|---|---|---|
| 🏆 Closed cutting-edge | ~1.200–1.275 | Seedance 2.0, Kling 3.0, Veo 3.1, … |
| 🥈 Mid closed | ~1.150–1.200 | Sora 2 Pro, Wan 2.6, … |
| 🥉 Top open | ~1.100–1.135 | LTX-2 Pro, Wan 2.2 A14B |
| Early open | ~950–1.020 | HunyuanVideo-1.5, … |
7. Zastosowania
Krótkie formy wideo, reklama, marketing wielojęzyczny, B-roll, e-commerce, badania nad dyfuzją i DMD-2.
8. FAQ
Pobieranie? Jeszcze nie. Co będzie OSS? Wagi, model 8-krokowy, super-res, kod. Lip-sync? 6 języków w dokumentacji. 38 s wiarygodne? Pomiary społeczności na H100 — do weryfikacji po publikacji wag.
9. Podsumowanie
Jeden ujednolicony model zamiast łańcucha wideo → lektor → synchronizacja ust. Kierunek: multimodalność end-to-end — warto śledzić, aż pojawią się odtwarzalne wagi i kod.