HappyHorse
Blog

Happy Horse 1.0 w pigułce: ujednolicony Transformer 15B, nowy typ wideo AI z natywną wspólną generacją audio-wideo

HappyHorse Team
Happy Horse 1.0 w pigułce: ujednolicony Transformer 15B, nowy typ wideo AI z natywną wspólną generacją audio-wideo

Na Artificial Analysis Video Arena pojawił się anonimowy „tajemniczy model” obok zamkniętych systemów klasy enterprise — z unikalną cechą: natywnym wyjściem audio. Społeczność zidentyfikowała go jako Happy Horse 1.0: brak oficjalnego open source, publicznych wag i raportu, ale już inna filozofia architektoniczna niż w mainstreamie.

Uwaga: w momencie pisania Happy Horse 1.0 nie jest oficjalnie open source. Poniższe informacje pochodzą z notatek społeczności i stron projektu — wiarygodne, lecz niepotwierdzone przez twórców.

1. Kluczowe liczby

MetrykaWartość
Parametry~15B
Warstwy Transformer40
Kroki próbkowania8 (bez CFG)
Czas 1080p~38 s (H100)
Języki lip-sync6
Modalności4 (tekst/obraz/wideo/audio)

2. Architektura

Jeden ujednolicony Transformer self-attention łączy tekst, obraz, wideo i audio w jedną sekwencję tokenów — bez dedykowanych gałęzi cross-attention i bez osobnego modułu audio, w przeciwieństwie do popularnego DiT.

Architektura „kanapka” Happy Horse 1.0

KomponentSpecyfikacja
Parametry~15B
TypUnified self-attention Transformer
Warstwy40 (sandwich 4+32+4)
DestylacjaDMD-2
Próbkowanie8 kroków, bez CFG
GPUNVIDIA H100 80GB

3. Pięć decyzji projektowych

  1. Self-attention vs cross-attention — wszystkie modalności w jednej sekwencji; wyrównanie audio-wideo jest częścią denoisingu.
  2. Układ sandwich — większość pojemności na rozumowanie międzymodalne.
  3. Gating sigmoidalny per-head — stabilność treningu joint audio+wideo.
  4. Brak embeddingu kroku czasu — poziom szumu w latentcie; warunek dla DMD-2 w 8 krokach.
  5. DMD-2 — student dopasowuje rozkład nauczyciela bez CFG — podstawa „1080p w ~38 s”.

4. Sześć cech

🎬🔊 Natywna wspólna generacja audio-wideo — jeden przebieg. 📺 1080p. 🗣️ Lip-sync w 6 językach (EN, mandaryński, JP, KR, DE, FR). ⚡ ~38 s na H100. 🔀 Ujednolicone T2V i I2V. 📦 Plan open source (wagi bazowe, model 8-krokowy, super-rozdzielczość, kod inferencji).

5. Porównanie

CechaHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parametry~15B~13B14B~13B5B
BackboneUnified self-attentionDiTDiTDiTDiT
Natywne audio
Kroki8~25~50~50~50
Czas 1080p~38 sMinutyMinutyMinutyMinuty
Wagi do pobrania

6. Ranking (Arena)

TierEloPrzykłady
🏆 Closed cutting-edge~1.200–1.275Seedance 2.0, Kling 3.0, Veo 3.1, …
🥈 Mid closed~1.150–1.200Sora 2 Pro, Wan 2.6, …
🥉 Top open~1.100–1.135LTX-2 Pro, Wan 2.2 A14B
Early open~950–1.020HunyuanVideo-1.5, …

7. Zastosowania

Krótkie formy wideo, reklama, marketing wielojęzyczny, B-roll, e-commerce, badania nad dyfuzją i DMD-2.

8. FAQ

Pobieranie? Jeszcze nie. Co będzie OSS? Wagi, model 8-krokowy, super-res, kod. Lip-sync? 6 języków w dokumentacji. 38 s wiarygodne? Pomiary społeczności na H100 — do weryfikacji po publikacji wag.

9. Podsumowanie

Jeden ujednolicony model zamiast łańcucha wideo → lektor → synchronizacja ust. Kierunek: multimodalność end-to-end — warto śledzić, aż pojawią się odtwarzalne wagi i kod.


Wypróbuj HappyHorse