Happy Horse 1.0 w pigułce: ujednolicony Transformer 15B, nowy typ wideo AI z natywną wspólną generacją audio-wideo - HappyHorse AI

Na Artificial Analysis Video Arena pojawił się anonimowy „tajemniczy model” obok zamkniętych systemów klasy enterprise — z unikalną cechą: natywnym wyjściem audio. Społeczność zidentyfikowała go jako Happy Horse 1.0: brak oficjalnego open source, publicznych wag i raportu, ale już inna filozofia architektoniczna niż w mainstreamie.

Uwaga: w momencie pisania Happy Horse 1.0 nie jest oficjalnie open source. Poniższe informacje pochodzą z notatek społeczności i stron projektu — wiarygodne, lecz niepotwierdzone przez twórców.

1. Kluczowe liczby

Metryka	Wartość
Parametry	~15B
Warstwy Transformer	40
Kroki próbkowania	8 (bez CFG)
Czas 1080p	~38 s (H100)
Języki lip-sync	6
Modalności	4 (tekst/obraz/wideo/audio)

2. Architektura

Jeden ujednolicony Transformer self-attention łączy tekst, obraz, wideo i audio w jedną sekwencję tokenów — bez dedykowanych gałęzi cross-attention i bez osobnego modułu audio, w przeciwieństwie do popularnego DiT.

Architektura „kanapka” Happy Horse 1.0

Komponent	Specyfikacja
Parametry	~15B
Typ	Unified self-attention Transformer
Warstwy	40 (sandwich 4+32+4)
Destylacja	DMD-2
Próbkowanie	8 kroków, bez CFG
GPU	NVIDIA H100 80GB

3. Pięć decyzji projektowych

Self-attention vs cross-attention — wszystkie modalności w jednej sekwencji; wyrównanie audio-wideo jest częścią denoisingu.
Układ sandwich — większość pojemności na rozumowanie międzymodalne.
Gating sigmoidalny per-head — stabilność treningu joint audio+wideo.
Brak embeddingu kroku czasu — poziom szumu w latentcie; warunek dla DMD-2 w 8 krokach.
DMD-2 — student dopasowuje rozkład nauczyciela bez CFG — podstawa „1080p w ~38 s”.

4. Sześć cech

🎬🔊 Natywna wspólna generacja audio-wideo — jeden przebieg. 📺 1080p. 🗣️ Lip-sync w 6 językach (EN, mandaryński, JP, KR, DE, FR). ⚡ ~38 s na H100. 🔀 Ujednolicone T2V i I2V. 📦 Plan open source (wagi bazowe, model 8-krokowy, super-rozdzielczość, kod inferencji).

5. Porównanie

Cecha	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Parametry	~15B	~13B	14B	~13B	5B
Backbone	Unified self-attention	DiT	DiT	DiT	DiT
Natywne audio	✅	❌	❌	❌	❌
Kroki	8	~25	~50	~50	~50
Czas 1080p	~38 s	Minuty	Minuty	Minuty	Minuty
Wagi do pobrania	❌	✅	✅	✅	✅

6. Ranking (Arena)

Tier	Elo	Przykłady
🏆 Closed cutting-edge	~1.200–1.275	Seedance 2.0, Kling 3.0, Veo 3.1, …
🥈 Mid closed	~1.150–1.200	Sora 2 Pro, Wan 2.6, …
🥉 Top open	~1.100–1.135	LTX-2 Pro, Wan 2.2 A14B
Early open	~950–1.020	HunyuanVideo-1.5, …

7. Zastosowania

Krótkie formy wideo, reklama, marketing wielojęzyczny, B-roll, e-commerce, badania nad dyfuzją i DMD-2.

8. FAQ

Pobieranie? Jeszcze nie. Co będzie OSS? Wagi, model 8-krokowy, super-res, kod. Lip-sync? 6 języków w dokumentacji. 38 s wiarygodne? Pomiary społeczności na H100 — do weryfikacji po publikacji wag.

9. Podsumowanie

Jeden ujednolicony model zamiast łańcucha wideo → lektor → synchronizacja ust. Kierunek: multimodalność end-to-end — warto śledzić, aż pojawią się odtwarzalne wagi i kod.

Wypróbuj HappyHorse

Zacznij korzystać z HappyHorse