HappyHorse
Blog

Happy Horse 1.0 mendalam: Transformer terpadu 15B, spesies video AI baru dengan generasi audio-video asli bersama

HappyHorse Team
Happy Horse 1.0 mendalam: Transformer terpadu 15B, spesies video AI baru dengan generasi audio-video asli bersama

Di Artificial Analysis Video Arena, model anonim «misteri» muncul bersama model tertutup kelas atas ByteDance, Kling, Google, dengan fitur unik: output audio asli. Komunitas menamakannya Happy Horse 1.0 — belum open source resmi, tanpa bobot publik, namun pendekatan arsitektur berbeda dari arus utama DiT.

Catatan: Informasi teknis dari catatan komunitas dan halaman proyek — belum dikonfirmasi resmi.

1. Data inti

MetrikNilai
Parameter total~15B
Layer Transformer40
Langkah sampling8 (tanpa CFG)
Waktu 1080p~38 dtk (H100)
Bahasa lip-sync6
Modalitas4 (teks/gambar/video/audio)

2. Arsitektur

Satu Transformer self-attention terpadu menggabungkan teks, gambar, video, dan audio dalam satu urutan token tanpa cabang cross-attention terpisah.

Arsitektur «sandwich» Happy Horse 1.0

KomponenSpesifikasi
Parameter~15B
JenisUnified self-attention Transformer
Layer40
DistilasiDMD-2
Sampling8 langkah, tanpa CFG
GPUNVIDIA H100 80GB

3. Lima pilihan desain

Self-attention terpadu; tata letak sandwich; gating sigmoid per-head; tanpa embedding timestep eksplisit; DMD-2 untuk 8 langkah tanpa CFG.

4. Enam fitur inti

Generasi audio-video asli bersama; 1080p; lip-sync 6 bahasa; inferensi cepat; T2V & I2V terpadu; rencana rilis open source.

5. Perbandingan

FiturHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parameter~15B~13B14B~13B5B
BackboneUnified self-attentionDiTDiTDiTDiT
Audio asli
Langkah8~25~50~50~50
Bobot unduhan

6. Papan peringkat

Arena menghitung Elo dari voting buta. Happy Horse 1.0 tampil di puncak dengan nama samaran.

7. Skenario

Video pendek, iklan, pemasaran multibahasa, B-roll, e-commerce, penelitian AI.

8. FAQ

Belum bisa diunduh. Cakupan OSS: bobot dasar, model 8 langkah, super-resolusi, kode inferensi.

9. Kesimpulan

Satu model terpadu menggantikan rantai video bisu → sulih suara → sinkron bibir. Arah multimodal ujung-ke-ujung layak dipantau.


Coba HappyHorse