Happy Horse 1.0 mendalam: Transformer terpadu 15B, spesies video AI baru dengan generasi audio-video asli bersama
Di Artificial Analysis Video Arena, model anonim «misteri» muncul bersama model tertutup kelas atas ByteDance, Kling, Google, dengan fitur unik: output audio asli. Komunitas menamakannya Happy Horse 1.0 — belum open source resmi, tanpa bobot publik, namun pendekatan arsitektur berbeda dari arus utama DiT.
Catatan: Informasi teknis dari catatan komunitas dan halaman proyek — belum dikonfirmasi resmi.
1. Data inti
| Metrik | Nilai |
|---|---|
| Parameter total | ~15B |
| Layer Transformer | 40 |
| Langkah sampling | 8 (tanpa CFG) |
| Waktu 1080p | ~38 dtk (H100) |
| Bahasa lip-sync | 6 |
| Modalitas | 4 (teks/gambar/video/audio) |
2. Arsitektur
Satu Transformer self-attention terpadu menggabungkan teks, gambar, video, dan audio dalam satu urutan token tanpa cabang cross-attention terpisah.

| Komponen | Spesifikasi |
|---|---|
| Parameter | ~15B |
| Jenis | Unified self-attention Transformer |
| Layer | 40 |
| Distilasi | DMD-2 |
| Sampling | 8 langkah, tanpa CFG |
| GPU | NVIDIA H100 80GB |
3. Lima pilihan desain
Self-attention terpadu; tata letak sandwich; gating sigmoid per-head; tanpa embedding timestep eksplisit; DMD-2 untuk 8 langkah tanpa CFG.
4. Enam fitur inti
Generasi audio-video asli bersama; 1080p; lip-sync 6 bahasa; inferensi cepat; T2V & I2V terpadu; rencana rilis open source.
5. Perbandingan
| Fitur | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parameter | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Unified self-attention | DiT | DiT | DiT | DiT |
| Audio asli | ✅ | ❌ | ❌ | ❌ | ❌ |
| Langkah | 8 | ~25 | ~50 | ~50 | ~50 |
| Bobot unduhan | ❌ | ✅ | ✅ | ✅ | ✅ |
6. Papan peringkat
Arena menghitung Elo dari voting buta. Happy Horse 1.0 tampil di puncak dengan nama samaran.
7. Skenario
Video pendek, iklan, pemasaran multibahasa, B-roll, e-commerce, penelitian AI.
8. FAQ
Belum bisa diunduh. Cakupan OSS: bobot dasar, model 8 langkah, super-resolusi, kode inferensi.
9. Kesimpulan
Satu model terpadu menggantikan rantai video bisu → sulih suara → sinkron bibir. Arah multimodal ujung-ke-ujung layak dipantau.