HappyHorse
Blog

Happy Horse 1.0 secara mendalam: Transformer bersatu 15B, spesies video AI baharu dengan penjanaan audio-video asli bersama

HappyHorse Team
Happy Horse 1.0 secara mendalam: Transformer bersatu 15B, spesies video AI baharu dengan penjanaan audio-video asli bersama

Dalam Artificial Analysis Video Arena, model «misteri» tanpa nama muncul bersama model tertutup terkini — dengan output audio asli. Komuniti menamakannya Happy Horse 1.0: belum sumber terbuka rasmi, tiada pemberat awam, tetapi pendekatan seni bina berbeza daripada DiT arus perdana.

Nota: Maklumat teknikal daripada nota komuniti — belum disahkan secara rasmi.

1. Data teras

MetrikNilai
Jumlah parameter~15B
Lapisan Transformer40
Langkah pensampelan8 (tanpa CFG)
Masa 1080p~38 saat (H100)
Bahasa lip-sync6
Modaliti4 (teks/gambar/video/audio)

2. Seni bina

Satu Transformer self-attention bersatu menggabungkan semua modaliti dalam satu urutan token.

Seni bina «sandwich» Happy Horse 1.0

KomponenSpesifikasi
Parameter~15B
JenisUnified self-attention Transformer
Lapisan40
PenyulinganDMD-2
Pensampelan8 langkah, tiada CFG
GPUNVIDIA H100 80GB

3. Lima pilihan reka bentuk

Penjajaran audio-video sebagai sebahagian denoising; susun atur sandwich; gating sigmoid setiap kepala; tiada embedding timestep; DMD-2.

4. Enam ciri

Penjanaan audio-video asli bersama; 1080p; lip-sync 6 bahasa; inferens pantas; T2V & I2V bersatu; pelan sumber terbuka.

5. Perbandingan

CiriHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parameter~15B~13B14B~13B5B
Tulang belakangUnified self-attentionDiTDiTDiTDiT
Audio asli
Langkah8~25~50~50~50
Pemberat muat turun

6. Kedudukan

Arena mengira Elo melalui undian buta.

7. Senario

Video pendek, iklan, pemasaran pelbagai bahasa, B-roll, e-dagang, penyelidikan AI.

8. Soalan lazim

Belum muat turun. Skop OSS: pemberat asas, model 8 langkah, super-resolusi, kod inferens.

9. Rumusan

Satu model bersatu menggantikan rantaian video bisu → suara luar → segerak bibir.


Alami HappyHorse