Happy Horse 1.0 secara mendalam: Transformer bersatu 15B, spesies video AI baharu dengan penjanaan audio-video asli bersama - HappyHorse AI

Dalam Artificial Analysis Video Arena, model «misteri» tanpa nama muncul bersama model tertutup terkini — dengan output audio asli. Komuniti menamakannya Happy Horse 1.0: belum sumber terbuka rasmi, tiada pemberat awam, tetapi pendekatan seni bina berbeza daripada DiT arus perdana.

Nota: Maklumat teknikal daripada nota komuniti — belum disahkan secara rasmi.

1. Data teras

Metrik	Nilai
Jumlah parameter	~15B
Lapisan Transformer	40
Langkah pensampelan	8 (tanpa CFG)
Masa 1080p	~38 saat (H100)
Bahasa lip-sync	6
Modaliti	4 (teks/gambar/video/audio)

2. Seni bina

Satu Transformer self-attention bersatu menggabungkan semua modaliti dalam satu urutan token.

Seni bina «sandwich» Happy Horse 1.0

Komponen	Spesifikasi
Parameter	~15B
Jenis	Unified self-attention Transformer
Lapisan	40
Penyulingan	DMD-2
Pensampelan	8 langkah, tiada CFG
GPU	NVIDIA H100 80GB

3. Lima pilihan reka bentuk

Penjajaran audio-video sebagai sebahagian denoising; susun atur sandwich; gating sigmoid setiap kepala; tiada embedding timestep; DMD-2.

4. Enam ciri

Penjanaan audio-video asli bersama; 1080p; lip-sync 6 bahasa; inferens pantas; T2V & I2V bersatu; pelan sumber terbuka.

5. Perbandingan

Ciri	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Parameter	~15B	~13B	14B	~13B	5B
Tulang belakang	Unified self-attention	DiT	DiT	DiT	DiT
Audio asli	✅	❌	❌	❌	❌
Langkah	8	~25	~50	~50	~50
Pemberat muat turun	❌	✅	✅	✅	✅

6. Kedudukan

Arena mengira Elo melalui undian buta.

7. Senario

Video pendek, iklan, pemasaran pelbagai bahasa, B-roll, e-dagang, penyelidikan AI.

8. Soalan lazim

Belum muat turun. Skop OSS: pemberat asas, model 8 langkah, super-resolusi, kod inferens.

9. Rumusan

Satu model bersatu menggantikan rantaian video bisu → suara luar → segerak bibir.

Alami HappyHorse

Mula menggunakan HappyHorse