HappyHorse
Blog

Happy Horse 1.0 derinlemesine: 15B birleşik Transformer, yerel birleşik ses-video üretimiyle yeni bir AI video türü

HappyHorse Team
Happy Horse 1.0 derinlemesine: 15B birleşik Transformer, yerel birleşik ses-video üretimiyle yeni bir AI video türü

Artificial Analysis Video Arena kör testlerinde ByteDance, Kling, Google vb. kapalı modellerin yanında anonim bir «gizem model» göründü — diğerlerinde olmayan özellik: yerel ses çıkışı. Topluluk adını Happy Horse 1.0 olarak ortaya çıkardı: henüz resmi açık kaynak değil, açık ağırlık yok; ancak mimari yaklaşım DiT ana akımından farklı.

Not: Bu yazı tarihinde resmi açık kaynak yok. Teknik bilgiler topluluk notları ve proje sayfalarından — resmi olarak doğrulanmadı.

1. Temel veriler

MetrikDeğer
Toplam parametre~15B
Transformer katmanı40
Örnekleme adımı8 (CFG yok)
1080p süresi~38 sn (H100)
Dudak senkron dili6
Modalite4 (metin/görüntü/video/ses)

2. Mimari

Tek birleşik self-attention Transformer metin, görüntü, video ve sesi tek token dizisinde birleştirir; ayrı cross-attention veya ayrı ses modülü yok.

Happy Horse 1.0 «sandviç» mimarisi

BileşenÖzellik
Parametre~15B
TürUnified self-attention Transformer
Katman40
DamıtmaDMD-2
Örnekleme8 adım, CFG yok
GPUNVIDIA H100 80GB

3. Beş tasarım kararı

Birleşik self-attention ile hizalama gürültü gidermenin parçası; sandviç düzen; başlık başına sigmoid kapı; açık timestep embedding yok; DMD-2 ile 8 adımda CFG’siz öğrenme — «~38 sn 1080p».

4. Altı özellik

Yerel birleşik ses-video, 1080p, 6 dilde dudak senkronu, hızlı çıkarım, birleşik T2V/I2V, duyurulan açık kaynak planı.

5. Karşılaştırma

ÖzellikHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parametre~15B~13B14B~13B5B
GövdeUnified self-attentionDiTDiTDiTDiT
Yerel ses
Adım8~25~50~50~50
İndirilebilir ağırlık

6. Sıralama

Arena Elo kör oylama ile hesaplanır. Happy Horse 1.0 takma adla üst sıralarda yer aldı.

7. Senaryolar

Kısa video, reklam, çok dilli pazarlama, B-roll, e-ticaret, araştırma.

8. SSS

İndirilebilir mi? Hayır. Açık kaynak kapsamı: temel ağırlıklar, 8 adımlı model, süper çözünürlük, çıkarım kodu. 38 sn: topluluk ölçümü — ağırlıklar çıkınca doğrulanacak.

9. Özet

Tek birleşik model — sessiz video → seslendirme → dudak zinciri yerine. Ağırlıklar gelene kadar çoğu «kağıt üzerinde»; yine de uçtan uca çok modallı yön takip edilmeye değer.


HappyHorse’u deneyin