Happy Horse 1.0 derinlemesine: 15B birleşik Transformer, yerel birleşik ses-video üretimiyle yeni bir AI video türü
Artificial Analysis Video Arena kör testlerinde ByteDance, Kling, Google vb. kapalı modellerin yanında anonim bir «gizem model» göründü — diğerlerinde olmayan özellik: yerel ses çıkışı. Topluluk adını Happy Horse 1.0 olarak ortaya çıkardı: henüz resmi açık kaynak değil, açık ağırlık yok; ancak mimari yaklaşım DiT ana akımından farklı.
Not: Bu yazı tarihinde resmi açık kaynak yok. Teknik bilgiler topluluk notları ve proje sayfalarından — resmi olarak doğrulanmadı.
1. Temel veriler
| Metrik | Değer |
|---|---|
| Toplam parametre | ~15B |
| Transformer katmanı | 40 |
| Örnekleme adımı | 8 (CFG yok) |
| 1080p süresi | ~38 sn (H100) |
| Dudak senkron dili | 6 |
| Modalite | 4 (metin/görüntü/video/ses) |
2. Mimari
Tek birleşik self-attention Transformer metin, görüntü, video ve sesi tek token dizisinde birleştirir; ayrı cross-attention veya ayrı ses modülü yok.

| Bileşen | Özellik |
|---|---|
| Parametre | ~15B |
| Tür | Unified self-attention Transformer |
| Katman | 40 |
| Damıtma | DMD-2 |
| Örnekleme | 8 adım, CFG yok |
| GPU | NVIDIA H100 80GB |
3. Beş tasarım kararı
Birleşik self-attention ile hizalama gürültü gidermenin parçası; sandviç düzen; başlık başına sigmoid kapı; açık timestep embedding yok; DMD-2 ile 8 adımda CFG’siz öğrenme — «~38 sn 1080p».
4. Altı özellik
Yerel birleşik ses-video, 1080p, 6 dilde dudak senkronu, hızlı çıkarım, birleşik T2V/I2V, duyurulan açık kaynak planı.
5. Karşılaştırma
| Özellik | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parametre | ~15B | ~13B | 14B | ~13B | 5B |
| Gövde | Unified self-attention | DiT | DiT | DiT | DiT |
| Yerel ses | ✅ | ❌ | ❌ | ❌ | ❌ |
| Adım | 8 | ~25 | ~50 | ~50 | ~50 |
| İndirilebilir ağırlık | ❌ | ✅ | ✅ | ✅ | ✅ |
6. Sıralama
Arena Elo kör oylama ile hesaplanır. Happy Horse 1.0 takma adla üst sıralarda yer aldı.
7. Senaryolar
Kısa video, reklam, çok dilli pazarlama, B-roll, e-ticaret, araştırma.
8. SSS
İndirilebilir mi? Hayır. Açık kaynak kapsamı: temel ağırlıklar, 8 adımlı model, süper çözünürlük, çıkarım kodu. 38 sn: topluluk ölçümü — ağırlıklar çıkınca doğrulanacak.
9. Özet
Tek birleşik model — sessiz video → seslendirme → dudak zinciri yerine. Ağırlıklar gelene kadar çoğu «kağıt üzerinde»; yine de uçtan uca çok modallı yön takip edilmeye değer.