Happy Horse 1.0 गहन विश्लेषण: 15B एकीकृत Transformer, मूल ऑडियो-वीडियो संयुक्त जनरेशन वाला नया AI वीडियो प्रकार
Artificial Analysis Video Arena में एक गुमनाम «रहस्य मॉडल» ByteDance, Kling, Google आदि के बंद-स्रोत मॉडलों के साथ दिखा — जिसकी विशिष्टता मूल ऑडियो आउटपुट थी। समुदाय ने नाम Happy Horse 1.0 रखा: अभी तक आधिकारिक रूप से ओपन सोर्स नहीं, सार्वजनिक वेट नहीं, लेकिन DiT मुख्यधारा से अलग वास्तुकला।
नोट: तकनीकी जानकारी समुदाय नोट्स से — आधिकारिक रूप से पुष्टि नहीं।
1. मुख्य आँकड़े
| मेट्रिक | मान |
|---|---|
| कुल पैरामीटर | ~15B |
| Transformer परतें | 40 |
| नमूना चरण | 8 (CFG के बिना) |
| 1080p समय | ~38 सेकंड (H100) |
| लिप-सिंक भाषाएँ | 6 |
| मोडलिटी | 4 (पाठ/छवि/वीडियो/ऑडियो) |
2. वास्तुकला
एक एकीकृत self-attention Transformer सभी मोडलिटी को एक टोकन अनुक्रम में जोड़ता है।

| घटक | विवरण |
|---|---|
| पैरामीटर | ~15B |
| प्रकार | Unified self-attention Transformer |
| परतें | 40 |
| आसवन | DMD-2 |
| नमूना | 8 चरण, कोई CFG नहीं |
| GPU | NVIDIA H100 80GB |
3. पाँच डिज़ाइन विकल्प
एकीकृत self-attention; सैंडविच लेआउट; प्रति-हेड सिगmoid गेटिंग; स्पष्ट timestep एम्बेडिंग नहीं; DMD-2 के साथ 8 चरण बिना CFG।
4. छह मुख्य विशेषताएँ
मूल संयुक्त ऑडियो-वीडियो जनरेशन; 1080p; 6 भाषाओं में लिप सिंक; तेज़ अनुमान; एकीकृत T2V और I2V; घोषित ओपन सोर्स योजना।
5. तुलना
| विशेषता | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| पैरामीटर | ~15B | ~13B | 14B | ~13B | 5B |
| बैकबोन | Unified self-attention | DiT | DiT | DiT | DiT |
| मूल ऑडियो | ✅ | ❌ | ❌ | ❌ | ❌ |
| चरण | 8 | ~25 | ~50 | ~50 | ~50 |
| डाउनलोड योग्य वेट | ❌ | ✅ | ✅ | ✅ | ✅ |
6–9
Arena अंधे मतदान से Elo गणना करता है। एक एकीकृत मॉडल मूक वीडियो → वॉयसओवर → लिप सिंक श्रृंखला के बजाय।