HappyHorse
ब्लॉग

Happy Horse 1.0 गहन विश्लेषण: 15B एकीकृत Transformer, मूल ऑडियो-वीडियो संयुक्त जनरेशन वाला नया AI वीडियो प्रकार

HappyHorse Team
Happy Horse 1.0 गहन विश्लेषण: 15B एकीकृत Transformer, मूल ऑडियो-वीडियो संयुक्त जनरेशन वाला नया AI वीडियो प्रकार

Artificial Analysis Video Arena में एक गुमनाम «रहस्य मॉडल» ByteDance, Kling, Google आदि के बंद-स्रोत मॉडलों के साथ दिखा — जिसकी विशिष्टता मूल ऑडियो आउटपुट थी। समुदाय ने नाम Happy Horse 1.0 रखा: अभी तक आधिकारिक रूप से ओपन सोर्स नहीं, सार्वजनिक वेट नहीं, लेकिन DiT मुख्यधारा से अलग वास्तुकला।

नोट: तकनीकी जानकारी समुदाय नोट्स से — आधिकारिक रूप से पुष्टि नहीं

1. मुख्य आँकड़े

मेट्रिकमान
कुल पैरामीटर~15B
Transformer परतें40
नमूना चरण8 (CFG के बिना)
1080p समय~38 सेकंड (H100)
लिप-सिंक भाषाएँ6
मोडलिटी4 (पाठ/छवि/वीडियो/ऑडियो)

2. वास्तुकला

एक एकीकृत self-attention Transformer सभी मोडलिटी को एक टोकन अनुक्रम में जोड़ता है।

Happy Horse 1.0 «सैंडविच» वास्तुकला

घटकविवरण
पैरामीटर~15B
प्रकारUnified self-attention Transformer
परतें40
आसवनDMD-2
नमूना8 चरण, कोई CFG नहीं
GPUNVIDIA H100 80GB

3. पाँच डिज़ाइन विकल्प

एकीकृत self-attention; सैंडविच लेआउट; प्रति-हेड सिगmoid गेटिंग; स्पष्ट timestep एम्बेडिंग नहीं; DMD-2 के साथ 8 चरण बिना CFG।

4. छह मुख्य विशेषताएँ

मूल संयुक्त ऑडियो-वीडियो जनरेशन; 1080p; 6 भाषाओं में लिप सिंक; तेज़ अनुमान; एकीकृत T2V और I2V; घोषित ओपन सोर्स योजना।

5. तुलना

विशेषताHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
पैरामीटर~15B~13B14B~13B5B
बैकबोनUnified self-attentionDiTDiTDiTDiT
मूल ऑडियो
चरण8~25~50~50~50
डाउनलोड योग्य वेट

6–9

Arena अंधे मतदान से Elo गणना करता है। एक एकीकृत मॉडल मूक वीडियो → वॉयसओवर → लिप सिंक श्रृंखला के बजाय।


HappyHorse आज़माएँ