Happy Horse 1.0 गहन विश्लेषण: 15B एकीकृत Transformer, मूल ऑडियो-वीडियो संयुक्त जनरेशन वाला नया AI वीडियो प्रकार - HappyHorse AI

Artificial Analysis Video Arena में एक गुमनाम «रहस्य मॉडल» ByteDance, Kling, Google आदि के बंद-स्रोत मॉडलों के साथ दिखा — जिसकी विशिष्टता मूल ऑडियो आउटपुट थी। समुदाय ने नाम Happy Horse 1.0 रखा: अभी तक आधिकारिक रूप से ओपन सोर्स नहीं, सार्वजनिक वेट नहीं, लेकिन DiT मुख्यधारा से अलग वास्तुकला।

नोट: तकनीकी जानकारी समुदाय नोट्स से — आधिकारिक रूप से पुष्टि नहीं।

1. मुख्य आँकड़े

मेट्रिक	मान
कुल पैरामीटर	~15B
Transformer परतें	40
नमूना चरण	8 (CFG के बिना)
1080p समय	~38 सेकंड (H100)
लिप-सिंक भाषाएँ	6
मोडलिटी	4 (पाठ/छवि/वीडियो/ऑडियो)

2. वास्तुकला

एक एकीकृत self-attention Transformer सभी मोडलिटी को एक टोकन अनुक्रम में जोड़ता है।

Happy Horse 1.0 «सैंडविच» वास्तुकला

घटक	विवरण
पैरामीटर	~15B
प्रकार	Unified self-attention Transformer
परतें	40
आसवन	DMD-2
नमूना	8 चरण, कोई CFG नहीं
GPU	NVIDIA H100 80GB

3. पाँच डिज़ाइन विकल्प

एकीकृत self-attention; सैंडविच लेआउट; प्रति-हेड सिगmoid गेटिंग; स्पष्ट timestep एम्बेडिंग नहीं; DMD-2 के साथ 8 चरण बिना CFG।

4. छह मुख्य विशेषताएँ

मूल संयुक्त ऑडियो-वीडियो जनरेशन; 1080p; 6 भाषाओं में लिप सिंक; तेज़ अनुमान; एकीकृत T2V और I2V; घोषित ओपन सोर्स योजना।

5. तुलना

विशेषता	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
पैरामीटर	~15B	~13B	14B	~13B	5B
बैकबोन	Unified self-attention	DiT	DiT	DiT	DiT
मूल ऑडियो	✅	❌	❌	❌	❌
चरण	8	~25	~50	~50	~50
डाउनलोड योग्य वेट	❌	✅	✅	✅	✅

6–9

Arena अंधे मतदान से Elo गणना करता है। एक एकीकृत मॉडल मूक वीडियो → वॉयसओवर → लिप सिंक श्रृंखला के बजाय।

HappyHorse आज़माएँ

HappyHorse उपयोग शुरू करें