بلاگ
Happy Horse 1.0 بهصورت عمیق: ترنسفورمر یکپارچه ۱۵ میلیارد پارامتری، گونه جدید ویدیوی هوش مصنوعی با تولید بومی مشترک صوت و تصویر
HappyHorse Team •
در Artificial Analysis Video Arena مدلی ناشناس با خروجی صوتی بومی کنار مدلهای بسته پیشرو ظاهر شد. جامعه آن را Happy Horse 1.0 نامید — هنوز منبع باز رسمی نیست، وزن عمومی ندارد، اما رویکرد معماری متفاوت از DiT رایج دارد.
توجه: اطلاعات فنی از یادداشتهای جامعه است — رسماً تأیید نشده.
۱. دادههای کلیدی
| شاخص | مقدار |
|---|---|
| پارامتر کل | ~15B |
| لایههای ترنسفورمر | ۴۰ |
| گام نمونهبرداری | ۸ (بدون CFG) |
| زمان 1080p | ~۳۸ ثانیه (H100) |
| زبانهای همزمان لب | ۶ |
| مودالیته | ۴ (متن/تصویر/ویدیو/صوت) |
۲. معماری
یک ترنسفورمر self-attention یکپارچه همه مودالیتهها را در یک دنباله توکن ادغام میکند.

| جزء | مشخصات |
|---|---|
| پارامتر | ~15B |
| نوع | Unified self-attention Transformer |
| لایه | ۴۰ |
| تقطیر | DMD-2 |
| نمونهبرداری | ۸ گام، بدون CFG |
| GPU | NVIDIA H100 80GB |
۳–۵
خودتوجهی یکپارچه؛ چیدمان ساندویچ؛ gating سیگموئید per-head؛ بدون embedding صریح timestep؛ DMD-2 برای ۸ گام بدون CFG.
۶. مقایسه
| ویژگی | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| پارامتر | ~15B | ~13B | 14B | ~13B | 5B |
| ستون فقرات | Unified self-attention | DiT | DiT | DiT | DiT |
| صوت بومی | ✅ | ❌ | ❌ | ❌ | ❌ |
| گام | ۸ | ~25 | ~50 | ~50 | ~50 |
| وزن قابل بارگیری | ❌ | ✅ | ✅ | ✅ | ✅ |
۷–۹
کاربردها: ویدیوی کوتاه، تبلیغات، بازاریابی چندزبانه، B-roll، تجارت الکترونیک، پژوهش. نتیجه: یک مدل یکپارچه بهجای زنجیره ویدیوی بیصدا → گویندگی → همزمانی لب.