HappyHorse
بلاگ

Happy Horse 1.0 به‌صورت عمیق: ترنسفورمر یکپارچه ۱۵ میلیارد پارامتری، گونه جدید ویدیوی هوش مصنوعی با تولید بومی مشترک صوت و تصویر

HappyHorse Team
Happy Horse 1.0 به‌صورت عمیق: ترنسفورمر یکپارچه ۱۵ میلیارد پارامتری، گونه جدید ویدیوی هوش مصنوعی با تولید بومی مشترک صوت و تصویر

در Artificial Analysis Video Arena مدلی ناشناس با خروجی صوتی بومی کنار مدل‌های بسته پیشرو ظاهر شد. جامعه آن را Happy Horse 1.0 نامید — هنوز منبع باز رسمی نیست، وزن عمومی ندارد، اما رویکرد معماری متفاوت از DiT رایج دارد.

توجه: اطلاعات فنی از یادداشت‌های جامعه است — رسماً تأیید نشده.

۱. داده‌های کلیدی

شاخصمقدار
پارامتر کل~15B
لایه‌های ترنسفورمر۴۰
گام نمونه‌برداری۸ (بدون CFG)
زمان 1080p~۳۸ ثانیه (H100)
زبان‌های هم‌زمان لب۶
مودالیته۴ (متن/تصویر/ویدیو/صوت)

۲. معماری

یک ترنسفورمر self-attention یکپارچه همه مودالیته‌ها را در یک دنباله توکن ادغام می‌کند.

نمای کلی معماری «ساندویچ» Happy Horse 1.0

جزءمشخصات
پارامتر~15B
نوعUnified self-attention Transformer
لایه۴۰
تقطیرDMD-2
نمونه‌برداری۸ گام، بدون CFG
GPUNVIDIA H100 80GB

۳–۵

خودتوجهی یکپارچه؛ چیدمان ساندویچ؛ gating سیگموئید per-head؛ بدون embedding صریح timestep؛ DMD-2 برای ۸ گام بدون CFG.

۶. مقایسه

ویژگیHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
پارامتر~15B~13B14B~13B5B
ستون فقراتUnified self-attentionDiTDiTDiTDiT
صوت بومی
گام۸~25~50~50~50
وزن قابل بارگیری

۷–۹

کاربردها: ویدیوی کوتاه، تبلیغات، بازاریابی چندزبانه، B-roll، تجارت الکترونیک، پژوهش. نتیجه: یک مدل یکپارچه به‌جای زنجیره ویدیوی بی‌صدا → گویندگی → هم‌زمانی لب.


تجربه HappyHorse