Happy Horse 1.0 به‌صورت عمیق: ترنسفورمر یکپارچه ۱۵ میلیارد پارامتری، گونه جدید ویدیوی هوش مصنوعی با تولید بومی مشترک صوت و تصویر

در Artificial Analysis Video Arena مدلی ناشناس با خروجی صوتی بومی کنار مدل‌های بسته پیشرو ظاهر شد. جامعه آن را Happy Horse 1.0 نامید — هنوز منبع باز رسمی نیست، وزن عمومی ندارد، اما رویکرد معماری متفاوت از DiT رایج دارد.

توجه: اطلاعات فنی از یادداشت‌های جامعه است — رسماً تأیید نشده.

۱. داده‌های کلیدی

شاخص	مقدار
پارامتر کل	~15B
لایه‌های ترنسفورمر	۴۰
گام نمونه‌برداری	۸ (بدون CFG)
زمان 1080p	~۳۸ ثانیه (H100)
زبان‌های هم‌زمان لب	۶
مودالیته	۴ (متن/تصویر/ویدیو/صوت)

۲. معماری

یک ترنسفورمر self-attention یکپارچه همه مودالیته‌ها را در یک دنباله توکن ادغام می‌کند.

نمای کلی معماری «ساندویچ» Happy Horse 1.0

جزء	مشخصات
پارامتر	~15B
نوع	Unified self-attention Transformer
لایه	۴۰
تقطیر	DMD-2
نمونه‌برداری	۸ گام، بدون CFG
GPU	NVIDIA H100 80GB

۳–۵

خودتوجهی یکپارچه؛ چیدمان ساندویچ؛ gating سیگموئید per-head؛ بدون embedding صریح timestep؛ DMD-2 برای ۸ گام بدون CFG.

۶. مقایسه

ویژگی	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
پارامتر	~15B	~13B	14B	~13B	5B
ستون فقرات	Unified self-attention	DiT	DiT	DiT	DiT
صوت بومی	✅	❌	❌	❌	❌
گام	۸	~25	~50	~50	~50
وزن قابل بارگیری	❌	✅	✅	✅	✅

۷–۹

کاربردها: ویدیوی کوتاه، تبلیغات، بازاریابی چندزبانه، B-roll، تجارت الکترونیک، پژوهش. نتیجه: یک مدل یکپارچه به‌جای زنجیره ویدیوی بی‌صدا → گویندگی → هم‌زمانی لب.

تجربه HappyHorse

شروع استفاده از HappyHorse