Happy Horse 1.0 بالتفصيل: محوّل موحّد بـ 15 مليار معامل، نوع جديد من فيديو الذكاء الاصطناعي بتوليد أصلي مشترك للصوت والصورة - HappyHorse AI

في Artificial Analysis Video Arena ظهر نموذج مجهول «غامض» إلى جانب نماذج مغلقة المصدر من ByteDance وKling وGoogle وغيرها — بميزة لا يملكها الآخرون: إخراج صوتي أصلي. سمّته المجتمع Happy Horse 1.0: لم يُفتَح رسميًا بعد، بلا أوزان عامة، لكن بفلسفة هندسية تختلف عن DiT السائد.

تنبيه: المعلومات التقنية من ملاحظات المجتمع — غير مؤكدة رسميًا.

1. نظرة على البيانات الأساسية

المقياس	القيمة
إجمالي المعاملات	~15B
طبقات Transformer	40
خطوات العيّنة	8 (بدون CFG)
زمن 1080p	~38 ثانية (H100)
لغات مزامنة الشفاه	6
الوسائط	4 (نص/صورة/فيديو/صوت)

2. الهندسة المعمارية

محوّل موحّد للانتباه الذاتي يدمج النص والصورة والفيديو والصوت في تسلسل رموز واحد دون فروع cross-attention منفصلة.

نظرة عامة على هندسة «الساندويتش» لـ Happy Horse 1.0

المكوّن	المواصفة
المعاملات	~15B
النوع	Unified self-attention Transformer
الطبقات	40
التقطير	DMD-2
العيّنة	8 خطوات، بدون CFG
GPU	NVIDIA H100 80GB

3–5

انتباه ذاتي موحّد؛ تخطيط «ساندويتش»؛ بوابة سيغمويد لكل رأس؛ بلا تضمين صريح لخطوة الزمن؛ DMD-2 في 8 خطوات بدون CFG.

6. المقارنة

الميزة	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
المعاملات	~15B	~13B	14B	~13B	5B
العمود الفقري	Unified self-attention	DiT	DiT	DiT	DiT
صوت أصلي	✅	❌	❌	❌	❌
الخطوات	8	~25	~50	~50	~50
أوزان قابلة للتنزيل	❌	✅	✅	✅	✅

7–9

سيناريوهات: فيديو قصير، إعلانات، تسويق متعدد اللغات، B-roll، تجارة إلكترونية، بحث في الذكاء الاصطناعي. الخلاصة: نموذج موحّد واحد بدل سلسلة فيديو صامت → تعليق صوتي → مزامنة الشفاه.

جرّب HappyHorse

ابدأ استخدام HappyHorse