المدونة
Happy Horse 1.0 بالتفصيل: محوّل موحّد بـ 15 مليار معامل، نوع جديد من فيديو الذكاء الاصطناعي بتوليد أصلي مشترك للصوت والصورة
HappyHorse Team •
في Artificial Analysis Video Arena ظهر نموذج مجهول «غامض» إلى جانب نماذج مغلقة المصدر من ByteDance وKling وGoogle وغيرها — بميزة لا يملكها الآخرون: إخراج صوتي أصلي. سمّته المجتمع Happy Horse 1.0: لم يُفتَح رسميًا بعد، بلا أوزان عامة، لكن بفلسفة هندسية تختلف عن DiT السائد.
تنبيه: المعلومات التقنية من ملاحظات المجتمع — غير مؤكدة رسميًا.
1. نظرة على البيانات الأساسية
| المقياس | القيمة |
|---|---|
| إجمالي المعاملات | ~15B |
| طبقات Transformer | 40 |
| خطوات العيّنة | 8 (بدون CFG) |
| زمن 1080p | ~38 ثانية (H100) |
| لغات مزامنة الشفاه | 6 |
| الوسائط | 4 (نص/صورة/فيديو/صوت) |
2. الهندسة المعمارية
محوّل موحّد للانتباه الذاتي يدمج النص والصورة والفيديو والصوت في تسلسل رموز واحد دون فروع cross-attention منفصلة.

| المكوّن | المواصفة |
|---|---|
| المعاملات | ~15B |
| النوع | Unified self-attention Transformer |
| الطبقات | 40 |
| التقطير | DMD-2 |
| العيّنة | 8 خطوات، بدون CFG |
| GPU | NVIDIA H100 80GB |
3–5
انتباه ذاتي موحّد؛ تخطيط «ساندويتش»؛ بوابة سيغمويد لكل رأس؛ بلا تضمين صريح لخطوة الزمن؛ DMD-2 في 8 خطوات بدون CFG.
6. المقارنة
| الميزة | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| المعاملات | ~15B | ~13B | 14B | ~13B | 5B |
| العمود الفقري | Unified self-attention | DiT | DiT | DiT | DiT |
| صوت أصلي | ✅ | ❌ | ❌ | ❌ | ❌ |
| الخطوات | 8 | ~25 | ~50 | ~50 | ~50 |
| أوزان قابلة للتنزيل | ❌ | ✅ | ✅ | ✅ | ✅ |
7–9
سيناريوهات: فيديو قصير، إعلانات، تسويق متعدد اللغات، B-roll، تجارة إلكترونية، بحث في الذكاء الاصطناعي. الخلاصة: نموذج موحّد واحد بدل سلسلة فيديو صامت → تعليق صوتي → مزامنة الشفاه.