HappyHorse
المدونة

Happy Horse 1.0 بالتفصيل: محوّل موحّد بـ 15 مليار معامل، نوع جديد من فيديو الذكاء الاصطناعي بتوليد أصلي مشترك للصوت والصورة

HappyHorse Team
Happy Horse 1.0 بالتفصيل: محوّل موحّد بـ 15 مليار معامل، نوع جديد من فيديو الذكاء الاصطناعي بتوليد أصلي مشترك للصوت والصورة

في Artificial Analysis Video Arena ظهر نموذج مجهول «غامض» إلى جانب نماذج مغلقة المصدر من ByteDance وKling وGoogle وغيرها — بميزة لا يملكها الآخرون: إخراج صوتي أصلي. سمّته المجتمع Happy Horse 1.0: لم يُفتَح رسميًا بعد، بلا أوزان عامة، لكن بفلسفة هندسية تختلف عن DiT السائد.

تنبيه: المعلومات التقنية من ملاحظات المجتمع — غير مؤكدة رسميًا.

1. نظرة على البيانات الأساسية

المقياسالقيمة
إجمالي المعاملات~15B
طبقات Transformer40
خطوات العيّنة8 (بدون CFG)
زمن 1080p~38 ثانية (H100)
لغات مزامنة الشفاه6
الوسائط4 (نص/صورة/فيديو/صوت)

2. الهندسة المعمارية

محوّل موحّد للانتباه الذاتي يدمج النص والصورة والفيديو والصوت في تسلسل رموز واحد دون فروع cross-attention منفصلة.

نظرة عامة على هندسة «الساندويتش» لـ Happy Horse 1.0

المكوّنالمواصفة
المعاملات~15B
النوعUnified self-attention Transformer
الطبقات40
التقطيرDMD-2
العيّنة8 خطوات، بدون CFG
GPUNVIDIA H100 80GB

3–5

انتباه ذاتي موحّد؛ تخطيط «ساندويتش»؛ بوابة سيغمويد لكل رأس؛ بلا تضمين صريح لخطوة الزمن؛ DMD-2 في 8 خطوات بدون CFG.

6. المقارنة

الميزةHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
المعاملات~15B~13B14B~13B5B
العمود الفقريUnified self-attentionDiTDiTDiTDiT
صوت أصلي
الخطوات8~25~50~50~50
أوزان قابلة للتنزيل

7–9

سيناريوهات: فيديو قصير، إعلانات، تسويق متعدد اللغات، B-roll، تجارة إلكترونية، بحث في الذكاء الاصطناعي. الخلاصة: نموذج موحّد واحد بدل سلسلة فيديو صامت → تعليق صوتي → مزامنة الشفاه.


جرّب HappyHorse