Happy Horse 1.0 เจาะลึก: Unified Transformer 15B สายพันธุ์วิดีโอ AI ใหม่พร้อมการสร้างเสียง–ภาพแบบเนทีฟร่วมกัน
ใน Artificial Analysis Video Arena มีโมเดลนิรนาม «ปริศนา» ปรากฏคู่กับโมเดลปิดซอร์สชั้นนำของ ByteDance, Kling, Google ฯลฯ พร้อมคุณสมบัติที่คนอื่นไม่มี: เอาต์พุตเสียงแบบเนทีฟ ชุมชนตั้งชื่อว่า Happy Horse 1.0 — ยังไม่เปิดซอร์สอย่างเป็นทางการ ไม่มีน้ำหนักสาธารณะ แต่แนวสถาปัตยกรรมต่างจากกระแสหลัก DiT
หมายเหตุ: ข้อมูลทางเทคนิคจากบันทึกชุมชนและหน้าโครงการ — ยังไม่ได้รับการยืนยันอย่างเป็นทางการ
1. ข้อมูลหลัก
| ตัวชี้วัด | ค่า |
|---|---|
| พารามิเตอร์รวม | ~15B |
| ชั้น Transformer | 40 |
| ขั้นตอน sampling | 8 (ไม่ใช้ CFG) |
| เวลา 1080p | ~38 วินาที (H100) |
| ภาษา lip-sync | 6 |
| โหมด | 4 (ข้อความ/ภาพ/วิดีโอ/เสียง) |
2. สถาปัตยกรรม
Transformer self-attention แบบรวมศูนย์เดียว รวมข้อความ ภาพ วิดีโอ และเสียงเป็น ลำดับโทเค็นเดียว ไม่มีสาขา cross-attention แยก

| ส่วนประกอบ | รายละเอียด |
|---|---|
| พารามิเตอร์ | ~15B |
| ประเภท | Unified self-attention Transformer |
| ชั้น | 40 |
| การกลั่น | DMD-2 |
| Sampling | 8 ขั้น ไม่มี CFG |
| GPU | NVIDIA H100 80GB |
3. ห้าการออกแบบหลัก
การจัดเรียงแบบแซนด์วิช; gating แบบ sigmoid ต่อหัวความสนใจ; ไม่มี timestep embedding ชัดเจน; DMD-2 สำหรับ 8 ขั้นโดยไม่ใช้ CFG
4. หกคุณสมบัติ
สร้างเสียง–วิดีโอร่วมแบบเนทีฟ; 1080p; lip-sync 6 ภาษา; อนุมานเร็ว; T2V และ I2V รวมศูนย์; แผนเปิดซอร์สที่ประกาศ
5. เปรียบเทียบ
| คุณสมบัติ | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| พารามิเตอร์ | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Unified self-attention | DiT | DiT | DiT | DiT |
| เสียงเนทีฟ | ✅ | ❌ | ❌ | ❌ | ❌ |
| ขั้น | 8 | ~25 | ~50 | ~50 | ~50 |
| น้ำหนักดาวน์โหลด | ❌ | ✅ | ✅ | ✅ | ✅ |
6–9. อันดับ การใช้งาน FAQ สรุป
Arena คำนวณ Elo จากการโหวตแบบบอดี้ Happy Horse 1.0 อยู่กลุ่มบน โมเดลรวมศูนย์เดียว แทน pipeline วิดีโอเงียบ → พากย์ → sync ริมฝีปาก