Happy Horse 1.0 เจาะลึก: Unified Transformer 15B สายพันธุ์วิดีโอ AI ใหม่พร้อมการสร้างเสียง–ภาพแบบเนทีฟร่วมกัน - HappyHorse AI

ใน Artificial Analysis Video Arena มีโมเดลนิรนาม «ปริศนา» ปรากฏคู่กับโมเดลปิดซอร์สชั้นนำของ ByteDance, Kling, Google ฯลฯ พร้อมคุณสมบัติที่คนอื่นไม่มี: เอาต์พุตเสียงแบบเนทีฟ ชุมชนตั้งชื่อว่า Happy Horse 1.0 — ยังไม่เปิดซอร์สอย่างเป็นทางการ ไม่มีน้ำหนักสาธารณะ แต่แนวสถาปัตยกรรมต่างจากกระแสหลัก DiT

หมายเหตุ: ข้อมูลทางเทคนิคจากบันทึกชุมชนและหน้าโครงการ — ยังไม่ได้รับการยืนยันอย่างเป็นทางการ

1. ข้อมูลหลัก

ตัวชี้วัด	ค่า
พารามิเตอร์รวม	~15B
ชั้น Transformer	40
ขั้นตอน sampling	8 (ไม่ใช้ CFG)
เวลา 1080p	~38 วินาที (H100)
ภาษา lip-sync	6
โหมด	4 (ข้อความ/ภาพ/วิดีโอ/เสียง)

2. สถาปัตยกรรม

Transformer self-attention แบบรวมศูนย์เดียว รวมข้อความ ภาพ วิดีโอ และเสียงเป็น ลำดับโทเค็นเดียว ไม่มีสาขา cross-attention แยก

ภาพรวมสถาปัตยกรรม «แซนด์วิช» Happy Horse 1.0

ส่วนประกอบ	รายละเอียด
พารามิเตอร์	~15B
ประเภท	Unified self-attention Transformer
ชั้น	40
การกลั่น	DMD-2
Sampling	8 ขั้น ไม่มี CFG
GPU	NVIDIA H100 80GB

3. ห้าการออกแบบหลัก

การจัดเรียงแบบแซนด์วิช; gating แบบ sigmoid ต่อหัวความสนใจ; ไม่มี timestep embedding ชัดเจน; DMD-2 สำหรับ 8 ขั้นโดยไม่ใช้ CFG

4. หกคุณสมบัติ

สร้างเสียง–วิดีโอร่วมแบบเนทีฟ; 1080p; lip-sync 6 ภาษา; อนุมานเร็ว; T2V และ I2V รวมศูนย์; แผนเปิดซอร์สที่ประกาศ

5. เปรียบเทียบ

คุณสมบัติ	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
พารามิเตอร์	~15B	~13B	14B	~13B	5B
Backbone	Unified self-attention	DiT	DiT	DiT	DiT
เสียงเนทีฟ	✅	❌	❌	❌	❌
ขั้น	8	~25	~50	~50	~50
น้ำหนักดาวน์โหลด	❌	✅	✅	✅	✅

6–9. อันดับ การใช้งาน FAQ สรุป

Arena คำนวณ Elo จากการโหวตแบบบอดี้ Happy Horse 1.0 อยู่กลุ่มบน โมเดลรวมศูนย์เดียว แทน pipeline วิดีโอเงียบ → พากย์ → sync ริมฝีปาก

ลองใช้ HappyHorse

เริ่มใช้ HappyHorse