HappyHorse
บล็อก

Happy Horse 1.0 เจาะลึก: Unified Transformer 15B สายพันธุ์วิดีโอ AI ใหม่พร้อมการสร้างเสียง–ภาพแบบเนทีฟร่วมกัน

HappyHorse Team
Happy Horse 1.0 เจาะลึก: Unified Transformer 15B สายพันธุ์วิดีโอ AI ใหม่พร้อมการสร้างเสียง–ภาพแบบเนทีฟร่วมกัน

ใน Artificial Analysis Video Arena มีโมเดลนิรนาม «ปริศนา» ปรากฏคู่กับโมเดลปิดซอร์สชั้นนำของ ByteDance, Kling, Google ฯลฯ พร้อมคุณสมบัติที่คนอื่นไม่มี: เอาต์พุตเสียงแบบเนทีฟ ชุมชนตั้งชื่อว่า Happy Horse 1.0 — ยังไม่เปิดซอร์สอย่างเป็นทางการ ไม่มีน้ำหนักสาธารณะ แต่แนวสถาปัตยกรรมต่างจากกระแสหลัก DiT

หมายเหตุ: ข้อมูลทางเทคนิคจากบันทึกชุมชนและหน้าโครงการ — ยังไม่ได้รับการยืนยันอย่างเป็นทางการ

1. ข้อมูลหลัก

ตัวชี้วัดค่า
พารามิเตอร์รวม~15B
ชั้น Transformer40
ขั้นตอน sampling8 (ไม่ใช้ CFG)
เวลา 1080p~38 วินาที (H100)
ภาษา lip-sync6
โหมด4 (ข้อความ/ภาพ/วิดีโอ/เสียง)

2. สถาปัตยกรรม

Transformer self-attention แบบรวมศูนย์เดียว รวมข้อความ ภาพ วิดีโอ และเสียงเป็น ลำดับโทเค็นเดียว ไม่มีสาขา cross-attention แยก

ภาพรวมสถาปัตยกรรม «แซนด์วิช» Happy Horse 1.0

ส่วนประกอบรายละเอียด
พารามิเตอร์~15B
ประเภทUnified self-attention Transformer
ชั้น40
การกลั่นDMD-2
Sampling8 ขั้น ไม่มี CFG
GPUNVIDIA H100 80GB

3. ห้าการออกแบบหลัก

การจัดเรียงแบบแซนด์วิช; gating แบบ sigmoid ต่อหัวความสนใจ; ไม่มี timestep embedding ชัดเจน; DMD-2 สำหรับ 8 ขั้นโดยไม่ใช้ CFG

4. หกคุณสมบัติ

สร้างเสียง–วิดีโอร่วมแบบเนทีฟ; 1080p; lip-sync 6 ภาษา; อนุมานเร็ว; T2V และ I2V รวมศูนย์; แผนเปิดซอร์สที่ประกาศ

5. เปรียบเทียบ

คุณสมบัติHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
พารามิเตอร์~15B~13B14B~13B5B
BackboneUnified self-attentionDiTDiTDiTDiT
เสียงเนทีฟ
ขั้น8~25~50~50~50
น้ำหนักดาวน์โหลด

6–9. อันดับ การใช้งาน FAQ สรุป

Arena คำนวณ Elo จากการโหวตแบบบอดี้ Happy Horse 1.0 อยู่กลุ่มบน โมเดลรวมศูนย์เดียว แทน pipeline วิดีโอเงียบ → พากย์ → sync ริมฝีปาก


ลองใช้ HappyHorse