HappyHorse
Blog

Happy Horse 1.0 chuyên sâu: Transformer thống nhất 15B, loài video AI mới với tạo sinh gốc kết hợp âm thanh–hình ảnh

HappyHorse Team
Happy Horse 1.0 chuyên sâu: Transformer thống nhất 15B, loài video AI mới với tạo sinh gốc kết hợp âm thanh–hình ảnh

Trên Artificial Analysis Video Arena, một «mô hình bí ẩn» ẩn danh xuất hiện cạnh các mô hình đóng hàng đầu của ByteDance, Kling, Google… với điểm khác biệt: đầu ra âm thanh gốc. Cộng đồng đặt tên Happy Horse 1.0 — chưa mở mã nguồn chính thức, chưa có trọng số công khai, nhưng kiến trúc khác hẳn DiT phổ biến.

Lưu ý: Tại thời điểm viết bài, Happy Horse 1.0 chưa được mở mã nguồn chính thức. Thông tin kỹ thuật dưới đây từ ghi chép cộng đồng và trang dự án — chưa được xác nhận chính thức.

1. Dữ liệu cốt lõi

Chỉ sốGiá trị
Tổng tham số~15B
Lớp Transformer40
Bước lấy mẫu8 (không cần CFG)
Thời gian 1080p~38 giây (H100)
Ngôn ngữ đồng bộ môi6
Phương thức4 (văn bản/hình/video/âm thanh)

2. Kiến trúc

Một Transformer self-attention thống nhất xử lý mọi phương thức; văn bản, hình, video và âm thanh được nối thành một chuỗi token, không nhánh cross-attention riêng, không mô-đun âm thanh tách biệt.

Tổng quan kiến trúc «sandwich» Happy Horse 1.0

Thành phầnĐặc tả
Tham số~15B
KiểuUnified self-attention Transformer
Lớp40
Chưng cấtDMD-2
Lấy mẫu8 bước, không CFG
GPUNVIDIA H100 80GB

3. Năm lựa chọn thiết kế

Tự chú ý thống nhất; bố cục sandwich; cổng sigmoid theo từng head; không nhúng bước thời gian tường minh; DMD-2 cho 8 bước không CFG — nền tảng cho «1080p ~38 giây».

4. Sáu tính năng cốt lõi

Tạo sinh âm–video gốc kết hợp; 1080p; đồng bộ môi 6 ngôn ngữ; suy luận rất nhanh; T2V & I2V thống nhất; kế hoạch mở mã nguồn đã công bố.

5. So sánh

Tính năngHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Tham số~15B~13B14B~13B5B
BackboneUnified self-attentionDiTDiTDiTDiT
Âm thanh gốc
Bước8~25~50~50~50
Trọng số tải xuống

6. Bảng xếp hạng

Arena dùng bỏ phiếu mù để tính Elo. Happy Horse 1.0 thi đấu dưới biệt danh ở nhóm đầu.

7. Kịch bản ứng dụng

Video ngắn, quảng cáo, marketing đa ngôn ngữ, B-roll, thương mại điện tử, nghiên cứu AI.

8. FAQ

Chưa tải trọng số. Phạm vi mở: trọng số nền, mô hình 8 bước, siêu phân giải, mã suy luận. 38 giây: đo từ ghi chép cộng đồng trên một H100.

9. Kết luận

Một mô hình thống nhất thay cho chuỗi video câm → lồng tiếng → đồng bộ môi. Hướng đi đa phương thức đầu-cuối đáng theo dõi.


Trải nghiệm HappyHorse