Happy Horse 1.0 chuyên sâu: Transformer thống nhất 15B, loài video AI mới với tạo sinh gốc kết hợp âm thanh–hình ảnh
Trên Artificial Analysis Video Arena, một «mô hình bí ẩn» ẩn danh xuất hiện cạnh các mô hình đóng hàng đầu của ByteDance, Kling, Google… với điểm khác biệt: đầu ra âm thanh gốc. Cộng đồng đặt tên Happy Horse 1.0 — chưa mở mã nguồn chính thức, chưa có trọng số công khai, nhưng kiến trúc khác hẳn DiT phổ biến.
Lưu ý: Tại thời điểm viết bài, Happy Horse 1.0 chưa được mở mã nguồn chính thức. Thông tin kỹ thuật dưới đây từ ghi chép cộng đồng và trang dự án — chưa được xác nhận chính thức.
1. Dữ liệu cốt lõi
| Chỉ số | Giá trị |
|---|---|
| Tổng tham số | ~15B |
| Lớp Transformer | 40 |
| Bước lấy mẫu | 8 (không cần CFG) |
| Thời gian 1080p | ~38 giây (H100) |
| Ngôn ngữ đồng bộ môi | 6 |
| Phương thức | 4 (văn bản/hình/video/âm thanh) |
2. Kiến trúc
Một Transformer self-attention thống nhất xử lý mọi phương thức; văn bản, hình, video và âm thanh được nối thành một chuỗi token, không nhánh cross-attention riêng, không mô-đun âm thanh tách biệt.

| Thành phần | Đặc tả |
|---|---|
| Tham số | ~15B |
| Kiểu | Unified self-attention Transformer |
| Lớp | 40 |
| Chưng cất | DMD-2 |
| Lấy mẫu | 8 bước, không CFG |
| GPU | NVIDIA H100 80GB |
3. Năm lựa chọn thiết kế
Tự chú ý thống nhất; bố cục sandwich; cổng sigmoid theo từng head; không nhúng bước thời gian tường minh; DMD-2 cho 8 bước không CFG — nền tảng cho «1080p ~38 giây».
4. Sáu tính năng cốt lõi
Tạo sinh âm–video gốc kết hợp; 1080p; đồng bộ môi 6 ngôn ngữ; suy luận rất nhanh; T2V & I2V thống nhất; kế hoạch mở mã nguồn đã công bố.
5. So sánh
| Tính năng | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Tham số | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Unified self-attention | DiT | DiT | DiT | DiT |
| Âm thanh gốc | ✅ | ❌ | ❌ | ❌ | ❌ |
| Bước | 8 | ~25 | ~50 | ~50 | ~50 |
| Trọng số tải xuống | ❌ | ✅ | ✅ | ✅ | ✅ |
6. Bảng xếp hạng
Arena dùng bỏ phiếu mù để tính Elo. Happy Horse 1.0 thi đấu dưới biệt danh ở nhóm đầu.
7. Kịch bản ứng dụng
Video ngắn, quảng cáo, marketing đa ngôn ngữ, B-roll, thương mại điện tử, nghiên cứu AI.
8. FAQ
Chưa tải trọng số. Phạm vi mở: trọng số nền, mô hình 8 bước, siêu phân giải, mã suy luận. 38 giây: đo từ ghi chép cộng đồng trên một H100.
9. Kết luận
Một mô hình thống nhất thay cho chuỗi video câm → lồng tiếng → đồng bộ môi. Hướng đi đa phương thức đầu-cuối đáng theo dõi.