Happy Horse 1.0 chuyên sâu: Transformer thống nhất 15B, loài video AI mới với tạo sinh gốc kết hợp âm thanh–hình ảnh - HappyHorse AI

Trên Artificial Analysis Video Arena, một «mô hình bí ẩn» ẩn danh xuất hiện cạnh các mô hình đóng hàng đầu của ByteDance, Kling, Google… với điểm khác biệt: đầu ra âm thanh gốc. Cộng đồng đặt tên Happy Horse 1.0 — chưa mở mã nguồn chính thức, chưa có trọng số công khai, nhưng kiến trúc khác hẳn DiT phổ biến.

Lưu ý: Tại thời điểm viết bài, Happy Horse 1.0 chưa được mở mã nguồn chính thức. Thông tin kỹ thuật dưới đây từ ghi chép cộng đồng và trang dự án — chưa được xác nhận chính thức.

1. Dữ liệu cốt lõi

Chỉ số	Giá trị
Tổng tham số	~15B
Lớp Transformer	40
Bước lấy mẫu	8 (không cần CFG)
Thời gian 1080p	~38 giây (H100)
Ngôn ngữ đồng bộ môi	6
Phương thức	4 (văn bản/hình/video/âm thanh)

2. Kiến trúc

Một Transformer self-attention thống nhất xử lý mọi phương thức; văn bản, hình, video và âm thanh được nối thành một chuỗi token, không nhánh cross-attention riêng, không mô-đun âm thanh tách biệt.

Tổng quan kiến trúc «sandwich» Happy Horse 1.0

Thành phần	Đặc tả
Tham số	~15B
Kiểu	Unified self-attention Transformer
Lớp	40
Chưng cất	DMD-2
Lấy mẫu	8 bước, không CFG
GPU	NVIDIA H100 80GB

3. Năm lựa chọn thiết kế

Tự chú ý thống nhất; bố cục sandwich; cổng sigmoid theo từng head; không nhúng bước thời gian tường minh; DMD-2 cho 8 bước không CFG — nền tảng cho «1080p ~38 giây».

4. Sáu tính năng cốt lõi

Tạo sinh âm–video gốc kết hợp; 1080p; đồng bộ môi 6 ngôn ngữ; suy luận rất nhanh; T2V & I2V thống nhất; kế hoạch mở mã nguồn đã công bố.

5. So sánh

Tính năng	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Tham số	~15B	~13B	14B	~13B	5B
Backbone	Unified self-attention	DiT	DiT	DiT	DiT
Âm thanh gốc	✅	❌	❌	❌	❌
Bước	8	~25	~50	~50	~50
Trọng số tải xuống	❌	✅	✅	✅	✅

6. Bảng xếp hạng

Arena dùng bỏ phiếu mù để tính Elo. Happy Horse 1.0 thi đấu dưới biệt danh ở nhóm đầu.

7. Kịch bản ứng dụng

Video ngắn, quảng cáo, marketing đa ngôn ngữ, B-roll, thương mại điện tử, nghiên cứu AI.

8. FAQ

Chưa tải trọng số. Phạm vi mở: trọng số nền, mô hình 8 bước, siêu phân giải, mã suy luận. 38 giây: đo từ ghi chép cộng đồng trên một H100.

9. Kết luận

Một mô hình thống nhất thay cho chuỗi video câm → lồng tiếng → đồng bộ môi. Hướng đi đa phương thức đầu-cuối đáng theo dõi.

Trải nghiệm HappyHorse

Bắt đầu dùng HappyHorse