Happy Horse 1.0 детально: уніфікований Transformer на 15B, новий тип відео ШІ з нативною спільною генерацією аудіо та відео
На Artificial Analysis Video Arena з’явилася анонімна «таємнича модель» поруч із закритими системами ByteDance, Kling, Google — з унікальною ознакою: нативний аудіовихід. Спільнота назвала її Happy Horse 1.0: ще не офіційно з відкритим кодом, без публічних ваг, але з іншою архітектурною філософією, ніж DiT у мейнстримі.
Примітка: Технічна інформація з нотаток спільноти — не підтверджена офіційно.
1. Ключові дані
| Метрика | Значення |
|---|---|
| Усього параметрів | ~15B |
| Шари Transformer | 40 |
| Кроки семплінгу | 8 (без CFG) |
| Час 1080p | ~38 с (H100) |
| Мови lip-sync | 6 |
| Модальності | 4 (текст/зображення/відео/аудіо) |
2. Архітектура
Єдиний уніфікований self-attention Transformer об’єднує всі модальності в одну послідовність токенів.

| Компонент | Специфікація |
|---|---|
| Параметри | ~15B |
| Тип | Unified self-attention Transformer |
| Шари | 40 |
| Дистиляція | DMD-2 |
| Семплінг | 8 кроків, без CFG |
| GPU | NVIDIA H100 80GB |
3–5
Уніфікована self-attention; «сендвіч»-компонування; сигмоїдний gating на голову; без явного timestep embedding; DMD-2 для 8 кроків без CFG.
6. Порівняння
| Ознака | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Параметри | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Unified self-attention | DiT | DiT | DiT | DiT |
| Нативне аудіо | ✅ | ❌ | ❌ | ❌ | ❌ |
| Кроки | 8 | ~25 | ~50 | ~50 | ~50 |
| Завантажувані ваги | ❌ | ✅ | ✅ | ✅ | ✅ |
7–9
Сценарії: коротке відео, реклама, багатомовний маркетинг, B-roll, e-commerce, дослідження ШІ. Висновок: одна уніфікована модель замість ланцюга «відео без звуку → закадровий голос → синхрон губ».