Happy Horse 1.0 детально: уніфікований Transformer на 15B, новий тип відео ШІ з нативною спільною генерацією аудіо та відео - HappyHorse AI

На Artificial Analysis Video Arena з’явилася анонімна «таємнича модель» поруч із закритими системами ByteDance, Kling, Google — з унікальною ознакою: нативний аудіовихід. Спільнота назвала її Happy Horse 1.0: ще не офіційно з відкритим кодом, без публічних ваг, але з іншою архітектурною філософією, ніж DiT у мейнстримі.

Примітка: Технічна інформація з нотаток спільноти — не підтверджена офіційно.

1. Ключові дані

Метрика	Значення
Усього параметрів	~15B
Шари Transformer	40
Кроки семплінгу	8 (без CFG)
Час 1080p	~38 с (H100)
Мови lip-sync	6
Модальності	4 (текст/зображення/відео/аудіо)

2. Архітектура

Єдиний уніфікований self-attention Transformer об’єднує всі модальності в одну послідовність токенів.

Огляд архітектури «сендвіч» Happy Horse 1.0

Компонент	Специфікація
Параметри	~15B
Тип	Unified self-attention Transformer
Шари	40
Дистиляція	DMD-2
Семплінг	8 кроків, без CFG
GPU	NVIDIA H100 80GB

3–5

Уніфікована self-attention; «сендвіч»-компонування; сигмоїдний gating на голову; без явного timestep embedding; DMD-2 для 8 кроків без CFG.

6. Порівняння

Ознака	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Параметри	~15B	~13B	14B	~13B	5B
Backbone	Unified self-attention	DiT	DiT	DiT	DiT
Нативне аудіо	✅	❌	❌	❌	❌
Кроки	8	~25	~50	~50	~50
Завантажувані ваги	❌	✅	✅	✅	✅

7–9

Сценарії: коротке відео, реклама, багатомовний маркетинг, B-roll, e-commerce, дослідження ШІ. Висновок: одна уніфікована модель замість ланцюга «відео без звуку → закадровий голос → синхрон губ».

Спробуйте HappyHorse

Почати використовувати HappyHorse