HappyHorse
Блог

Happy Horse 1.0 детально: уніфікований Transformer на 15B, новий тип відео ШІ з нативною спільною генерацією аудіо та відео

HappyHorse Team
Happy Horse 1.0 детально: уніфікований Transformer на 15B, новий тип відео ШІ з нативною спільною генерацією аудіо та відео

На Artificial Analysis Video Arena з’явилася анонімна «таємнича модель» поруч із закритими системами ByteDance, Kling, Google — з унікальною ознакою: нативний аудіовихід. Спільнота назвала її Happy Horse 1.0: ще не офіційно з відкритим кодом, без публічних ваг, але з іншою архітектурною філософією, ніж DiT у мейнстримі.

Примітка: Технічна інформація з нотаток спільноти — не підтверджена офіційно.

1. Ключові дані

МетрикаЗначення
Усього параметрів~15B
Шари Transformer40
Кроки семплінгу8 (без CFG)
Час 1080p~38 с (H100)
Мови lip-sync6
Модальності4 (текст/зображення/відео/аудіо)

2. Архітектура

Єдиний уніфікований self-attention Transformer об’єднує всі модальності в одну послідовність токенів.

Огляд архітектури «сендвіч» Happy Horse 1.0

КомпонентСпецифікація
Параметри~15B
ТипUnified self-attention Transformer
Шари40
ДистиляціяDMD-2
Семплінг8 кроків, без CFG
GPUNVIDIA H100 80GB

3–5

Уніфікована self-attention; «сендвіч»-компонування; сигмоїдний gating на голову; без явного timestep embedding; DMD-2 для 8 кроків без CFG.

6. Порівняння

ОзнакаHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Параметри~15B~13B14B~13B5B
BackboneUnified self-attentionDiTDiTDiTDiT
Нативне аудіо
Кроки8~25~50~50~50
Завантажувані ваги

7–9

Сценарії: коротке відео, реклама, багатомовний маркетинг, B-roll, e-commerce, дослідження ШІ. Висновок: одна уніфікована модель замість ланцюга «відео без звуку → закадровий голос → синхрон губ».


Спробуйте HappyHorse