Глубокий анализ Happy Horse 1.0: унифицированный Transformer с 15 млрд параметров, новый вид ИИ-видео с нативной совместной генерацией аудио и видео
Если вы следите за сферой генерации ИИ-видео, то, возможно, заметили недавно необычное явление — в слепых оценочных батлах Artificial Analysis Video Arena неожиданно появилась неизвестная “модель-загадка”, анонимно представленная наряду с передовыми закрытыми моделями таких крупных компаний, как ByteDance, Kling, Google и других, и имеющая особенность, которой нет ни у одного другого участника: нативный вывод аудио.
Сообщество быстро выяснило ее название — Happy Horse 1.0. Генератор ИИ-видео, который еще не был официально открыт как open-source, не имеет общедоступных весов и официального технического отчета, но уже демонстрирует совершенно другой подход к архитектурному дизайну по сравнению с текущими основными решениями.
Важное примечание: На момент написания этой статьи Happy Horse 1.0 еще не был официально опубликован как open-source. Вся приведенная ниже техническая информация основана на составленных сообществом заметок об архитектуре, предположительно слитых материалах и целевых страницах проектов, является достоверной, но не подтверждена официально.
1. Обзор основных данных
Начнем с жестких метрик, чтобы вы получили общее представление о Happy Horse 1.0:
| Метрика | Значение |
|---|---|
| Общее количество параметров | ~15B (примерно 15 миллиардов) |
| Количество слоев Transformer | 40 слоев |
| Количество шагов семплирования | 8 шагов (CFG не требуется) |
| Время генерации 1080p | ~38 секунд (H100) |
| Языки синхронизации губ | 6 языков |
| Обрабатываемые модальности | 4 типа (текст/изображение/видео/аудио) |
2. Подробный анализ архитектуры
Самая заметная особенность дизайна Happy Horse 1.0 — использование унифицированного Transformer с самовниманием для обработки всех модальностей: текст, изображения, видео, аудио объединяются в единую последовательность токенов, без веток перекрестного внимания и отдельного аудио-модуля. Это создает резкий контраст с текущей основной архитектурой DiT (Diffusion Transformer).

По 4 слоя на каждом конце для проекции модальностей, 32 средних слоя с общими параметрами для кросс-модального вывода
Подробные спецификации архитектуры
| Компонент | Спецификация |
|---|---|
| Общее количество параметров | ~15B |
| Тип архитектуры | Унифицированный Transformer с самовниманием (без специализированных веток перекрестного внимания) |
| Общее количество слоев | 40 слоев |
| Расположение слоев | Структура “сэндвич” — первые 4 слоя + последние 4 слоя для проекции, специфичной для модальности, 32 средних слоя общие для всех модальностей |
| Обрабатываемые модальности | Текст, изображение, видео, аудио (объединены в единую последовательность токенов) |
| Мультимодальное слияние | Обучаемое скалярное гейтирование для каждого головки внимания (активация Sigmoid) |
| Внедрение условий | Опорные изображения и сигналы шумоподавления маршрутизируются через минималистичный унифицированный интерфейс, без специализированных веток условий |
| Обработка временных шагов | Нет явного встраивания временного шага — состояние шумоподавления выводится напрямую из уровня шума латентного пространства |
| Метод дистилляции | DMD-2 (Distribution Matching Distillation v2) |
| Количество шагов семплирования | 8 шагов, CFG не требуется |
| Компиляция вывода | MagiCompiler (компиляция полного графа + слияние операторов, ускорение примерно в 1,2 раза от конца до конца) |
| Референсная GPU | NVIDIA H100 80GB |
3. Анализ пяти ключевых архитектурных решений
Почему эти архитектурные решения заслуживают внимания? Разберем их по пунктам:
1. Унифицированное самовнимание против перекрестного внимания
Основные решения (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX) используют основу DiT + перекрестное внимание от независимого кодировщика текста для внедрения условий, а аудио генерируется отдельно другой моделью.
Happy Horse помещает все модальности в одну последовательность, позволяя механизму внимания самостоятельно изучать выравнивание. Преимущество: выравнивание аудио и видео становится фундаментальной частью процесса шумоподавления, а не этапом постобработки.
2. Расположение слоев по типу “сэндвича”
По 4 слоя на каждом конце выполняют кодирование/декодирование, специфичное для модальности, а 32 средних слоя используют общие параметры для всех модальностей. 80% пропускной способности сети предназначено для кросс-модального вывода, а не разделено между независимыми подсетями — это предельная эффективность использования параметров.
3. Sigmoid-гейтирование для каждой головки внимания
При совместном обучении аудио+видео градиенты легко мешают друг другу — потеря по аудио может подавлять градиенты по видео, и наоборот.
Решение: Каждая головка внимания получает обучаемый скалярный затвор, позволяющий модели автоматически подавлять головки, создающие деструктивные градиенты для определенных модальностей. Это ключ к обеспечению стабильности совместного обучения.
4. Отсутствие встраивания временного шага
Традиционные диффузионные модели получают в каждый слой встраивание с информацией “на каком я сейчас шаге”. Happy Horse полностью отказывается от этого — обоснование в том, что уровень шума уже закодирован в зашумленном латентном представлении. Это описывается как одна из предпосылок эффективной работы 8-шаговой дистилляции DMD-2.
5. Дистилляция DMD-2
Стандартная диффузия для видео требует 25-50 шагов + CFG (безклассификаторное руководство), что увеличивает стоимость вывода в 2-3 раза. DMD-2 обучает студенческую модель воспроизводить распределение вывода учительской модели за 8 шагов без CFG. Это базовая техническая поддержка для возможности “получить 1080p за 38 секунд”.
Оцените возможности генерации ИИ от HappyHorse
Теперь вы можете напрямую оценить мощные возможности генерации видео модели HappyHorse на нашей платформе, без ожидания открытия API.