Happy Horse 1.0 em profundidade: Transformer unificado de 15B, uma nova espécie de vídeo em IA com geração nativa conjunta de áudio e vídeo
Se acompanha a geração de vídeo por IA, pode ter reparado num fenómeno incomum: na Artificial Analysis Video Arena, um «modelo mistério» anónimo apareceu ao lado de modelos fechados de ponta da ByteDance, Kling, Google e outros, com uma capacidade que os restantes não tinham: saída de áudio nativa.
A comunidade identificou rapidamente o nome: Happy Horse 1.0. Um gerador de vídeo ainda não publicado em open source, sem pesos públicos nem relatório técnico oficial, mas já com uma abordagem arquitetónica distinta do mainstream.
Nota: à data deste artigo, Happy Horse 1.0 não está oficialmente em open source. A informação técnica abaixo vem de notas da comunidade, possíveis fugas de informação e páginas de projeto — crível, mas não confirmada oficialmente.
1. Visão geral dos dados principais
| Métrica | Valor |
|---|---|
| Parâmetros totais | ~15B (cerca de 15 mil milhões) |
| Camadas Transformer | 40 |
| Passos de amostragem | 8 (sem CFG) |
| Tempo 1080p | ~38 s (H100) |
| Idiomas de lip-sync | 6 |
| Modalidades | 4 (texto/imagem/vídeo/áudio) |
2. Arquitetura em detalhe
A escolha mais marcante é um único Transformer de autoatenção para todas as modalidades: texto, imagem, vídeo e áudio são concatenados numa única sequência de tokens, sem ramos de cross-atenção nem módulo de áudio separado — em contraste com o paradigma DiT dominante.

4 camadas em cada extremo para projeção por modalidade; 32 camadas centrais partilham parâmetros para raciocínio multimodal.
Especificações detalhadas
| Componente | Especificação |
|---|---|
| Parâmetros totais | ~15B |
| Tipo de arquitetura | Transformer de autoatenção unificado (sem ramos dedicados de cross-atenção) |
| Camadas totais | 40 |
| Disposição | Estrutura «sanduíche» — 4 iniciais + 4 finais para projeção por modalidade; 32 centrais partilhadas |
| Modalidades | Texto, imagem, vídeo, áudio (uma sequência de tokens) |
| Fusão multimodal | Gating escalar aprendível por cabeça de atenção (ativação sigmoide) |
| Condicionamento | Referência e sinais de denoising por interface unificada mínima |
| Passo temporal | Sem embedding explícito de timestep; estado inferido do latente ruidoso |
| Destilação | DMD-2 (Distribution Matching Distillation v2) |
| Amostragem | 8 passos, sem CFG |
| Compilação de inferência | MagiCompiler (compilação de grafo + fusão de operadores, ~1,2× aceleração ponta a ponta) |
| GPU de referência | NVIDIA H100 80GB |
3. Cinco decisões de desenho centrais
1. Autoatenção unificada vs. cross-atenção
Soluções comuns (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX): backbone DiT + cross-atenção a partir de codificador de texto independente; áudio muitas vezes noutro modelo. Happy Horse coloca tudo na mesma sequência — o alinhamento áudio-vídeo integra o denoising, não um pós-processamento.
2. Layout em «sanduíche»
4 camadas em cada extremo para codificação/decodificação por modalidade; 32 centrais partilham parâmetros — grande parte da capacidade dedicada ao raciocínio cruzado.
3. Gating sigmoide por cabeça
No treino conjunto áudio+vídeo os gradientes interferem. Cada cabeça tem um escalar aprendível para suprimir cabeças destrutivas.
4. Sem embedding de timestep
Elimina-se o embedding explícito de passo temporal — o nível de ruído já está no latente; pré-requisito para DMD-2 em 8 passos.
5. Destilação DMD-2
Difusão clássica costuma exigir 25–50 passos + CFG; DMD-2 treina um estudante para igualar o professor em 8 passos sem CFG — base do «1080p em ~38 s».
4. Seis capacidades principais
🎬🔊 Geração conjunta nativa de áudio e vídeo
Um único Transformer denoiza tokens de vídeo e áudio na mesma sequência — diálogo, efeitos e ambiente numa só passagem.
📺 Saída 1080p
Até 1080p, várias proporções, clipes de 5–10 s.
🗣️ Lip-sync em 6 idiomas
Inglês, mandarim, japonês, coreano, alemão, francês. Algumas fontes mencionam 7 (+ cantonense), por confirmar.
⚡ Geração muito rápida
~38 s em H100 para 1080p; ~2 s para pré-visualização 256p.
🔀 Texto→vídeo e imagem→vídeo unificados
Os mesmos pesos cobrem ambos os modos.
📦 Plano de open source
Anunciado: pesos base, modelo destilado em 8 passos, super-resolução, código de inferência. Licença descrita como totalmente aberta e uso comercial permitido — termos finais pendentes.
5. Comparação com modelos abertos populares

DMD-2: 8 passos face a 25–50 típicos.
| Característica | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parâmetros | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Autoatenção unificada | DiT | DiT | DiT | DiT |
| Áudio nativo | ✅ Conjunto | ❌ | ❌ | ❌ | ❌ |
| Lip-sync | 6 idiomas | 0 | 0 | 0 | 0 |
| Passos | 8 (sem CFG) | ~25 | ~50 | ~50 | ~50 |
| Tempo 1080p | ~38 s (H100) | Minutos | Minutos | Minutos | Minutos |
| Texto→vídeo | ✅ | ✅ | ✅ | ✅ | ✅ |
| Imagem→vídeo | ✅ Unificado | ✅ | ✅ | ✅ | ✅ |
| Pesos descarregáveis | ❌ Ainda não | ✅ | ✅ | ✅ | ✅ |
Em resumo: vantagem teórica = geração conjunta nativa; limitação = sem pesos públicos ainda.
6. Panorama de classificações
A Arena calcula Elo com votação cega. Happy Horse 1.0 participou sob codinome no topo.
Níveis
| Nível | Intervalo Elo | Modelos representativos |
|---|---|---|
| 🏆 Fechado de ponta | ~1.200–1.275 | Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5 |
| 🥈 Fechado intermédio | ~1.150–1.200 | Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2 |
| 🥉 Melhores pesos abertos | ~1.100–1.135 | LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B |
| Pesos abertos iniciais | ~950–1.020 | HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B |
Acima da linha LTX-2 = open source de estado da arte; nível fechado de ponta = concorrência direta com as melhores APIs pagas.
7. Cenários de aplicação
- 📱 Vídeo curto — TikTok / Reels / Shorts com áudio nativo
- 📢 Criatividade publicitária — trailers e anúncios cinemáticos
- 🌍 Marketing multilingue — um conceito, seis mercados
- 🎬 Pré-visualização B-roll — planos e storyboards
- 🛒 Vídeo de produto — foto → demonstração (I2V)
- 🔬 Investigação em IA — difusão conjunta, Transformer unificado, DMD-2
8. FAQ
Já se pode descarregar?
Não. Pesos, repositório e inferência oficial ainda não foram publicados.
O que se espera em open source?
Pesos base, modelo de 8 passos, super-resolução, código de inferência — termos legais pendentes.
Idiomas de lip-sync?
Seis na documentação técnica; algumas páginas mencionam sete com cantonense.
«38 s para 1080p» é credível?
Dados de notas comunitárias numa H100; falta reprodução independente. Após libertação dos pesos, a comunidade pode validar.
9. Conclusão
Filosofia clara: um modelo unificado em vez de encadear vídeo mudo, locução e lip-sync. Tendências: unificação de modalidades, destilação extrema, simplificação arquitetónica, gating por cabeça para estabilidade. Até haver pesos e código reproduzíveis, parte disto permanece «no papel» — a direção multimodal de ponta a ponta merece, no entanto, acompanhamento.
Experimente a geração HappyHorse
Pode testar já a geração de vídeo na nossa plataforma sem esperar pela API pública.