Happy Horse 1.0 em profundidade: Transformer unificado de 15B, uma nova espécie de vídeo em IA com geração nativa conjunta de áudio e vídeo - HappyHorse AI

Se acompanha a geração de vídeo por IA, pode ter reparado num fenómeno incomum: na Artificial Analysis Video Arena, um «modelo mistério» anónimo apareceu ao lado de modelos fechados de ponta da ByteDance, Kling, Google e outros, com uma capacidade que os restantes não tinham: saída de áudio nativa.

A comunidade identificou rapidamente o nome: Happy Horse 1.0. Um gerador de vídeo ainda não publicado em open source, sem pesos públicos nem relatório técnico oficial, mas já com uma abordagem arquitetónica distinta do mainstream.

Nota: à data deste artigo, Happy Horse 1.0 não está oficialmente em open source. A informação técnica abaixo vem de notas da comunidade, possíveis fugas de informação e páginas de projeto — crível, mas não confirmada oficialmente.

1. Visão geral dos dados principais

Métrica	Valor
Parâmetros totais	~15B (cerca de 15 mil milhões)
Camadas Transformer	40
Passos de amostragem	8 (sem CFG)
Tempo 1080p	~38 s (H100)
Idiomas de lip-sync	6
Modalidades	4 (texto/imagem/vídeo/áudio)

2. Arquitetura em detalhe

A escolha mais marcante é um único Transformer de autoatenção para todas as modalidades: texto, imagem, vídeo e áudio são concatenados numa única sequência de tokens, sem ramos de cross-atenção nem módulo de áudio separado — em contraste com o paradigma DiT dominante.

Visão geral da arquitetura «sanduíche» Happy Horse 1.0

4 camadas em cada extremo para projeção por modalidade; 32 camadas centrais partilham parâmetros para raciocínio multimodal.

Especificações detalhadas

Componente	Especificação
Parâmetros totais	~15B
Tipo de arquitetura	Transformer de autoatenção unificado (sem ramos dedicados de cross-atenção)
Camadas totais	40
Disposição	Estrutura «sanduíche» — 4 iniciais + 4 finais para projeção por modalidade; 32 centrais partilhadas
Modalidades	Texto, imagem, vídeo, áudio (uma sequência de tokens)
Fusão multimodal	Gating escalar aprendível por cabeça de atenção (ativação sigmoide)
Condicionamento	Referência e sinais de denoising por interface unificada mínima
Passo temporal	Sem embedding explícito de timestep; estado inferido do latente ruidoso
Destilação	DMD-2 (Distribution Matching Distillation v2)
Amostragem	8 passos, sem CFG
Compilação de inferência	MagiCompiler (compilação de grafo + fusão de operadores, ~1,2× aceleração ponta a ponta)
GPU de referência	NVIDIA H100 80GB

3. Cinco decisões de desenho centrais

1. Autoatenção unificada vs. cross-atenção

Soluções comuns (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX): backbone DiT + cross-atenção a partir de codificador de texto independente; áudio muitas vezes noutro modelo. Happy Horse coloca tudo na mesma sequência — o alinhamento áudio-vídeo integra o denoising, não um pós-processamento.

2. Layout em «sanduíche»

4 camadas em cada extremo para codificação/decodificação por modalidade; 32 centrais partilham parâmetros — grande parte da capacidade dedicada ao raciocínio cruzado.

3. Gating sigmoide por cabeça

No treino conjunto áudio+vídeo os gradientes interferem. Cada cabeça tem um escalar aprendível para suprimir cabeças destrutivas.

4. Sem embedding de timestep

Elimina-se o embedding explícito de passo temporal — o nível de ruído já está no latente; pré-requisito para DMD-2 em 8 passos.

5. Destilação DMD-2

Difusão clássica costuma exigir 25–50 passos + CFG; DMD-2 treina um estudante para igualar o professor em 8 passos sem CFG — base do «1080p em ~38 s».

4. Seis capacidades principais

🎬🔊 Geração conjunta nativa de áudio e vídeo

Um único Transformer denoiza tokens de vídeo e áudio na mesma sequência — diálogo, efeitos e ambiente numa só passagem.

📺 Saída 1080p

Até 1080p, várias proporções, clipes de 5–10 s.

🗣️ Lip-sync em 6 idiomas

Inglês, mandarim, japonês, coreano, alemão, francês. Algumas fontes mencionam 7 (+ cantonense), por confirmar.

⚡ Geração muito rápida

~38 s em H100 para 1080p; ~2 s para pré-visualização 256p.

🔀 Texto→vídeo e imagem→vídeo unificados

Os mesmos pesos cobrem ambos os modos.

📦 Plano de open source

Anunciado: pesos base, modelo destilado em 8 passos, super-resolução, código de inferência. Licença descrita como totalmente aberta e uso comercial permitido — termos finais pendentes.

5. Comparação com modelos abertos populares

Comparação de passos de amostragem

DMD-2: 8 passos face a 25–50 típicos.

Característica	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Parâmetros	~15B	~13B	14B	~13B	5B
Backbone	Autoatenção unificada	DiT	DiT	DiT	DiT
Áudio nativo	✅ Conjunto	❌	❌	❌	❌
Lip-sync	6 idiomas	0	0	0	0
Passos	8 (sem CFG)	~25	~50	~50	~50
Tempo 1080p	~38 s (H100)	Minutos	Minutos	Minutos	Minutos
Texto→vídeo	✅	✅	✅	✅	✅
Imagem→vídeo	✅ Unificado	✅	✅	✅	✅
Pesos descarregáveis	❌ Ainda não	✅	✅	✅	✅

Em resumo: vantagem teórica = geração conjunta nativa; limitação = sem pesos públicos ainda.

6. Panorama de classificações

A Arena calcula Elo com votação cega. Happy Horse 1.0 participou sob codinome no topo.

Níveis

Nível	Intervalo Elo	Modelos representativos
🏆 Fechado de ponta	~1.200–1.275	Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5
🥈 Fechado intermédio	~1.150–1.200	Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2
🥉 Melhores pesos abertos	~1.100–1.135	LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B
Pesos abertos iniciais	~950–1.020	HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B

Acima da linha LTX-2 = open source de estado da arte; nível fechado de ponta = concorrência direta com as melhores APIs pagas.

7. Cenários de aplicação

📱 Vídeo curto — TikTok / Reels / Shorts com áudio nativo
📢 Criatividade publicitária — trailers e anúncios cinemáticos
🌍 Marketing multilingue — um conceito, seis mercados
🎬 Pré-visualização B-roll — planos e storyboards
🛒 Vídeo de produto — foto → demonstração (I2V)
🔬 Investigação em IA — difusão conjunta, Transformer unificado, DMD-2

8. FAQ

Já se pode descarregar?

Não. Pesos, repositório e inferência oficial ainda não foram publicados.

O que se espera em open source?

Pesos base, modelo de 8 passos, super-resolução, código de inferência — termos legais pendentes.

Idiomas de lip-sync?

Seis na documentação técnica; algumas páginas mencionam sete com cantonense.

«38 s para 1080p» é credível?

Dados de notas comunitárias numa H100; falta reprodução independente. Após libertação dos pesos, a comunidade pode validar.

9. Conclusão

Filosofia clara: um modelo unificado em vez de encadear vídeo mudo, locução e lip-sync. Tendências: unificação de modalidades, destilação extrema, simplificação arquitetónica, gating por cabeça para estabilidade. Até haver pesos e código reproduzíveis, parte disto permanece «no papel» — a direção multimodal de ponta a ponta merece, no entanto, acompanhamento.

Experimente a geração HappyHorse

Pode testar já a geração de vídeo na nossa plataforma sem esperar pela API pública.

Começar a usar o HappyHorse