HappyHorse
Blog

Happy Horse 1.0 em profundidade: Transformer unificado de 15B, uma nova espécie de vídeo em IA com geração nativa conjunta de áudio e vídeo

HappyHorse Team
Happy Horse 1.0 em profundidade: Transformer unificado de 15B, uma nova espécie de vídeo em IA com geração nativa conjunta de áudio e vídeo

Se acompanha a geração de vídeo por IA, pode ter reparado num fenómeno incomum: na Artificial Analysis Video Arena, um «modelo mistério» anónimo apareceu ao lado de modelos fechados de ponta da ByteDance, Kling, Google e outros, com uma capacidade que os restantes não tinham: saída de áudio nativa.

A comunidade identificou rapidamente o nome: Happy Horse 1.0. Um gerador de vídeo ainda não publicado em open source, sem pesos públicos nem relatório técnico oficial, mas já com uma abordagem arquitetónica distinta do mainstream.

Nota: à data deste artigo, Happy Horse 1.0 não está oficialmente em open source. A informação técnica abaixo vem de notas da comunidade, possíveis fugas de informação e páginas de projeto — crível, mas não confirmada oficialmente.

1. Visão geral dos dados principais

MétricaValor
Parâmetros totais~15B (cerca de 15 mil milhões)
Camadas Transformer40
Passos de amostragem8 (sem CFG)
Tempo 1080p~38 s (H100)
Idiomas de lip-sync6
Modalidades4 (texto/imagem/vídeo/áudio)

2. Arquitetura em detalhe

A escolha mais marcante é um único Transformer de autoatenção para todas as modalidades: texto, imagem, vídeo e áudio são concatenados numa única sequência de tokens, sem ramos de cross-atenção nem módulo de áudio separado — em contraste com o paradigma DiT dominante.

Visão geral da arquitetura «sanduíche» Happy Horse 1.0

4 camadas em cada extremo para projeção por modalidade; 32 camadas centrais partilham parâmetros para raciocínio multimodal.

Especificações detalhadas

ComponenteEspecificação
Parâmetros totais~15B
Tipo de arquiteturaTransformer de autoatenção unificado (sem ramos dedicados de cross-atenção)
Camadas totais40
DisposiçãoEstrutura «sanduíche» — 4 iniciais + 4 finais para projeção por modalidade; 32 centrais partilhadas
ModalidadesTexto, imagem, vídeo, áudio (uma sequência de tokens)
Fusão multimodalGating escalar aprendível por cabeça de atenção (ativação sigmoide)
CondicionamentoReferência e sinais de denoising por interface unificada mínima
Passo temporalSem embedding explícito de timestep; estado inferido do latente ruidoso
DestilaçãoDMD-2 (Distribution Matching Distillation v2)
Amostragem8 passos, sem CFG
Compilação de inferênciaMagiCompiler (compilação de grafo + fusão de operadores, ~1,2× aceleração ponta a ponta)
GPU de referênciaNVIDIA H100 80GB

3. Cinco decisões de desenho centrais

1. Autoatenção unificada vs. cross-atenção

Soluções comuns (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX): backbone DiT + cross-atenção a partir de codificador de texto independente; áudio muitas vezes noutro modelo. Happy Horse coloca tudo na mesma sequência — o alinhamento áudio-vídeo integra o denoising, não um pós-processamento.

2. Layout em «sanduíche»

4 camadas em cada extremo para codificação/decodificação por modalidade; 32 centrais partilham parâmetros — grande parte da capacidade dedicada ao raciocínio cruzado.

3. Gating sigmoide por cabeça

No treino conjunto áudio+vídeo os gradientes interferem. Cada cabeça tem um escalar aprendível para suprimir cabeças destrutivas.

4. Sem embedding de timestep

Elimina-se o embedding explícito de passo temporal — o nível de ruído já está no latente; pré-requisito para DMD-2 em 8 passos.

5. Destilação DMD-2

Difusão clássica costuma exigir 25–50 passos + CFG; DMD-2 treina um estudante para igualar o professor em 8 passos sem CFG — base do «1080p em ~38 s».

4. Seis capacidades principais

🎬🔊 Geração conjunta nativa de áudio e vídeo

Um único Transformer denoiza tokens de vídeo e áudio na mesma sequência — diálogo, efeitos e ambiente numa só passagem.

📺 Saída 1080p

Até 1080p, várias proporções, clipes de 5–10 s.

🗣️ Lip-sync em 6 idiomas

Inglês, mandarim, japonês, coreano, alemão, francês. Algumas fontes mencionam 7 (+ cantonense), por confirmar.

⚡ Geração muito rápida

~38 s em H100 para 1080p; ~2 s para pré-visualização 256p.

🔀 Texto→vídeo e imagem→vídeo unificados

Os mesmos pesos cobrem ambos os modos.

📦 Plano de open source

Anunciado: pesos base, modelo destilado em 8 passos, super-resolução, código de inferência. Licença descrita como totalmente aberta e uso comercial permitido — termos finais pendentes.

5. Comparação com modelos abertos populares

Comparação de passos de amostragem

DMD-2: 8 passos face a 25–50 típicos.

CaracterísticaHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parâmetros~15B~13B14B~13B5B
BackboneAutoatenção unificadaDiTDiTDiTDiT
Áudio nativo✅ Conjunto
Lip-sync6 idiomas0000
Passos8 (sem CFG)~25~50~50~50
Tempo 1080p~38 s (H100)MinutosMinutosMinutosMinutos
Texto→vídeo
Imagem→vídeo✅ Unificado
Pesos descarregáveis❌ Ainda não

Em resumo: vantagem teórica = geração conjunta nativa; limitação = sem pesos públicos ainda.

6. Panorama de classificações

A Arena calcula Elo com votação cega. Happy Horse 1.0 participou sob codinome no topo.

Níveis

NívelIntervalo EloModelos representativos
🏆 Fechado de ponta~1.200–1.275Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5
🥈 Fechado intermédio~1.150–1.200Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2
🥉 Melhores pesos abertos~1.100–1.135LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B
Pesos abertos iniciais~950–1.020HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B

Acima da linha LTX-2 = open source de estado da arte; nível fechado de ponta = concorrência direta com as melhores APIs pagas.

7. Cenários de aplicação

  • 📱 Vídeo curto — TikTok / Reels / Shorts com áudio nativo
  • 📢 Criatividade publicitária — trailers e anúncios cinemáticos
  • 🌍 Marketing multilingue — um conceito, seis mercados
  • 🎬 Pré-visualização B-roll — planos e storyboards
  • 🛒 Vídeo de produto — foto → demonstração (I2V)
  • 🔬 Investigação em IA — difusão conjunta, Transformer unificado, DMD-2

8. FAQ

Já se pode descarregar?

Não. Pesos, repositório e inferência oficial ainda não foram publicados.

O que se espera em open source?

Pesos base, modelo de 8 passos, super-resolução, código de inferência — termos legais pendentes.

Idiomas de lip-sync?

Seis na documentação técnica; algumas páginas mencionam sete com cantonense.

«38 s para 1080p» é credível?

Dados de notas comunitárias numa H100; falta reprodução independente. Após libertação dos pesos, a comunidade pode validar.

9. Conclusão

Filosofia clara: um modelo unificado em vez de encadear vídeo mudo, locução e lip-sync. Tendências: unificação de modalidades, destilação extrema, simplificação arquitetónica, gating por cabeça para estabilidade. Até haver pesos e código reproduzíveis, parte disto permanece «no papel» — a direção multimodal de ponta a ponta merece, no entanto, acompanhamento.


Experimente a geração HappyHorse

Pode testar já a geração de vídeo na nossa plataforma sem esperar pela API pública.