HappyHorse
Blog

Happy Horse 1.0 im Deep Dive: 15B-Parameter Unified Transformer – eine neue KI-Video-Spezies mit nativer Audio-Video-Gemeinsamerzeugung

HappyHorse Team
Happy Horse 1.0 im Deep Dive: 15B-Parameter Unified Transformer – eine neue KI-Video-Spezies mit nativer Audio-Video-Gemeinsamerzeugung

Wer KI-Videogenerierung verfolgt, dürfte kürzlich ein ungewöhnliches Phänomen bemerkt haben: In den Blindtests der Artificial Analysis Video Arena tauchte ein anonymes „Mysterienmodell“ neben führenden Closed-Source-Modellen von ByteDance, Kling, Google u. a. auf – mit einem Merkmal, das sonst niemand bot: native Audioausgabe.

Die Community identifizierte schnell den Namen: Happy Horse 1.0. Ein Videogenerator, der noch nicht offiziell Open Source ist, ohne öffentliche Gewichte und ohne offiziellen Technikbericht – und dennoch mit einem Architekturansatz, der sich klar vom Mainstream unterscheidet.

Hinweis: Zum Redaktionsschluss ist Happy Horse 1.0 nicht offiziell Open Source. Die folgenden technischen Angaben stammen aus Community-Notizen, mutmaßlichen Leaks und Projektseiten – plausibel, aber nicht offiziell bestätigt.

1. Kerndaten auf einen Blick

KennzahlWert
Parameter gesamt~15B (ca. 15 Milliarden)
Transformer-Schichten40
Sampling-Schritte8 (ohne CFG)
1080p-Generierungszeit~38 s (H100)
Lip-Sync-Sprachen6
Modalitäten4 (Text/Bild/Video/Audio)

2. Architektur im Detail

Das auffälligste Design: ein einheitlicher Self-Attention-Transformer für alle Modalitäten – Text, Bild, Video und Audio werden zu einer Token-Sequenz konkateniert, ohne Cross-Attention-Zweige und ohne separates Audiomodul. Das steht im Kontrast zum gängigen DiT (Diffusion Transformer).

Überblick „Sandwich“-Architektur Happy Horse 1.0

Je 4 Schichten an den Enden für Modalitätsprojektion, 32 mittlere Schichten mit geteilten Parametern für Cross-Modal-Reasoning.

Detaillierte Spezifikation

KomponenteSpezifikation
Parameter gesamt~15B
ArchitekturtypUnified Self-Attention Transformer (keine dedizierten Cross-Attention-Zweige)
Schichten gesamt40
Schichtlayout„Sandwich“ – erste 4 + letzte 4 für modalitätsspezifische Projektion, 32 mittlere geteilt
ModalitätenText, Bild, Video, Audio (eine Token-Sequenz)
Multimodal-FusionLernbare skalare Gates pro Attention-Head (Sigmoid)
KonditionierungReferenzbilder und Denoising-Signale über eine minimale einheitliche Schnittstelle
TimestepKein explizites Timestep-Embedding – Zustand aus dem latenten Rauschpegel
DestillationDMD-2 (Distribution Matching Distillation v2)
Sampling8 Schritte, kein CFG
Inferenz-KompilierungMagiCompiler (Graph + Operator-Fusion, ~1,2× End-to-End)
Referenz-GPUNVIDIA H100 80GB

3. Fünf zentrale Designentscheidungen

1. Unified Self-Attention vs. Cross-Attention

Mainstream (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX): DiT plus Cross-Attention aus separatem Textencoder; Audio oft separates Modell. Happy Horse packt alles in eine Sequenz – Audio-Video-Ausrichtung ist Teil des Denoisings, nicht nachträglich.

2. Sandwich-Layout

Je 4 Schichten für modalitätsspezifisches Encodieren/Decodieren, 32 mittlere teilen Parameter – hoher Anteil für Cross-Modal-Reasoning.

3. Per-Head-Sigmoid-Gating

Beim Joint Training von Audio+Video kollidieren Gradienten. Pro Head gibt es ein lernbares skalares Gate, das destruktive Heads dämpft.

4. Kein Timestep-Embedding

Klassische Diffusionsmodelle injizieren pro Schicht einen Timestep-Vektor. Happy Horse entfernt das – der Rauschpegel steckt bereits im latenten Rauschen; Voraussetzung für 8-Schritt-DMD-2.

5. DMD-2-Destillation

Standard oft 25–50 Schritte + CFG; DMD-2 trainiert ein Studentenmodell, die Lehrer-Verteilung in 8 Schritten ohne CFG zu treffen – Grundlage für „1080p in ~38 s“.

4. Sechs Kernfunktionen

🎬🔊 Native gemeinsame Audio-Video-Generierung

Ein Transformer denoisiert Video- und Audio-Tokens gleichzeitig in derselben Sequenz – Dialog, SFX, Ambience in einem Durchgang, ohne separate Voiceover-/Lip-Sync-Pipeline.

📺 1080p-Ausgabe

Bis 1080p, mehrere Seitenverhältnisse, Clips 5–10 s.

🗣️ Lip-Sync in 6 Sprachen

Englisch, Mandarin, Japanisch, Koreanisch, Deutsch, Französisch. Einige Quellen nennen 7 (+Kantonesisch), noch unbestätigt.

⚡ Sehr schnelle Generierung

~38 s für 1080p auf H100, ~2 s für 256p-Preview dank 8 Schritten ohne CFG.

🔀 Einheitliches Text- und Image-to-Video

Gleiche Gewichte, kein Modell- oder Pipeline-Wechsel.

📦 Geplanter Open-Source-Umfang

Angekündigt: Basisgewichte, 8-Schritt-destilliertes Modul, Super-Resolution, Inferenzcode. Lizenzbeschreibung „vollständig Open Source, kommerzielle Nutzung erlaubt“ – finale Bedingungen fehlen.

5. Vergleich mit gängigen Open-Weight-Modellen

Sampling-Schritte im Vergleich

DMD-2: 8 Schritte vs. typische 25–50.

MerkmalHappy Horse 1.0LTX-2 ProWan 2.2 A14BHunyuanVideo-1.5CogVideoX-5B
Parameter~15B~13B14B~13B5B
BackboneUnified self-attentionDiTDiTDiTDiT
natives Audio✅ Joint
Lip-Sync6 Sprachen0000
Schritte8 (ohne CFG)~25~50~50~50
1080p-Zeit~38 s (H100)MinutenMinutenMinutenMinuten
Text→Video
Bild→Video✅ Unified
Download-Gewichte❌ Noch nicht

Kurz: Stärke auf dem Papier = native Joint-Generierung ohne separate Voiceover-Pipeline; größtes „Aber“: noch keine öffentlichen Gewichte.

6. Leaderboard-Landschaft

Die Arena berechnet Elo aus Blind-Duellen. Happy Horse 1.0 trat unter Decknamen oben auf.

Tier-Überblick

TierElo-BereichBeispiele
🏆 Cutting-edge Closed Source~1.200–1.275Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5
🥈 Mid-tier Closed Source~1.150–1.200Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2
🥉 Top Open Weights~1.100–1.135LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B
Early Open Weights~950–1.020HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B

Oberhalb der LTX-2-Linie = Spitzen-Open-Source; Top-Tier Closed = direkter Wettbewerb mit Premium-APIs.

7. Anwendungsszenarien

  • 📱 Kurzvideo — TikTok / Reels / Shorts mit nativem Audio
  • 📢 Werbung & Trailer — starke Bewegung und Kino-Look
  • 🌍 Mehrsprachiges Marketing — ein Konzept, sechs Märkte
  • 🎬 B-Roll-Previs — Einstellungen, Storyboards
  • 🛒 E-Commerce — Produktfoto → Demo-Video (I2V)
  • 🔬 Forschung — Joint Diffusion, unified Transformer, DMD-2

8. FAQ

Gibt es schon Download-Gewichte?

Nein. Gewichte, Repo und offizielle Inferenz stehen noch aus.

Was soll Open Source werden?

Basis, 8-Schritt-Modell, Super-Resolution, Inferenzcode – Lizenztext folgt.

Welche Lip-Sync-Sprachen?

Sechs in technischen Beschreibungen; Marketing teils sieben (+Kantonesisch).

Sind „38 s für 1080p“ glaubwürdig?

Community-Messung auf einer H100; unabhängige Reproduktion steht aus. Nach Gewichts-Release wird die Community validieren.

9. Fazit

Happy Horse zielt auf einen einzigen Schritt: kein Kettensystem „Video → Voiceover → Lipsync“. Trends: Modalitätsvereinheitlichung, extreme Destillation, Architekturvereinfachung, stabiles Joint Training per Head-Gating. Bis zu veröffentlichten Gewichten bleibt vieles Spekulation – die Richtung End-to-End-Multimodal ist dennoch beobachtenswert.


HappyHorse live ausprobieren

Testen Sie die Videogenerierung auf unserer Plattform – ohne auf die API-Freigabe zu warten.