Happy Horse 1.0 im Deep Dive: 15B-Parameter Unified Transformer – eine neue KI-Video-Spezies mit nativer Audio-Video-Gemeinsamerzeugung
Wer KI-Videogenerierung verfolgt, dürfte kürzlich ein ungewöhnliches Phänomen bemerkt haben: In den Blindtests der Artificial Analysis Video Arena tauchte ein anonymes „Mysterienmodell“ neben führenden Closed-Source-Modellen von ByteDance, Kling, Google u. a. auf – mit einem Merkmal, das sonst niemand bot: native Audioausgabe.
Die Community identifizierte schnell den Namen: Happy Horse 1.0. Ein Videogenerator, der noch nicht offiziell Open Source ist, ohne öffentliche Gewichte und ohne offiziellen Technikbericht – und dennoch mit einem Architekturansatz, der sich klar vom Mainstream unterscheidet.
Hinweis: Zum Redaktionsschluss ist Happy Horse 1.0 nicht offiziell Open Source. Die folgenden technischen Angaben stammen aus Community-Notizen, mutmaßlichen Leaks und Projektseiten – plausibel, aber nicht offiziell bestätigt.
1. Kerndaten auf einen Blick
| Kennzahl | Wert |
|---|---|
| Parameter gesamt | ~15B (ca. 15 Milliarden) |
| Transformer-Schichten | 40 |
| Sampling-Schritte | 8 (ohne CFG) |
| 1080p-Generierungszeit | ~38 s (H100) |
| Lip-Sync-Sprachen | 6 |
| Modalitäten | 4 (Text/Bild/Video/Audio) |
2. Architektur im Detail
Das auffälligste Design: ein einheitlicher Self-Attention-Transformer für alle Modalitäten – Text, Bild, Video und Audio werden zu einer Token-Sequenz konkateniert, ohne Cross-Attention-Zweige und ohne separates Audiomodul. Das steht im Kontrast zum gängigen DiT (Diffusion Transformer).

Je 4 Schichten an den Enden für Modalitätsprojektion, 32 mittlere Schichten mit geteilten Parametern für Cross-Modal-Reasoning.
Detaillierte Spezifikation
| Komponente | Spezifikation |
|---|---|
| Parameter gesamt | ~15B |
| Architekturtyp | Unified Self-Attention Transformer (keine dedizierten Cross-Attention-Zweige) |
| Schichten gesamt | 40 |
| Schichtlayout | „Sandwich“ – erste 4 + letzte 4 für modalitätsspezifische Projektion, 32 mittlere geteilt |
| Modalitäten | Text, Bild, Video, Audio (eine Token-Sequenz) |
| Multimodal-Fusion | Lernbare skalare Gates pro Attention-Head (Sigmoid) |
| Konditionierung | Referenzbilder und Denoising-Signale über eine minimale einheitliche Schnittstelle |
| Timestep | Kein explizites Timestep-Embedding – Zustand aus dem latenten Rauschpegel |
| Destillation | DMD-2 (Distribution Matching Distillation v2) |
| Sampling | 8 Schritte, kein CFG |
| Inferenz-Kompilierung | MagiCompiler (Graph + Operator-Fusion, ~1,2× End-to-End) |
| Referenz-GPU | NVIDIA H100 80GB |
3. Fünf zentrale Designentscheidungen
1. Unified Self-Attention vs. Cross-Attention
Mainstream (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX): DiT plus Cross-Attention aus separatem Textencoder; Audio oft separates Modell. Happy Horse packt alles in eine Sequenz – Audio-Video-Ausrichtung ist Teil des Denoisings, nicht nachträglich.
2. Sandwich-Layout
Je 4 Schichten für modalitätsspezifisches Encodieren/Decodieren, 32 mittlere teilen Parameter – hoher Anteil für Cross-Modal-Reasoning.
3. Per-Head-Sigmoid-Gating
Beim Joint Training von Audio+Video kollidieren Gradienten. Pro Head gibt es ein lernbares skalares Gate, das destruktive Heads dämpft.
4. Kein Timestep-Embedding
Klassische Diffusionsmodelle injizieren pro Schicht einen Timestep-Vektor. Happy Horse entfernt das – der Rauschpegel steckt bereits im latenten Rauschen; Voraussetzung für 8-Schritt-DMD-2.
5. DMD-2-Destillation
Standard oft 25–50 Schritte + CFG; DMD-2 trainiert ein Studentenmodell, die Lehrer-Verteilung in 8 Schritten ohne CFG zu treffen – Grundlage für „1080p in ~38 s“.
4. Sechs Kernfunktionen
🎬🔊 Native gemeinsame Audio-Video-Generierung
Ein Transformer denoisiert Video- und Audio-Tokens gleichzeitig in derselben Sequenz – Dialog, SFX, Ambience in einem Durchgang, ohne separate Voiceover-/Lip-Sync-Pipeline.
📺 1080p-Ausgabe
Bis 1080p, mehrere Seitenverhältnisse, Clips 5–10 s.
🗣️ Lip-Sync in 6 Sprachen
Englisch, Mandarin, Japanisch, Koreanisch, Deutsch, Französisch. Einige Quellen nennen 7 (+Kantonesisch), noch unbestätigt.
⚡ Sehr schnelle Generierung
~38 s für 1080p auf H100, ~2 s für 256p-Preview dank 8 Schritten ohne CFG.
🔀 Einheitliches Text- und Image-to-Video
Gleiche Gewichte, kein Modell- oder Pipeline-Wechsel.
📦 Geplanter Open-Source-Umfang
Angekündigt: Basisgewichte, 8-Schritt-destilliertes Modul, Super-Resolution, Inferenzcode. Lizenzbeschreibung „vollständig Open Source, kommerzielle Nutzung erlaubt“ – finale Bedingungen fehlen.
5. Vergleich mit gängigen Open-Weight-Modellen

DMD-2: 8 Schritte vs. typische 25–50.
| Merkmal | Happy Horse 1.0 | LTX-2 Pro | Wan 2.2 A14B | HunyuanVideo-1.5 | CogVideoX-5B |
|---|---|---|---|---|---|
| Parameter | ~15B | ~13B | 14B | ~13B | 5B |
| Backbone | Unified self-attention | DiT | DiT | DiT | DiT |
| natives Audio | ✅ Joint | ❌ | ❌ | ❌ | ❌ |
| Lip-Sync | 6 Sprachen | 0 | 0 | 0 | 0 |
| Schritte | 8 (ohne CFG) | ~25 | ~50 | ~50 | ~50 |
| 1080p-Zeit | ~38 s (H100) | Minuten | Minuten | Minuten | Minuten |
| Text→Video | ✅ | ✅ | ✅ | ✅ | ✅ |
| Bild→Video | ✅ Unified | ✅ | ✅ | ✅ | ✅ |
| Download-Gewichte | ❌ Noch nicht | ✅ | ✅ | ✅ | ✅ |
Kurz: Stärke auf dem Papier = native Joint-Generierung ohne separate Voiceover-Pipeline; größtes „Aber“: noch keine öffentlichen Gewichte.
6. Leaderboard-Landschaft
Die Arena berechnet Elo aus Blind-Duellen. Happy Horse 1.0 trat unter Decknamen oben auf.
Tier-Überblick
| Tier | Elo-Bereich | Beispiele |
|---|---|---|
| 🏆 Cutting-edge Closed Source | ~1.200–1.275 | Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5 |
| 🥈 Mid-tier Closed Source | ~1.150–1.200 | Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2 |
| 🥉 Top Open Weights | ~1.100–1.135 | LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B |
| Early Open Weights | ~950–1.020 | HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B |
Oberhalb der LTX-2-Linie = Spitzen-Open-Source; Top-Tier Closed = direkter Wettbewerb mit Premium-APIs.
7. Anwendungsszenarien
- 📱 Kurzvideo — TikTok / Reels / Shorts mit nativem Audio
- 📢 Werbung & Trailer — starke Bewegung und Kino-Look
- 🌍 Mehrsprachiges Marketing — ein Konzept, sechs Märkte
- 🎬 B-Roll-Previs — Einstellungen, Storyboards
- 🛒 E-Commerce — Produktfoto → Demo-Video (I2V)
- 🔬 Forschung — Joint Diffusion, unified Transformer, DMD-2
8. FAQ
Gibt es schon Download-Gewichte?
Nein. Gewichte, Repo und offizielle Inferenz stehen noch aus.
Was soll Open Source werden?
Basis, 8-Schritt-Modell, Super-Resolution, Inferenzcode – Lizenztext folgt.
Welche Lip-Sync-Sprachen?
Sechs in technischen Beschreibungen; Marketing teils sieben (+Kantonesisch).
Sind „38 s für 1080p“ glaubwürdig?
Community-Messung auf einer H100; unabhängige Reproduktion steht aus. Nach Gewichts-Release wird die Community validieren.
9. Fazit
Happy Horse zielt auf einen einzigen Schritt: kein Kettensystem „Video → Voiceover → Lipsync“. Trends: Modalitätsvereinheitlichung, extreme Destillation, Architekturvereinfachung, stabiles Joint Training per Head-Gating. Bis zu veröffentlichten Gewichten bleibt vieles Spekulation – die Richtung End-to-End-Multimodal ist dennoch beobachtenswert.
HappyHorse live ausprobieren
Testen Sie die Videogenerierung auf unserer Plattform – ohne auf die API-Freigabe zu warten.