Happy Horse 1.0 im Deep Dive: 15B-Parameter Unified Transformer – eine neue KI-Video-Spezies mit nativer Audio-Video-Gemeinsamerzeugung - HappyHorse AI

Wer KI-Videogenerierung verfolgt, dürfte kürzlich ein ungewöhnliches Phänomen bemerkt haben: In den Blindtests der Artificial Analysis Video Arena tauchte ein anonymes „Mysterienmodell“ neben führenden Closed-Source-Modellen von ByteDance, Kling, Google u. a. auf – mit einem Merkmal, das sonst niemand bot: native Audioausgabe.

Die Community identifizierte schnell den Namen: Happy Horse 1.0. Ein Videogenerator, der noch nicht offiziell Open Source ist, ohne öffentliche Gewichte und ohne offiziellen Technikbericht – und dennoch mit einem Architekturansatz, der sich klar vom Mainstream unterscheidet.

Hinweis: Zum Redaktionsschluss ist Happy Horse 1.0 nicht offiziell Open Source. Die folgenden technischen Angaben stammen aus Community-Notizen, mutmaßlichen Leaks und Projektseiten – plausibel, aber nicht offiziell bestätigt.

1. Kerndaten auf einen Blick

Kennzahl	Wert
Parameter gesamt	~15B (ca. 15 Milliarden)
Transformer-Schichten	40
Sampling-Schritte	8 (ohne CFG)
1080p-Generierungszeit	~38 s (H100)
Lip-Sync-Sprachen	6
Modalitäten	4 (Text/Bild/Video/Audio)

2. Architektur im Detail

Das auffälligste Design: ein einheitlicher Self-Attention-Transformer für alle Modalitäten – Text, Bild, Video und Audio werden zu einer Token-Sequenz konkateniert, ohne Cross-Attention-Zweige und ohne separates Audiomodul. Das steht im Kontrast zum gängigen DiT (Diffusion Transformer).

Überblick „Sandwich“-Architektur Happy Horse 1.0

Je 4 Schichten an den Enden für Modalitätsprojektion, 32 mittlere Schichten mit geteilten Parametern für Cross-Modal-Reasoning.

Detaillierte Spezifikation

Komponente	Spezifikation
Parameter gesamt	~15B
Architekturtyp	Unified Self-Attention Transformer (keine dedizierten Cross-Attention-Zweige)
Schichten gesamt	40
Schichtlayout	„Sandwich“ – erste 4 + letzte 4 für modalitätsspezifische Projektion, 32 mittlere geteilt
Modalitäten	Text, Bild, Video, Audio (eine Token-Sequenz)
Multimodal-Fusion	Lernbare skalare Gates pro Attention-Head (Sigmoid)
Konditionierung	Referenzbilder und Denoising-Signale über eine minimale einheitliche Schnittstelle
Timestep	Kein explizites Timestep-Embedding – Zustand aus dem latenten Rauschpegel
Destillation	DMD-2 (Distribution Matching Distillation v2)
Sampling	8 Schritte, kein CFG
Inferenz-Kompilierung	MagiCompiler (Graph + Operator-Fusion, ~1,2× End-to-End)
Referenz-GPU	NVIDIA H100 80GB

3. Fünf zentrale Designentscheidungen

1. Unified Self-Attention vs. Cross-Attention

Mainstream (Wan 2.2, HunyuanVideo, LTX-2, CogVideoX): DiT plus Cross-Attention aus separatem Textencoder; Audio oft separates Modell. Happy Horse packt alles in eine Sequenz – Audio-Video-Ausrichtung ist Teil des Denoisings, nicht nachträglich.

2. Sandwich-Layout

Je 4 Schichten für modalitätsspezifisches Encodieren/Decodieren, 32 mittlere teilen Parameter – hoher Anteil für Cross-Modal-Reasoning.

3. Per-Head-Sigmoid-Gating

Beim Joint Training von Audio+Video kollidieren Gradienten. Pro Head gibt es ein lernbares skalares Gate, das destruktive Heads dämpft.

4. Kein Timestep-Embedding

Klassische Diffusionsmodelle injizieren pro Schicht einen Timestep-Vektor. Happy Horse entfernt das – der Rauschpegel steckt bereits im latenten Rauschen; Voraussetzung für 8-Schritt-DMD-2.

5. DMD-2-Destillation

Standard oft 25–50 Schritte + CFG; DMD-2 trainiert ein Studentenmodell, die Lehrer-Verteilung in 8 Schritten ohne CFG zu treffen – Grundlage für „1080p in ~38 s“.

4. Sechs Kernfunktionen

🎬🔊 Native gemeinsame Audio-Video-Generierung

Ein Transformer denoisiert Video- und Audio-Tokens gleichzeitig in derselben Sequenz – Dialog, SFX, Ambience in einem Durchgang, ohne separate Voiceover-/Lip-Sync-Pipeline.

📺 1080p-Ausgabe

Bis 1080p, mehrere Seitenverhältnisse, Clips 5–10 s.

🗣️ Lip-Sync in 6 Sprachen

Englisch, Mandarin, Japanisch, Koreanisch, Deutsch, Französisch. Einige Quellen nennen 7 (+Kantonesisch), noch unbestätigt.

⚡ Sehr schnelle Generierung

~38 s für 1080p auf H100, ~2 s für 256p-Preview dank 8 Schritten ohne CFG.

🔀 Einheitliches Text- und Image-to-Video

Gleiche Gewichte, kein Modell- oder Pipeline-Wechsel.

📦 Geplanter Open-Source-Umfang

Angekündigt: Basisgewichte, 8-Schritt-destilliertes Modul, Super-Resolution, Inferenzcode. Lizenzbeschreibung „vollständig Open Source, kommerzielle Nutzung erlaubt“ – finale Bedingungen fehlen.

5. Vergleich mit gängigen Open-Weight-Modellen

Sampling-Schritte im Vergleich

DMD-2: 8 Schritte vs. typische 25–50.

Merkmal	Happy Horse 1.0	LTX-2 Pro	Wan 2.2 A14B	HunyuanVideo-1.5	CogVideoX-5B
Parameter	~15B	~13B	14B	~13B	5B
Backbone	Unified self-attention	DiT	DiT	DiT	DiT
natives Audio	✅ Joint	❌	❌	❌	❌
Lip-Sync	6 Sprachen	0	0	0	0
Schritte	8 (ohne CFG)	~25	~50	~50	~50
1080p-Zeit	~38 s (H100)	Minuten	Minuten	Minuten	Minuten
Text→Video	✅	✅	✅	✅	✅
Bild→Video	✅ Unified	✅	✅	✅	✅
Download-Gewichte	❌ Noch nicht	✅	✅	✅	✅

Kurz: Stärke auf dem Papier = native Joint-Generierung ohne separate Voiceover-Pipeline; größtes „Aber“: noch keine öffentlichen Gewichte.

6. Leaderboard-Landschaft

Die Arena berechnet Elo aus Blind-Duellen. Happy Horse 1.0 trat unter Decknamen oben auf.

Tier-Überblick

Tier	Elo-Bereich	Beispiele
🏆 Cutting-edge Closed Source	~1.200–1.275	Dreamina Seedance 2.0, SkyReels V4, Kling 3.0, PixVerse V6, Veo 3.1, Runway Gen-4.5
🥈 Mid-tier Closed Source	~1.150–1.200	Sora 2 Pro, Hailuo 2.3, Wan 2.6, Vidu Q2
🥉 Top Open Weights	~1.100–1.135	LTX-2 Pro, LTX-2 Fast, Wan 2.2 A14B
Early Open Weights	~950–1.020	HunyuanVideo-1.5, Wan 2.1 14B, Wan 2.2 5B

Oberhalb der LTX-2-Linie = Spitzen-Open-Source; Top-Tier Closed = direkter Wettbewerb mit Premium-APIs.

7. Anwendungsszenarien

📱 Kurzvideo — TikTok / Reels / Shorts mit nativem Audio
📢 Werbung & Trailer — starke Bewegung und Kino-Look
🌍 Mehrsprachiges Marketing — ein Konzept, sechs Märkte
🎬 B-Roll-Previs — Einstellungen, Storyboards
🛒 E-Commerce — Produktfoto → Demo-Video (I2V)
🔬 Forschung — Joint Diffusion, unified Transformer, DMD-2

8. FAQ

Gibt es schon Download-Gewichte?

Nein. Gewichte, Repo und offizielle Inferenz stehen noch aus.

Was soll Open Source werden?

Basis, 8-Schritt-Modell, Super-Resolution, Inferenzcode – Lizenztext folgt.

Welche Lip-Sync-Sprachen?

Sechs in technischen Beschreibungen; Marketing teils sieben (+Kantonesisch).

Sind „38 s für 1080p“ glaubwürdig?

Community-Messung auf einer H100; unabhängige Reproduktion steht aus. Nach Gewichts-Release wird die Community validieren.

9. Fazit

Happy Horse zielt auf einen einzigen Schritt: kein Kettensystem „Video → Voiceover → Lipsync“. Trends: Modalitätsvereinheitlichung, extreme Destillation, Architekturvereinfachung, stabiles Joint Training per Head-Gating. Bis zu veröffentlichten Gewichten bleibt vieles Spekulation – die Richtung End-to-End-Multimodal ist dennoch beobachtenswert.

HappyHorse live ausprobieren

Testen Sie die Videogenerierung auf unserer Plattform – ohne auf die API-Freigabe zu warten.

Jetzt HappyHorse nutzen