Happy Horse 1.0 徹底解説:15Bパラメータ統合Transformer、ネイティブ音声・動画同時生成のAIビデオ新種
AI動画生成分野に注目している方なら、最近異常な現象に気づいているかもしれません——Artificial Analysis Video Arenaの盲評バトルにおいて、正体不明の”謎のモデル”がひっそりと登場し、ByteDance、Kling、Googleなど大手企業の最先端クローズドソースモデルと匿名で並び、他のどの参加者にもない特徴を持っています:ネイティブ音声出力。
コミュニティはすぐにその名前を突き止めました——Happy Horse 1.0。正式なオープンソース化はされておらず、公開された重みも公式技術レポートも存在しないAI動画生成器ですが、そのアーキテクチャ設計は現在の主流ソリューションとは全く異なるアプローチを示しています。
重要なお知らせ:本稿執筆時点で、Happy Horse 1.0は正式にオープンソース化されていません。以下の技術情報はすべてコミュニティがまとめたアーキテクチャノート、流出が疑われる資料、プロジェクトランディングページに基づくもので、信頼できますが公式には確認されていません。
1. コアデータ概要
まずは堅実な指標から、Happy Horse 1.0の全体像を把握しましょう:
| 指標 | 値 |
|---|---|
| 総パラメータ数 | ~15B(約150億) |
| Transformerレイヤー数 | 40層 |
| サンプリングステップ数 | 8ステップ(CFG不要) |
| 1080p生成時間 | ~38秒(H100) |
| リップシンク対応言語 | 6言語 |
| 処理モダリティ | 4種類(テキスト/画像/動画/音声) |
2. アーキテクチャの詳細分析
Happy Horse 1.0の最も注目すべき設計上の選択は:統合されたセルフアテンションTransformerを使用してすべてのモダリティを処理することです——テキスト、画像、動画、音声がすべて1つのトークンシーケンスに連結され、クロスアテンションブランチも独立した音声モジュールも存在しません。これは現在主流のDiT(Diffusion Transformer)アーキテクチャと際立った対照をなしています。

両端の各4層がモダリティプロジェクションを担当し、中間の32層がパラメータを共有してクロスモーダル推論を処理します
アーキテクチャ詳細仕様
| コンポーネント | 仕様 |
|---|---|
| 総パラメータ数 | ~15B |
| アーキテクチャタイプ | 統合セルフアテンションTransformer(専用クロスアテンションブランチなし) |
| 総レイヤー数 | 40層 |
| レイヤー配置 | ”サンドイッチ”構造——最初の4層+最後の4層がモダリティ固有のプロジェクションを担当し、中間32層がモダリティ間で共有 |
| 処理モダリティ | テキスト、画像、動画、音声(単一のトークンシーケンスに連結) |
| マルチモーダル融合 | アテンションヘッドごとに学習可能なスカラーゲーティング(Sigmoid活性化) |
| 条件注入 | 参照画像とノイズ除去信号を最小限の統合インターフェース経由でルーティング、専用条件ブランチなし |
| タイムステップ処理 | 明示的なタイムステップ埋め込みなし——潜在変数のノイズレベルからノイズ除去状態を直接推定 |
| 蒸留手法 | DMD-2(Distribution Matching Distillation v2) |
| サンプリングステップ数 | 8ステップ、CFG不要 |
| 推論コンパイル | MagiCompiler(フルグラフコンパイル+オペレーター融合、エンドツーエンドで約1.2倍高速化) |
| 参照GPU | NVIDIA H100 80GB |
3. 5つの主要な設計選択の解説
なぜこれらのアーキテクチャ上の決定が注目に値するのか?1つずつ分解して説明します:
1. 統合セルフアテンション vs クロスアテンション
主流のソリューション(Wan 2.2、HunyuanVideo、LTX-2、CogVideoX)は、DiTバックボーン+独立したテキストエンコーダーからのクロスアテンションを使用して条件を注入し、音声は別のモデルで個別に生成します。
Happy Horseはすべてのモダリティを同じシーケンスにまとめ、アテンション自身にアライメントを学習させます。利点:音声と動画のアライメントがノイズ除去の基本的な構成要素となり、後処理ステップではなくなります。
2. サンドイッチレイヤー配置
両端の各4層がモダリティ固有のエンコード/デコードを処理し、中間の32層はすべてのモダリティ間でパラメータを共有します。ネットワーク容量の80%が独立したサブネットワークに分割されるのではなく、クロスモーダル推論に費やされます——究極のパラメータ効率です。
3. ヘッドごとのSigmoidゲーティング
音声+動画の同時学習時に勾配が互いに干渉しやすい——音声の損失が動画の勾配を抑制したり、その逆も起こり得ます。
解決策:各アテンションヘッドに学習可能なスカラーゲートを追加し、特定のモダリティに対して破壊的な勾配を生成するヘッドをモデルが自動的に抑制できるようにします。これが同時学習の安定性を保証する鍵となります。
4. タイムステップ埋め込みなし
従来の拡散モデルは、各レイヤーで「現在何ステップ目か」という埋め込みを受け取ります。Happy Horseはこれを完全に削除しています——その理由は、ノイズレベルがすでにノイズのある潜在変数にエンコードされているからです。これが、8ステップDMD-2蒸留が効果的に機能する前提条件の1つとされています。
5. DMD-2蒸留
標準的な動画拡散では25~50ステップ+CFG(分類器なしガイダンス)が必要で、推論コストが2~3倍になります。DMD-2はCFGなしの8ステップで教師モデルの出力分布に一致するように生徒モデルを学習させます。これが「38秒で1080p」を実現する基盤技術となっています。
4. 6つのコア機能
🎬🔊 ネイティブ音声・動画同時生成
これがHappy Horseの特徴を定義づける機能です。単一のTransformerが同じシーケンス内で動画と音声のトークンを同時にノイズ除去します。会話、効果音、環境音が1回の伝播で生成され、映像と自然にアライメントされます——別途の音声合成やリップシンクモデルは不要です。
現在のワークフローを考えてみてください:Wan 2.2で無音の動画を生成→別のモデルで音声を追加→リップシンクモデルで口の動きを合わせる。Happy Horseはこれを1ステップで実現すると謳っています。
📺 1080p HD出力
最大1080p解像度、複数のアスペクト比、5~10秒のクリップ長に対応。
🗣️ 6言語ネイティブリップシンク
英語、中国語(普通話)、日本語、韓国語、ドイツ語、フランス語に対応し、単語誤り率が低い。一部の情報源では7言語(広東語を含む)と記載されていますが、公式確認待ちです。
⚡ 38秒の超高速生成
H100上で1080pは約38秒、256pプレビューは約2秒。DMD-2蒸留によるCFG不要の8ステップサンプリングによって実現されています。
🔀 統合されたテキスト動画生成 & 画像動画生成
同じ重みセットでテキストから動画、画像から動画の両方をサポートし、モデルやパイプラインの切り替えは不要です。
📦 完全なオープンソースリリース計画
公開予定:ベースモデル、8ステップ蒸留モデル、超解像モジュール、推論コード。ライセンスは「完全なオープンソースで商用利用を許可」と記載されていますが、具体的な条項は公開されていません。
HappyHorse AI生成機能を体験
APIの公開を待つことなく、当社プラットフォームでHappyHorseモデルの強力な動画生成機能を今すぐ直接体験できます。