HappyHorse
部落格

Happy Horse 1.0 深度解析:15B參數統一Transformer,原生影音聯合生成的AI影片新物種

HappyHorse 團隊
Happy Horse 1.0 深度解析:15B參數統一Transformer,原生影音聯合生成的AI影片新物種

如果你關注AI影片生成領域,最近可能注意到了一個反常現象——在Artificial Analysis Video Arena的盲評對戰中,一個代號不明的「神祕模型」悄悄上線,與字節跳動、Kling、Google等大廠的前沿閉源模型匿名並列,且它有一個其他選手都沒有的特徵:原生音訊輸出。

社群很快挖出了它的名字——Happy Horse 1.0。一個尚未正式開源、沒有公開權重、沒有官方技術報告的AI影片生成器,卻已經在架構設計上展現出與當前主流方案截然不同的思路。

重要聲明:Happy Horse 1.0截至本文撰寫時尚未正式開源。以下所有技術資訊均來自社群整理的架構筆記、疑似外洩資料和專案落地頁,可信但未經官方確認。

1. 核心數據一覽

先上硬指標,讓你對Happy Horse 1.0有個整體感知:

指標數值
總參數量~15B(約150億)
Transformer層數40層
取樣步數8步(無需CFG)
1080p生成時間~38秒(H100)
唇形同步語言6種
處理模態4種(文字/圖像/影片/音訊)

2. 架構深度拆解

Happy Horse 1.0最引人注目的設計選擇是:用一個統一的自注意力Transformer處理所有模態——文字、圖像、影片、音訊全部拼接為一個token序列,沒有交叉注意力分支,沒有獨立音訊模組。這與當前主流的DiT(Diffusion Transformer)架構形成了鮮明對比。

Happy Horse 1.0「三明治」架構總覽

首尾各4層做模態投影,中間32層共享參數處理跨模態推理

架構詳細規格

元件規格
總參數量~15B
架構類型統一自注意力Transformer(無專用交叉注意力分支)
總層數40層
層布局「三明治」結構——前4層+後4層模態特定投影,中間32層跨模態共享
處理模態文字、圖像、影片、音訊(拼接為單一token序列)
多模態融合每注意力頭可學習純量閘控(Sigmoid啟用)
條件注入參考圖像和去雜訊訊號透過最小化統一介面路由,無專用條件分支
時間步處理無顯式時間步嵌入——直接從latent雜訊層級推斷去雜訊狀態
蒸餾方法DMD-2(Distribution Matching Distillation v2)
取樣步數8步,無需CFG
推理編譯MagiCompiler(全圖編譯+運算子融合,~1.2×端到端加速)
參考GPUNVIDIA H100 80GB

3. 五大關鍵設計選擇解讀

為什麼這些架構決策值得關注?逐一拆解:

1. 統一自注意力 vs 交叉注意力

主流方案(Wan 2.2、HunyuanVideo、LTX-2、CogVideoX)用DiT骨幹+獨立文字編碼器的交叉注意力注入條件,音訊由另一個模型單獨生成。

Happy Horse把所有模態塞進同一序列,讓注意力自己學會對齊。好處:影音對齊成為去雜訊的基本組成部分,而非後處理步驟。

2. 三明治層布局

首尾各4層做模態特定的編碼/解碼,中間32層在所有模態間共享參數。網路80%的容量用於跨模態推理,而非被分割成獨立子網路——極致的參數效率。

3. 每頭Sigmoid閘控

聯合訓練音訊+影片時梯度容易互相干擾——音訊損失可能壓抑影片梯度,反之亦然。

解法:每個注意力頭加一個可學習純量閘門,讓模型自動抑制對特定模態產生破壞性梯度的頭。這是保證聯合訓練穩定性的關鍵。

4. 無時間步嵌入

傳統擴散模型每層都接收一個「我現在在第幾步」的嵌入。Happy Horse直接省掉了——理由是雜訊層級已經編碼在含雜訊的latent裡了。這被描述為8步DMD-2蒸餾能生效的先決條件之一。

5. DMD-2蒸餾

標準影片擴散要25-50步+CFG(無分類器引導),推理成本翻2-3倍。DMD-2訓練學生模型用8步且無CFG匹配教師輸出分布。這就是「38秒出1080p」的底層技術支撐。

4. 六大核心功能

🎬🔊 原生聯合影音生成

這是Happy Horse的定義性特徵。單一Transformer在同一序列中同時對影片和音訊token去雜訊。對話、擬音、環境音一次傳播生成,與畫面天然對齊——不需要單獨配音或唇同步模型。

想想現在的工作流:先用Wan 2.2生成無聲影片→再用另一個模型配音→再用唇同步模型對嘴型。Happy Horse宣稱一步到位。

📺 1080p高清輸出

支援最高1080p解析度,多種畫面比例,片段長度5-10秒。

🗣️ 6語言原生唇形同步

英語、普通話、日語、韓語、德語、法語,低詞錯率。部分行銷資料提到7種(含粵語),待官方確認。

⚡ 38秒極速生成

H100上1080p約38秒,256p預覽約2秒。得益於DMD-2蒸餾的8步無CFG取樣。

🔀 統一文字轉影片 & 圖像轉影片

同一套權重支援text-to-video和image-to-video,無需切換模型或管線。

📦 完整開源發布計畫

公告將發布:基礎模型、蒸餾8步模型、超解析度模組、推理程式碼。授權聲稱「完全開源且允許商業使用」,但具體條款未公佈。


體驗HappyHorse AI生成能力

現在你可以直接在我們的平台體驗HappyHorse模型的強大影片生成能力,無需等待API開放。