Happy Horse 1.0 심층 분석: 15B 파라미터 통합 트랜스포머, 네이티브 오디오-비디오 동시 생성 AI 비디오 신종
AI 비디오 생성 분야에 관심이 있다면 최근 특이한 현상을 발견했을 수 있습니다——Artificial Analysis Video Arena의 블라인드 평가 배틀에서 정체 불명의 “미스터리 모델”이 조용히 등장해 바이트댄스, Kling, 구글 등 대기업의 최첨단 클로즈드 소스 모델과 익명으로 나란히 있으며 다른 참가자에게는 없는 특징을 가지고 있습니다: 네이티브 오디오 출력.
커뮤니티는 곧 그 이름을 밝혀냈습니다——Happy Horse 1.0. 아직 공식 오픈소스화되지 않았고 공개된 가중치도 공식 기술 보고서도 없는 AI 비디오 생성기이지만, 아키텍처 설계에서 현재 주류 솔루션과 완전히 다른 접근 방식을 보여주고 있습니다.
중요 공지: 본문 작성 시점에서 Happy Horse 1.0은 공식적으로 오픈소스화되지 않았습니다. 아래의 모든 기술 정보는 커뮤니티가 정리한 아키텍처 노트, 유출 의심 자료, 프로젝트 랜딩 페이지에서 가져온 것으로 신뢰할 수 있지만 공식 확인은 되지 않았습니다.
1. 핵심 데이터 개요
먼저 하드 지표를 통해 Happy Horse 1.0에 대한 전반적인 이해를 돕겠습니다:
| 지표 | 값 |
|---|---|
| 총 파라미터 수 | ~15B (약 150억) |
| 트랜스포머 레이어 수 | 40층 |
| 샘플링 스텝 수 | 8스텝 (CFG 불필요) |
| 1080p 생성 시간 | ~38초 (H100) |
| 립싱크 지원 언어 | 6개 언어 |
| 처리 모달리티 | 4가지 (텍스트/이미지/비디오/오디오) |
2. 아키텍처 심층 분석
Happy Horse 1.0의 가장 주목할 만한 설계 선택은: 통합된 셀프 어텐션 트랜스포머를 사용해 모든 모달리티를 처리하는 것입니다——텍스트, 이미지, 비디오, 오디오가 모두 하나의 토큰 시퀀스로 연결되어 있고 크로스 어텐션 브랜치도 독립된 오디오 모듈도 없습니다. 이는 현재 주류인 DiT (Diffusion Transformer) 아키텍처와 뚜렷한 대조를 이룹니다.

양 끝의 각 4층이 모달리티 프로젝션을 담당하고 중간 32층은 파라미터를 공유해 크로스 모달 추론을 처리합니다
아키텍처 상세 사양
| 구성 요소 | 사양 |
|---|---|
| 총 파라미터 수 | ~15B |
| 아키텍처 유형 | 통합 셀프 어텐션 트랜스포머 (전용 크로스 어텐션 브랜치 없음) |
| 총 레이어 수 | 40층 |
| 레이어 배치 | ”샌드위치” 구조——앞 4층 + 뒤 4층이 모달리티 특화 프로젝션을 담당하고 중간 32층은 모달리티 간 공유 |
| 처리 모달리티 | 텍스트, 이미지, 비디오, 오디오 (단일 토큰 시퀀스로 연결) |
| 멀티모달 퓨전 | 어텐션 헤드당 학습 가능한 스칼라 게이팅 (Sigmoid 활성화) |
| 조건 주입 | 참조 이미지와 노이즈 제거 신호를 최소화된 통합 인터페이스를 통해 라우팅, 전용 조건 브랜치 없음 |
| 타임스텝 처리 | 명시적인 타임스텝 임베딩 없음——잠재 변수 노이즈 수준에서 노이즈 제거 상태를 직접 추론 |
| 증류 기법 | DMD-2 (Distribution Matching Distillation v2) |
| 샘플링 스텝 수 | 8스텝, CFG 불필요 |
| 추론 컴파일 | MagiCompiler (전체 그래프 컴파일 + 연산자 융합, 엔드투엔드 약 1.2배 가속) |
| 참조 GPU | NVIDIA H100 80GB |
3. 5가지 주요 설계 선택 해설
왜 이런 아키텍처 결정이 주목할 만한 것일까요? 하나씩 분해해 설명하겠습니다:
1. 통합 셀프 어텐션 vs 크로스 어텐션
주류 솔루션(Wan 2.2, HunyuanVideo, LTX-2, CogVideoX)은 DiT 백본 + 독립 텍스트 인코더의 크로스 어텐션을 사용해 조건을 주입하고 오디오는 다른 모델에서 별도로 생성합니다.
Happy Horse는 모든 모달리티를 같은 시퀀스에 넣고 어텐션이 스스로 정렬을 학습하도록 합니다. 장점: 오디오-비디오 정렬이 노이즈 제거의 기본 구성 요소가 되어 후처리 단계가 아닙니다.
2. 샌드위치 레이어 배치
양 끝의 각 4층이 모달리티 특화 인코딩/디코딩을 처리하고 중간 32층은 모든 모달리티 간에 파라미터를 공유합니다. 네트워크 용량의 80%가 독립된 서브넷으로 분할되지 않고 크로스 모달 추론에 사용됩니다——극단적인 파라미터 효율성입니다.
3. 헤드당 Sigmoid 게이팅
오디오+비디오 동시 학습 시 기울기가 서로 간섭하기 쉽습니다——오디오 손실이 비디오 기울기를 억제하거나 그 반대가 발생할 수 있습니다.
해결책: 각 어텐션 헤드에 학습 가능한 스칼라 게이트를 추가해 특정 모달리티에 대해 파괴적인 기울기를 생성하는 헤드를 모델이 자동으로 억제할 수 있도록 합니다. 이것이 동시 학습 안정성을 보장하는 핵심입니다.
4. 타임스텝 임베딩 없음
기존 확산 모델은 각 레이어에서 “현재 몇 스텝인지”에 대한 임베딩을 받습니다. Happy Horse는 이를 완전히 제거했습니다——그 이유는 노이즈 수준이 이미 노이즈가 있는 잠재 변수에 인코딩되어 있기 때문입니다. 이것이 8스텝 DMD-2 증류가 효과적으로 작동하는 전제 조건 중 하나로 설명됩니다.
5. DMD-2 증류
표준 비디오 확산은 2550스텝 + CFG(분류기 없는 가이던스)가 필요해 추론 비용이 23배 증가합니다. DMD-2는 CFG 없는 8스텝으로 교사 모델의 출력 분포와 일치하도록 학생 모델을 학습시킵니다. 이것이 “38초 만에 1080p”를 가능하게 하는 기반 기술입니다.
4. 6가지 핵심 기능
🎬🔊 네이티브 오디오-비디오 동시 생성
이것이 Happy Horse의 정의적인 특징입니다. 단일 트랜스포머가 같은 시퀀스 내에서 비디오와 오디오 토큰을 동시에 노이즈 제거합니다. 대화, 효과음, 환경음이 한 번의 전파로 생성되어 영상과 자연스럽게 정렬됩니다——별도의 음성 합성이나 립싱크 모델이 필요 없습니다.
현재 워크플로우를 생각해 보세요: Wan 2.2로 무음 비디오 생성 → 다른 모델로 음성 추가 → 립싱크 모델로 입 모양 맞추기. Happy Horse는 이를 한 번의 단계로 해결한다고 주장합니다.
📺 1080p HD 출력
최대 1080p 해상도, 여러 가지 종횡비, 5~10초 클립 길이를 지원합니다.
🗣️ 6개 언어 네이티브 립싱크
영어, 중국어(표준어), 일본어, 한국어, 독일어, 프랑스어를 지원하며 단어 오류율이 낮습니다. 일부 자료에서는 7개 언어(광둥어 포함)를 언급하지만 공식 확인이 필요합니다.
⚡ 38초 초고속 생성
H100에서 1080p는 약 38초, 256p 미리보기는 약 2초가 소요됩니다. DMD-2 증류를 통한 CFG 없는 8스텝 샘플링 덕분입니다.
🔀 통합 텍스트-비디오 & 이미지-비디오 생성
동일한 가중치 세트로 텍스트에서 비디오, 이미지에서 비디오 생성을 모두 지원하며 모델이나 파이프라인 전환이 필요 없습니다.
📦 완전한 오픈소스 릴리스 계획
공개 예정: 기본 모델, 8스텝 증류 모델, 초해상도 모듈, 추론 코드. 라이선스는 “완전한 오픈소스이며 상업적 사용 허용”이라고 명시되어 있지만 구체적인 조항은 공개되지 않았습니다.
HappyHorse AI 생성 기능 체험
API 공개를 기다릴 필요 없이 저희 플랫폼에서 HappyHorse 모델의 강력한 비디오 생성 기능을 지금 바로 직접 체험할 수 있습니다.