> ## Documentation Index
> Fetch the complete documentation index at: https://dripart-docs-recommend-assets-api.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Wan2.2-S2V 音声駆動型動画生成のための ComfyUI ネイティブワークフロー例

> これは、ComfyUI における Wan2.2-S2V 音声駆動型動画生成のネイティブワークフローの例です。

先進的な音声駆動型動画生成モデル「Wan2.2-S2V」が、ComfyUI でネイティブ対応となりました！この強力な AI モデルは、静止画像と音声入力をもとに、ダイナミックな動画コンテンツを生成します。対話、歌唱、パフォーマンスなど、さまざまなクリエイティブな用途に対応可能です。

**モデルの主な特長**

* **音声駆動型動画生成**: 静止画像と音声を同期した動画に変換
* **映画級の高品質出力**: 自然な表情や動きを伴う高精細動画を生成
* **分単位の動画生成**: 長尺動画の作成をサポート
* **多様なフォーマット対応**: 全身および上半身のキャラクターに対応
* **高度なモーション制御**: テキストによる指示で動作や背景環境を生成可能

Wan2.2 S2V ソースコード: [GitHub](https://github.com/aigc-apps/VideoX-Fun)\
Wan2.2 S2V モデル: [Hugging Face](https://huggingface.co/Wan-AI/Wan2.2-S2V-14B)

## Wan2.2 S2V の ComfyUI ネイティブワークフロー

<Tip>
  <Tabs>
    <Tab title="Portable or self deployed users">
      Make sure your ComfyUI is updated.

      * [Download ComfyUI](https://www.comfy.org/download)
      * [Update Guide](/installation/update_comfyui)

      Workflows in this guide can be found in the [Workflow Templates](/interface/features/template).
      If you can't find them in the template, your ComfyUI may be outdated. (Desktop version's update will delay sometime)

      If nodes are missing when loading a workflow, possible reasons:

      1. You are not using the latest ComfyUI version (Nightly version)
      2. Some nodes failed to import at startup
    </Tab>

    <Tab title="Desktop or Cloud users">
      * The Desktop is base on ComfyUI stable release, it will auto-update when there is a new Desktop stable release available.
      * [Cloud](https://cloud.comfy.org) will update after ComfyUI stable release.

      So, if you find any core node missing in this document, it might be because the new core nodes have not yet been released in the latest stable version. Please wait for the next stable release.
    </Tab>
  </Tabs>
</Tip>

### 1. ワークフローファイルのダウンロード

以下のワークフローファイルをダウンロードし、ComfyUI へドラッグ＆ドロップしてワークフローを読み込んでください。

<video controls className="w-full aspect-video" src="https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/video/wan/wan2.2_s2v/wan2.2-s2v.mp4" />

<a className="prose" target="_blank" href="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/refs/heads/main/templates/video_wan2_2_14B_s2v.json" style={{ display: 'inline-block', backgroundColor: '#0078D6', color: '#ffffff', padding: '10px 20px', borderRadius: '8px', borderColor: "transparent", textDecoration: 'none', fontWeight: 'bold'}}>
  <p className="prose" style={{ margin: 0, fontSize: "0.8rem" }}>JSON ワークフローをダウンロード</p>
</a>

<a className="prose" target="_blank" href="https://cloud.comfy.org/?template=video_wan2_2_14B_s2v&utm_source=docs" style={{ display: 'inline-block', backgroundColor: '#28A745', color: '#FFFFFF', padding: '10px 20px', borderRadius: '8px', borderColor: "transparent", textDecoration: 'none', fontWeight: 'bold'}}>
  <p className="prose" style={{ margin: 0, fontSize: "0.8rem" }}>Comfy Cloud で実行</p>
</a>

以下の画像および音声ファイルを入力としてダウンロードしてください:
![input](https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/video/wan/wan2.2_s2v/input.jpg)

<a className="prose" target="_blank" href="https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/video/wan/wan2.2_s2v/input_audio.MP3" style={{ display: 'inline-block', backgroundColor: '#0078D6', color: '#ffffff', padding: '10px 20px', borderRadius: '8px', borderColor: "transparent", textDecoration: 'none', fontWeight: 'bold'}}>
  <p className="prose" style={{ margin: 0, fontSize: "0.8rem" }}>入力音声をダウンロード</p>
</a>

### 2. モデルのダウンロードリンク

すべてのモデルは、[当社のリポジトリ](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged) から入手できます。

**diffusion\_models**

* [wan2.2\_s2v\_14B\_fp8\_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/diffusion_models/wan2.2_s2v_14B_fp8_scaled.safetensors)
* [wan2.2\_s2v\_14B\_bf16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/diffusion_models/wan2.2_s2v_14B_bf16.safetensors)

**audio\_encoders**

* [wav2vec2\_large\_english\_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/audio_encoders/wav2vec2_large_english_fp16.safetensors)

**vae**

* [wan\_2.1\_vae.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/vae/wan_2.1_vae.safetensors)

**text\_encoders**

* [umt5\_xxl\_fp8\_e4m3fn\_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors)

```
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_s2v_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_s2v_14B_bf16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   ├───📂 audio_encoders/ # フォルダーが存在しない場合は手動で作成してください
│   │   └─── wav2vec2_large_english_fp16.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors
```

### 3. ワークフローの操作手順

<img src="https://mintcdn.com/dripart-docs-recommend-assets-api/MUgHpdqqqd9RhR2b/images/tutorial/video/wan/wan_2.2_14b_s2v.jpg?fit=max&auto=format&n=MUgHpdqqqd9RhR2b&q=85&s=be6412418a23d964ba6bc15aa1aa66c4" alt="ワークフローの操作手順" width="4000" height="2131" data-path="images/tutorial/video/wan/wan_2.2_14b_s2v.jpg" />

#### 3.1 Lightning LoRA について

#### 3.2 fp8\_scaled および bf16 モデルについて

両方のモデルは、[こちらのページ](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models) から入手可能です：

* [wan2.2\_s2v\_14B\_fp8\_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/diffusion_models/wan2.2_s2v_14B_fp8_scaled.safetensors)
* [wan2.2\_s2v\_14B\_bf16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/diffusion_models/wan2.2_s2v_14B_bf16.safetensors)

本テンプレートでは `wan2.2_s2v_14B_fp8_scaled.safetensors` を使用しており、VRAM 使用量が少ないのが特徴です。ただし、品質劣化を抑えるために `wan2.2_s2v_14B_bf16.safetensors` を試すことも可能です。

#### 3.3 ステップごとの操作手順

**ステップ 1：モデルの読み込み**

1. **Diffusion モデルの読み込み**: `wan2.2_s2v_14B_fp8_scaled.safetensors` または `wan2.2_s2v_14B_bf16.safetensors` を読み込みます
   * 提供されているワークフローでは VRAM 使用量が少ない `wan2.2_s2v_14B_fp8_scaled.safetensors` を使用しています
   * ただし、品質劣化を抑えたい場合は `wan2.2_s2v_14B_bf16.safetensors` を試すことができます

2. **CLIP の読み込み**: `umt5_xxl_fp8_e4m3fn_scaled.safetensors` を読み込みます

3. **VAE の読み込み**: `wan_2.1_vae.safetensors` を読み込みます

4. **AudioEncoderLoader**: `wav2vec2_large_english_fp16.safetensors` を読み込みます

5. **LoraLoaderModelOnly**: `wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors`（Lightning LoRA）を読み込みます
   * Wan2.2 のすべての Lightning LoRA をテストしましたが、これは Wan2.2 S2V 専用に学習された LoRA ではないため、多くのキー値が一致しません。ただし、生成時間を大幅に短縮できるため、本テンプレートに含めています。今後も最適化を継続していきます
   * この LoRA を使用すると、動きの自然さおよび画質に著しい劣化が生じます
   * 出力品質が不十分と感じた場合は、元の 20 ステップワークフローをお試しください

6. **LoadAudio**: 提供済みの音声ファイル、またはユーザー自身の音声ファイルをアップロードします

7. **Load Image**: 参照用の画像をアップロードします

8. **バッチサイズ**: 追加する「Video S2V Extend」サブグラフノードの数に応じて設定します
   * 各「Video S2V Extend」サブグラフは、最終出力に 77 フレームを追加します
   * 例：「Video S2V Extend」サブグラフを 2 個追加した場合、バッチサイズは 3 に設定します（これは全サンプリング反復回数を意味します）
   * **Chunk Length**: デフォルト値の 77 のままにしてください

9. **サンプラー設定**: Lightning LoRA の使用有無に応じて異なる設定を選択します
   * 4 ステップ Lightning LoRA を使用する場合: `steps: 4`, `cfg: 1.0`
   * 4 ステップ Lightning LoRA を使用しない場合: `steps: 20`, `cfg: 6.0`

10. **サイズ設定**: 出力動画の解像度を設定します

11. **Video S2V Extend**: 動画拡張用のサブグラフノードです。デフォルトのサンプリングフレーム数は 77 であり、本モデルは 16fps であるため、各拡張により `77 / 16 = 4.8125` 秒の動画が生成されます
    * 入力音声の長さに合わせて「Video S2V Extend」サブグラフノードの数を計算する必要があります。例：入力音声が 14 秒の場合、必要な総フレーム数は `14 × 16 = 224`、各拡張は 77 フレームであるため、必要なノード数は `224 / 77 ≈ 2.9` → 切り上げて 3 個となります

12. `Ctrl + Enter` キーを押すか、\[実行] ボタンをクリックしてワークフローを実行します
