> ## Documentation Index
> Fetch the complete documentation index at: https://dripart-docs-recommend-assets-api.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# ComfyUI Wan2.1 動画生成のサンプル

> 「このガイドでは、ComfyUI で Wan2.1 Video を使用して動画の最初と最後のフレームを生成する方法を紹介します」

Wan2.1 Video シリーズは、アリババ社が 2025 年 2 月に [Apache 2.0 ライセンス](https://github.com/Wan-Video/Wan2.1?tab=Apache-2.0-1-ov-file) の下でオープンソース化した動画生成モデルです。\
このモデルには以下の 2 つのバージョンがあります：

* 14B（140 億パラメータ）
* 1.3B（13 億パラメータ）\
  テキストから動画を生成する「テキスト→動画（T2V）」や画像から動画を生成する「画像→動画（I2V）」など、複数のタスクに対応しています。\
  このモデルは既存のオープンソースモデルを性能面で上回るだけでなく、特に軽量版はわずか 8GB の VRAM で実行可能であり、導入ハードルを大幅に低減しています。

<video controls>
  <source src="https://github.com/user-attachments/assets/4aca6063-60bf-4953-bfb7-e265053f49ef" type="video/mp4" />
</video>

* [Wan2.1 コードリポジトリ](https://github.com/Wan-Video/Wan2.1)
* [Wan2.1 モデルリポジトリ](https://huggingface.co/Wan-AI)

<UpdateReminder />

## Wan2.1 ComfyUI ネイティブワークフローのサンプル

<Tip>
  サンプルを開始する前に、ComfyUI を最新版に更新し、ネイティブな Wan Video 対応が有効になっていることを確認してください。
</Tip>

## モデルのインストール

このガイドで言及されるすべてのモデルは、[こちら](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files) から入手できます。以下は、このガイドのサンプルで使用する共通のモデルであり、事前にダウンロードしておくことを推奨します：

**Text encoders** からいずれか 1 つのバージョンを選択してダウンロードしてください：

* [umt5\_xxl\_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp16.safetensors?download=true)
* [umt5\_xxl\_fp8\_e4m3fn\_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors?download=true)

**VAE**

* [wan\_2.1\_vae.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/vae/wan_2.1_vae.safetensors?download=true)

**CLIP Vision**

* [clip\_vision\_h.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/clip_vision/clip_vision_h.safetensors?download=true)

ファイルの保存先ディレクトリ構成：

```
ComfyUI/
├── models/
│   ├── diffusion_models/
│   ├── ...                  # 各ワークフローに応じて対応するモデルを配置します
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│   └── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors   
```

<Note>
  diffusion モデルについては、本ガイドでは fp16 精度のモデルを使用します。これは bf16 版と比較して性能が優れているためです。他の精度のモデルが必要な場合は、[こちら](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models) からダウンロードしてください。
</Note>

## Wan2.1 テキスト→動画（T2V）ワークフロー

ワークフローを開始する前に、[wan2.1\_t2v\_1.3B\_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/diffusion_models/wan2.1_t2v_1.3B_fp16.safetensors?download=true) をダウンロードし、`ComfyUI/models/diffusion_models/` ディレクトリに保存してください。

> 他の T2V 精度バージョンが必要な場合は、[こちら](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models) からダウンロードしてください。

### 1. ワークフローファイルのダウンロード

以下のファイルをダウンロードし、ComfyUI にドラッグ＆ドロップして、対応するワークフローを読み込んでください：

![Wan2.1 テキスト→動画ワークフロー](https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/wan2.1/wan2.1_t2v_1.3b.webp)

### 2. ワークフローをステップごとに実行

<img src="https://mintcdn.com/dripart-docs-recommend-assets-api/19pHMF3x9dkLUPc9/images/tutorial/video/wan/wan2.1_t2v_1.3b_flow_diagram.jpg?fit=max&auto=format&n=19pHMF3x9dkLUPc9&q=85&s=8d2bf9b42876fb6675dc09d0b5467531" alt="ComfyUI Wan2.1 ワークフロー手順" width="1901" height="1616" data-path="images/tutorial/video/wan/wan2.1_t2v_1.3b_flow_diagram.jpg" />

1. `Load Diffusion Model` ノードが `wan2.1_t2v_1.3B_fp16.safetensors` モデルを正しく読み込んでいることを確認してください
2. `Load CLIP` ノードが `umt5_xxl_fp8_e4m3fn_scaled.safetensors` モデルを正しく読み込んでいることを確認してください
3. `Load VAE` ノードが `wan_2.1_vae.safetensors` モデルを正しく読み込んでいることを確認してください
4. （任意）必要に応じて、`EmptyHunyuanLatentVideo` ノードで動画の解像度を変更できます
5. （任意）プロンプト（ポジティブ／ネガティブ）を変更したい場合は、番号 `5` の `CLIP Text Encoder` ノードで編集してください
6. `Run` ボタンをクリックするか、ショートカットキー `Ctrl（Mac の場合 Cmd） + Enter` を押して動画生成を実行してください

## Wan2.1 画像→動画（I2V）ワークフロー

**Wan Video では 480P と 720P のモデルが別々に提供されているため**、本ガイドではそれぞれの解像度について個別にサンプルを示します。モデルが異なることに加え、若干のパラメーター設定の違いもあります。

### 480P バージョン

#### 1. ワークフローおよび入力画像

以下の画像をダウンロードし、ComfyUI にドラッグ＆ドロップして対応するワークフローを読み込んでください：\
![Wan2.1 画像→動画ワークフロー（14B、480P）の入力画像サンプル](https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/wan2.1/wan2.1_i2v_14b_480P.webp)

入力として以下の画像を使用します：

![Wan2.1 画像→動画ワークフロー（14B、480P）の入力画像サンプル](https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/wan2.1/input/flux_dev_example.png)

#### 2. モデルのダウンロード

[wan2.1\_i2v\_480p\_14B\_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/diffusion_models/wan2.1_i2v_480p_14B_fp16.safetensors?download=true) をダウンロードし、`ComfyUI/models/diffusion_models/` ディレクトリに保存してください。

#### 3. ワークフローをステップごとに実行

<img src="https://mintcdn.com/dripart-docs-recommend-assets-api/19pHMF3x9dkLUPc9/images/tutorial/video/wan/wan2.1_i2v_14b_480p_flow_diagram.jpg?fit=max&auto=format&n=19pHMF3x9dkLUPc9&q=85&s=83eaf0c796355cfb0af986e2375960a0" alt="ComfyUI Wan2.1 ワークフロー手順" width="2318" height="1616" data-path="images/tutorial/video/wan/wan2.1_i2v_14b_480p_flow_diagram.jpg" />

1. `Load Diffusion Model` ノードが `wan2.1_i2v_480p_14B_fp16.safetensors` モデルを正しく読み込んでいることを確認してください
2. `Load CLIP` ノードが `umt5_xxl_fp8_e4m3fn_scaled.safetensors` モデルを正しく読み込んでいることを確認してください
3. `Load VAE` ノードが `wan_2.1_vae.safetensors` モデルを正しく読み込んでいることを確認してください
4. `Load CLIP Vision` ノードが `clip_vision_h.safetensors` モデルを正しく読み込んでいることを確認してください
5. `Load Image` ノードで提供された入力画像をアップロードしてください
6. （任意）生成したい動画の説明文を `CLIP Text Encoder` ノードに入力してください
7. （任意）必要に応じて、`WanImageToVideo` ノードで動画の解像度を変更できます
8. `Run` ボタンをクリックするか、ショートカットキー `Ctrl（Mac の場合 Cmd） + Enter` を押して動画生成を実行してください

### 720P バージョン

#### 1. ワークフローおよび入力画像

以下の画像をダウンロードし、ComfyUI にドラッグ＆ドロップして対応するワークフローを読み込んでください：\
![Wan2.1 画像→動画ワークフロー（14B、720P）の入力画像サンプル](https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/wan2.1/wan2.1_i2v_14b_720P.webp)

入力として以下の画像を使用します：

![Wan2.1 画像→動画ワークフロー（14B、720P）の入力画像サンプル](https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/wan2.1/input/magician.png)

#### 2. モデルのダウンロード

[wan2.1\_i2v\_720p\_14B\_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/diffusion_models/wan2.1_i2v_720p_14B_fp16.safetensors?download=true) をダウンロードし、`ComfyUI/models/diffusion_models/` ディレクトリに保存してください。

#### 3. ワークフローをステップごとに実行

<img src="https://mintcdn.com/dripart-docs-recommend-assets-api/19pHMF3x9dkLUPc9/images/tutorial/video/wan/wan2.1_i2v_14b_720p_flow_diagram.jpg?fit=max&auto=format&n=19pHMF3x9dkLUPc9&q=85&s=967270be37337ef0ab8339876dfe2604" alt="ComfyUI Wan2.1 ワークフロー手順" width="2318" height="1548" data-path="images/tutorial/video/wan/wan2.1_i2v_14b_720p_flow_diagram.jpg" />

1. `Load Diffusion Model` ノードが `wan2.1_i2v_720p_14B_fp16.safetensors` モデルを正しく読み込んでいることを確認してください
2. `Load CLIP` ノードが `umt5_xxl_fp8_e4m3fn_scaled.safetensors` モデルを正しく読み込んでいることを確認してください
3. `Load VAE` ノードが `wan_2.1_vae.safetensors` モデルを正しく読み込んでいることを確認してください
4. `Load CLIP Vision` ノードが `clip_vision_h.safetensors` モデルを正しく読み込んでいることを確認してください
5. `Load Image` ノードで提供された入力画像をアップロードしてください
6. （任意）生成したい動画の説明文を `CLIP Text Encoder` ノードに入力してください
7. （任意）必要に応じて、`WanImageToVideo` ノードで動画の解像度を変更できます
8. `Run` ボタンをクリックするか、ショートカットキー `Ctrl（Mac の場合 Cmd） + Enter` を押して動画生成を実行してください
