> ## Documentation Index
> Fetch the complete documentation index at: https://dripart-docs-recommend-assets-api.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# WanInfiniteTalkToVideo - ComfyUI Built-in Node Documentation

> Complete documentation for the WanInfiniteTalkToVideo node in ComfyUI. Learn its inputs, outputs, parameters and usage.

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/WanInfiniteTalkToVideo/zh.md)

WanInfiniteTalkToVideo 节点可从音频输入生成视频序列。它使用视频扩散模型，以从一个或两个说话者提取的音频特征为条件，生成说话人视频的潜在表示。该节点可以生成新序列，或使用先前帧作为运动上下文来扩展现有序列。

## 输入参数

| 参数                       | 数据类型               | 必填 | 取值范围                                     | 描述                                                                     |
| ------------------------ | ------------------ | -- | ---------------------------------------- | ---------------------------------------------------------------------- |
| `mode`                   | COMBO              | 是  | `"single_speaker"`<br />`"two_speakers"` | 音频输入模式。`"single_speaker"` 使用一个音频输入。`"two_speakers"` 启用第二个说话者的输入及相应的遮罩。 |
| `model`                  | MODEL              | 是  | -                                        | 基础视频扩散模型。                                                              |
| `model_patch`            | MODELPATCH         | 是  | -                                        | 包含音频投影层的模型补丁。                                                          |
| `positive`               | CONDITIONING       | 是  | -                                        | 用于引导生成的正向条件。                                                           |
| `negative`               | CONDITIONING       | 是  | -                                        | 用于引导生成的负向条件。                                                           |
| `vae`                    | VAE                | 是  | -                                        | 用于在图像和潜在空间之间进行编码的 VAE。                                                 |
| `width`                  | INT                | 否  | 16 - MAX\_RESOLUTION                     | 输出视频的宽度（像素）。必须能被 16 整除。（默认值：832）                                       |
| `height`                 | INT                | 否  | 16 - MAX\_RESOLUTION                     | 输出视频的高度（像素）。必须能被 16 整除。（默认值：480）                                       |
| `length`                 | INT                | 否  | 1 - MAX\_RESOLUTION                      | 要生成的帧数。（默认值：81）                                                        |
| `clip_vision_output`     | CLIPVISIONOUTPUT   | 否  | -                                        | 用于附加条件的可选 CLIP 视觉输出。                                                   |
| `start_image`            | IMAGE              | 否  | -                                        | 用于初始化视频序列的可选起始图像。                                                      |
| `audio_encoder_output_1` | AUDIOENCODEROUTPUT | 是  | -                                        | 包含第一个说话者特征的主音频编码器输出。                                                   |
| `motion_frame_count`     | INT                | 否  | 1 - 33                                   | 扩展现有序列时，用作运动上下文的先前帧数。（默认值：9）                                           |
| `audio_scale`            | FLOAT              | 否  | -10.0 - 10.0                             | 应用于音频条件的缩放因子。（默认值：1.0）                                                 |
| `previous_frames`        | IMAGE              | 否  | -                                        | 用于扩展的可选先前视频帧。                                                          |
| `audio_encoder_output_2` | AUDIOENCODEROUTPUT | 否  | -                                        | 第二个音频编码器输出。当 `mode` 设置为 `"two_speakers"` 时必须提供。                        |
| `mask_1`                 | MASK               | 否  | -                                        | 第一个说话者的遮罩，使用两个音频输入时必须提供。                                               |
| `mask_2`                 | MASK               | 否  | -                                        | 第二个说话者的遮罩，使用两个音频输入时必须提供。                                               |

**参数约束：**

* 当 `mode` 设置为 `"two_speakers"` 时，参数 `audio_encoder_output_2`、`mask_1` 和 `mask_2` 变为必填项。
* 如果提供了 `audio_encoder_output_2`，则必须同时提供 `mask_1` 和 `mask_2`。
* 如果提供了 `mask_1` 和 `mask_2`，则必须同时提供 `audio_encoder_output_2`。
* 如果提供了 `previous_frames`，则其包含的帧数必须至少等于 `motion_frame_count` 指定的数量。

## 输出参数

| 输出名称         | 数据类型         | 描述                                    |
| ------------ | ------------ | ------------------------------------- |
| `model`      | MODEL        | 应用了音频条件处理的修补后模型。                      |
| `positive`   | CONDITIONING | 正向条件，可能已根据附加上下文（例如起始图像、CLIP 视觉）进行了修改。 |
| `negative`   | CONDITIONING | 负向条件，可能已根据附加上下文进行了修改。                 |
| `latent`     | LATENT       | 潜在空间中生成的视频序列。                         |
| `trim_image` | INT          | 扩展现有序列时，应从运动上下文开始处裁剪的帧数。              |