metadata

tasks:
  - text-to-video-synthesis
widgets:
  - task: text-to-video-synthesis
    inputs:
      - type: text
        name: text
        title: 输入英文prompt
        validator:
          max_words: 75
    examples:
      - name: 1
        title: 示例1
        inputs:
          - name: text
            data: A panda eating bamboo on a rock.
    inferencespec:
      cpu: 4
      memory: 16000
      gpu: 1
      gpu_memory: 32000
domain:
  - multi-modal
frameworks:
  - pytorch
backbone:
  - diffusion
metrics:
  - realism
  - text-video similarity
license: Apache License 2.0
tags:
  - text2video generation
  - diffusion model
  - 文到视频
  - 文生视频
  - 文本生成视频
  - 生成

文本生成视频大模型-英文-通用领域

本模型基于多阶段文本到视频生成扩散模型, 输入描述文本，返回符合文本描述的视频。仅支持英文输入。

模型描述

文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

期望模型使用方式以及适用范围

本模型适用范围较广，能基于任意英文文本描述进行推理，生成视频。

如何使用

在ModelScope框架下，通过调用简单的Pipeline即可使用当前模型，其中，输入需为字典格式，合法键值为'text'，内容为一小段文本。该模型暂仅支持在GPU上进行推理。输入具体代码示例如下：

补充运行环境

pip install open_clip_torch

代码范例

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys

p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

模型局限性以及可能的偏差

模型基于Webvid等公开数据集进行训练，生成结果可能会存在与训练数据分布相关的偏差。
该模型无法实现完美的影视级生成。
该模型无法生成清晰的文本。
该模型主要是用英文语料训练的，暂不支持其他语言。
该模型在复杂的组合性生成任务上表现有待提升。

滥用、恶意使用和超出范围的使用

该模型未经过训练以真实地表示人或事件，因此使用该模型生成此类内容超出了该模型的能力范围。
禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
禁止用于涉黄、暴力和血腥内容生成。
禁止用于错误和虚假信息生成。

训练数据介绍

训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。

impactframes
/

text-to-Video