metadata
tasks:
- text-to-video-synthesis
widgets:
- task: text-to-video-synthesis
inputs:
- type: text
name: text
title: 输入英文prompt
validator:
max_words: 75
examples:
- name: 1
title: 示例1
inputs:
- name: text
data: A panda eating bamboo on a rock.
inferencespec:
cpu: 4
memory: 16000
gpu: 1
gpu_memory: 32000
domain:
- multi-modal
frameworks:
- pytorch
backbone:
- diffusion
metrics:
- realism
- text-video similarity
license: Apache License 2.0
tags:
- text2video generation
- diffusion model
- 文到视频
- 文生视频
- 文本生成视频
- 生成
文本生成视频大模型-英文-通用领域
本模型基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。
模型描述
文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
期望模型使用方式以及适用范围
本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。
如何使用
在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为'text',内容为一小段文本。该模型暂仅支持在GPU上进行推理。输入具体代码示例如下:
补充运行环境
pip install open_clip_torch
代码范例
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
'text': 'A panda eating bamboo on a rock.',
}
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)
模型局限性以及可能的偏差
- 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。
- 该模型无法实现完美的影视级生成。
- 该模型无法生成清晰的文本。
- 该模型主要是用英文语料训练的,暂不支持其他语言。
- 该模型在复杂的组合性生成任务上表现有待提升。
滥用、恶意使用和超出范围的使用
- 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
- 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
- 禁止用于涉黄、暴力和血腥内容生成。
- 禁止用于错误和虚假信息生成。
训练数据介绍
训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。
相关论文以及引用信息
@misc{rombach2021highresolution,
title={High-Resolution Image Synthesis with Latent Diffusion Models},
author={Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Björn Ommer},
year={2021},
eprint={2112.10752},
archivePrefix={arXiv},
primaryClass={cs.CV}
}