--- tasks: - text-to-video-synthesis widgets: - task: text-to-video-synthesis inputs: - type: text name: text title: 输入英文prompt validator: max_words: 75 examples: - name: 1 title: 示例1 inputs: - name: text data: A panda eating bamboo on a rock. inferencespec: cpu: 4 memory: 16000 gpu: 1 gpu_memory: 32000 domain: - multi-modal frameworks: - pytorch backbone: - diffusion metrics: - realism - text-video similarity license: Apache License 2.0 tags: - text2video generation - diffusion model - 文到视频 - 文生视频 - 文本生成视频 - 生成 --- # 文本生成视频大模型-英文-通用领域 本模型基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。 ## 模型描述 文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。 ### 期望模型使用方式以及适用范围 本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。 ### 如何使用 在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为'text',内容为一小段文本。该模型暂仅支持在GPU上进行推理。输入具体代码示例如下: #### 补充运行环境 ```shell pip install open_clip_torch ``` #### 代码范例 ```python from modelscope.pipelines import pipeline from modelscope.outputs import OutputKeys p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis') test_text = { 'text': 'A panda eating bamboo on a rock.', } output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO] print('output_video_path:', output_video_path) ``` ### 模型局限性以及可能的偏差 * 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。 * 该模型无法实现完美的影视级生成。 * 该模型无法生成清晰的文本。 * 该模型主要是用英文语料训练的,暂不支持其他语言。 * 该模型在复杂的组合性生成任务上表现有待提升。 ### 滥用、恶意使用和超出范围的使用 * 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。 * 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。 * 禁止用于涉黄、暴力和血腥内容生成。 * 禁止用于错误和虚假信息生成。 ## 训练数据介绍 训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。 ## 相关论文以及引用信息 ```BibTeX @misc{rombach2021highresolution, title={High-Resolution Image Synthesis with Latent Diffusion Models}, author={Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Björn Ommer}, year={2021}, eprint={2112.10752}, archivePrefix={arXiv}, primaryClass={cs.CV} } ```