impactframes's picture
Duplicate from camenduru/text-to-video-synthesis
8985c3d verified
|
raw
history blame
3.43 kB
metadata
tasks:
  - text-to-video-synthesis
widgets:
  - task: text-to-video-synthesis
    inputs:
      - type: text
        name: text
        title: 输入英文prompt
        validator:
          max_words: 75
    examples:
      - name: 1
        title: 示例1
        inputs:
          - name: text
            data: A panda eating bamboo on a rock.
    inferencespec:
      cpu: 4
      memory: 16000
      gpu: 1
      gpu_memory: 32000
domain:
  - multi-modal
frameworks:
  - pytorch
backbone:
  - diffusion
metrics:
  - realism
  - text-video similarity
license: Apache License 2.0
tags:
  - text2video generation
  - diffusion model
  - 文到视频
  - 文生视频
  - 文本生成视频
  - 生成

文本生成视频大模型-英文-通用领域

本模型基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。

模型描述

文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

期望模型使用方式以及适用范围

本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。

如何使用

在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为'text',内容为一小段文本。该模型暂仅支持在GPU上进行推理。输入具体代码示例如下:

补充运行环境

pip install open_clip_torch

代码范例

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys

p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

模型局限性以及可能的偏差

  • 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。
  • 该模型无法实现完美的影视级生成。
  • 该模型无法生成清晰的文本。
  • 该模型主要是用英文语料训练的,暂不支持其他语言。
  • 该模型在复杂的组合性生成任务上表现有待提升。

滥用、恶意使用和超出范围的使用

  • 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
  • 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
  • 禁止用于涉黄、暴力和血腥内容生成。
  • 禁止用于错误和虚假信息生成。

训练数据介绍

训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。

相关论文以及引用信息

@misc{rombach2021highresolution,
      title={High-Resolution Image Synthesis with Latent Diffusion Models}, 
      author={Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Björn Ommer},
      year={2021},
      eprint={2112.10752},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}