tsinghua-ee
/

video-SALMONN-2

Video-Text-to-Text

text-generation

text-generation-inference

Model card Files Files and versions

DragonAura commited on Jul 3

Commit

b91c40b

·

verified ·

1 Parent(s): c8d970d

Update README.md

Files changed (1) hide show

README.md +21 -3

README.md CHANGED Viewed

@@ -1,3 +1,21 @@
----
-license: apache-2.0
----

+---
+license: apache-2.0
+datasets:
+- HuggingFaceFV/finevideo
+- lmms-lab/LLaVA-Video-178K
+- ShareGPT4Video/ShareGPT4Video
+language:
+- en
+metrics:
+- accuracy
+base_model:
+- Qwen/Qwen2-7B
+- lmms-lab/llava-onevision-qwen2-7b-ov
+- openai/whisper-large-v3
+pipeline_tag: video-text-to-text
+library_name: transformers
+---
+# video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models
+Official model release of [video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models](https://github.com/bytedance/video-SALMONN-2)