Spaces:
Build error
Build error
tech-report cn (#16)
Browse files- README_zh-CN.md +14 -1
README_zh-CN.md
CHANGED
@@ -4,7 +4,7 @@
|
|
4 |
|
5 |
基于开源多模态模型 [OpenFlamingo](https://github.com/mlfoundations/open_flamingo),我们使用公开数据集创建了各种**视觉指令**数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,我们还使用仅包含**语言指令**数据的语言模型组件进行了训练。
|
6 |
|
7 |
-
|
8 |
|
9 |
欢迎加入我们!
|
10 |
|
@@ -176,3 +176,16 @@ torchrun --nproc_per_node=8 mmgpt/train/instruction_finetune.py \
|
|
176 |
- [MiniGPT-4](https://github.com/Vision-CAIR/MiniGPT-4)
|
177 |
- [LLaVA](https://github.com/haotian-liu/LLaVA/tree/main)
|
178 |
- [Instruction Tuning with GPT-4](https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
5 |
基于开源多模态模型 [OpenFlamingo](https://github.com/mlfoundations/open_flamingo),我们使用公开数据集创建了各种**视觉指令**数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,我们还使用仅包含**语言指令**数据的语言模型组件进行了训练。
|
6 |
|
7 |
+
视觉和语言指令的**联合训练**有效提高了模型的性能!更多细节请参阅我们的[技术报告](https://arxiv.org/abs/2305.04790)。
|
8 |
|
9 |
欢迎加入我们!
|
10 |
|
|
|
176 |
- [MiniGPT-4](https://github.com/Vision-CAIR/MiniGPT-4)
|
177 |
- [LLaVA](https://github.com/haotian-liu/LLaVA/tree/main)
|
178 |
- [Instruction Tuning with GPT-4](https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM)
|
179 |
+
|
180 |
+
如果你觉得我们的项目对你的研究和应用有帮助,请用以下 BibTeX 进行引用
|
181 |
+
|
182 |
+
```bibtex
|
183 |
+
@misc{gong2023multimodalgpt,
|
184 |
+
title={MultiModal-GPT: A Vision and Language Model for Dialogue with Humans},
|
185 |
+
author={Tao Gong and Chengqi Lyu and Shilong Zhang and Yudong Wang and Miao Zheng and Qian Zhao and Kuikun Liu and Wenwei Zhang and Ping Luo and Kai Chen},
|
186 |
+
year={2023},
|
187 |
+
eprint={2305.04790},
|
188 |
+
archivePrefix={arXiv},
|
189 |
+
primaryClass={cs.CV}
|
190 |
+
}
|
191 |
+
```
|