PaddleMIX
/

PPDocBee-2B-1129

Model card Files Files and versions

nemonameless commited on Feb 8

Commit

7ad64c8

·

verified ·

1 Parent(s): a3887f7

Update README.md

Files changed (1) hide show

README.md +8 -2

README.md CHANGED Viewed

@@ -1,8 +1,14 @@
 # PP-DocBee
 ## 1. 简介
-PP-DocBee 是PaddleMIX团队自研的一款专注于文档理解的多模态大模型，在中文文档理解任务上具有卓越表现。该模型通过近 500 万条文档理解类多模态数据集进行微调优化，各种数据集包括了通用VQA类、OCR类、图表类、text-rich文档类、数学和复杂推理类、合成数据类、纯文本数据等，并设置了不同训练数据配比。在学术界权威的几个英文文档理解评测榜单上，PP-DocBee基本都达到了同参数量级别模型的SOTA。在内部业务中文场景类的指标上，PP-DocBee也高于目前的热门开源和闭源模型。
 **本仓库支持的模型权重:**
@@ -176,4 +182,4 @@ Qwen2-VL-2B       | 90.1        | 73.5        | 65.5        | 79.7        | 79.4
 > ⚠️注意：
 > 1. 内部业务中文场景评测于 2024.12.09日修订，所有图像分辨率 (1680, 1204)，共1196条数据。
-> 2. 内部业务中文场景评估集包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景，暂时未有计划公开。

+---
+license: apache-2.0
+base_model:
+- Qwen/Qwen2-VL-2B-Instruct
+---
 # PP-DocBee
 ## 1. 简介
+[PP-DocBee](https://github.com/PaddlePaddle/PaddleMIX/tree/develop/paddlemix/examples/ppdocbee) 是PaddleMIX团队自研的一款专注于文档理解的多模态大模型，在中文文档理解任务上具有卓越表现。该模型通过近 500 万条文档理解类多模态数据集进行微调优化，各种数据集包括了通用VQA类、OCR类、图表类、text-rich文档类、数学和复杂推理类、合成数据类、纯文本数据等，并设置了不同训练数据配比。在学术界权威的几个英文文档理解评测榜单上，PP-DocBee基本都达到了同参数量级别模型的SOTA。在内部业务中文场景类的指标上，PP-DocBee也高于目前的热门开源和闭源模型。
 **本仓库支持的模型权重:**
 > ⚠️注意：
 > 1. 内部业务中文场景评测于 2024.12.09日修订，所有图像分辨率 (1680, 1204)，共1196条数据。
+> 2. 内部业务中文场景评估集包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景，暂时未有计划公开。