Update README.md
Browse files
README.md
CHANGED
@@ -1,8 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
# PP-DocBee
|
2 |
|
3 |
## 1. 简介
|
4 |
|
5 |
-
PP-DocBee 是PaddleMIX团队自研的一款专注于文档理解的多模态大模型,在中文文档理解任务上具有卓越表现。该模型通过近 500 万条文档理解类多模态数据集进行微调优化,各种数据集包括了通用VQA类、OCR类、图表类、text-rich文档类、数学和复杂推理类、合成数据类、纯文本数据等,并设置了不同训练数据配比。在学术界权威的几个英文文档理解评测榜单上,PP-DocBee基本都达到了同参数量级别模型的SOTA。在内部业务中文场景类的指标上,PP-DocBee也高于目前的热门开源和闭源模型。
|
6 |
|
7 |
**本仓库支持的模型权重:**
|
8 |
|
@@ -176,4 +182,4 @@ Qwen2-VL-2B | 90.1 | 73.5 | 65.5 | 79.7 | 79.4
|
|
176 |
|
177 |
> ⚠️注意:
|
178 |
> 1. 内部业务中文场景评测于 2024.12.09日修订,所有图像分辨率 (1680, 1204),共1196条数据。
|
179 |
-
> 2. 内部业务中文场景评估集包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景,暂时未有计划公开。
|
|
|
1 |
+
---
|
2 |
+
license: apache-2.0
|
3 |
+
base_model:
|
4 |
+
- Qwen/Qwen2-VL-2B-Instruct
|
5 |
+
---
|
6 |
+
|
7 |
# PP-DocBee
|
8 |
|
9 |
## 1. 简介
|
10 |
|
11 |
+
[PP-DocBee](https://github.com/PaddlePaddle/PaddleMIX/tree/develop/paddlemix/examples/ppdocbee) 是PaddleMIX团队自研的一款专注于文档理解的多模态大模型,在中文文档理解任务上具有卓越表现。该模型通过近 500 万条文档理解类多模态数据集进行微调优化,各种数据集包括了通用VQA类、OCR类、图表类、text-rich文档类、数学和复杂推理类、合成数据类、纯文本数据等,并设置了不同训练数据配比。在学术界权威的几个英文文档理解评测榜单上,PP-DocBee基本都达到了同参数量级别模型的SOTA。在内部业务中文场景类的指标上,PP-DocBee也高于目前的热门开源和闭源模型。
|
12 |
|
13 |
**本仓库支持的模型权重:**
|
14 |
|
|
|
182 |
|
183 |
> ⚠️注意:
|
184 |
> 1. 内部业务中文场景评测于 2024.12.09日修订,所有图像分辨率 (1680, 1204),共1196条数据。
|
185 |
+
> 2. 内部业务中文场景评估集包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景,暂时未有计划公开。
|