MinerU PDF to Markdown Model

这个模型可以将PDF文档转换为Markdown格式。

Model Description

MinerU使用多模型组合架构:

  • Layout: 文档布局分析 (Detectron2)
  • MFD: 数学公式检测 (PyTorch)
  • MFR: 数学公式识别 (BERT-based)
  • TabRec: 表格识别与重建 (T5-based)

Intended Uses

本模型用于将PDF文档自动转换为Markdown格式,支持:

  • 文本布局分析
  • 数学公式识别
  • 表格结构重建

Usage

from transformers import pipeline

converter = pipeline("document-conversion", model="kitjesen/MinerU")
markdown = converter("document.pdf")

Limitations and Bias

  • 最大支持页数:100页
  • PDF文件大小限制:50MB
  • 支持语言:中文、英文

Training Data

模型使用以下数据训练:

  • 学术论文数据集
  • 教材文档数据集
  • 技术文档数据集

Training Procedure

使用多阶段训练流程:

  1. 预训练各个子模型
  2. 联合训练优化
  3. 端到端微调

Evaluation Results

  • 文本识别准确率:95%
  • 公式识别准确率:90%
  • 表格重建准确率:85%

Environmental Impact

  • 硬件要求:GPU with 8GB+ VRAM
  • 推理时间:~2s/页

Technical Specifications

Model Architecture

  • Layout: Detectron2 (FasterRCNN)
  • MFD: Custom CNN
  • MFR: BERT-based
  • TabRec: T5-based

Hardware Requirements

  • RAM: 16GB+
  • GPU: 8GB+ VRAM
  • Storage: 5GB

Software Requirements

  • Python >= 3.7
  • PyTorch >= 1.9.0
  • transformers >= 4.28.0
  • detectron2
Downloads last month
150
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The HF Inference API does not support model that require custom code execution.