pdf2markdown-soution

ML > solution tools pdf2markdown

发布时间 : 2025-09-12 18:26

字数:437 阅读 :

前言
现有技术选型
方案对比

前言

现有技术选型

我搜集了一些解决方案，要逐一对比看哪个方案更好

名称	是否开源	项目地址
markitdown	是	microsoft/markitdown: Python tool for converting files and office documents to Markdown.
mupdf4llm
minerU	是	opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。
MonkeyOCR	是	Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model
markitdown	是	microsoft/markitdown: Python tool for converting files and office documents to Markdown.

方案对比

对比维度:

转化效果，对GPU的依赖程度,转化速度

minerU

GPU的占用情况

效果如下:

识别效果是真的好，markdown由于排版限制，文本表现可能不好，但是对大模型来说足够了

识别的效果非常非常好

LINK如下:

MonkeyOCR

环境挺复杂的，直接用docker拉起来吧

GPU的占用情况

对显存的压力很大

默认显卡最多占用

排版的效果也还行，但是目录的层次结构不够清晰，而且出现了部分项重复

OCR识别出的结果出现了大量的重复，4-MAC地址标签1CFI标准服务Onboard网络卡4-MAC 出现大约10多次的重复

表格布局上比较不错，转化的速度也比较快，有较强的适应性，但是环境配置复杂且占用资源太高了【官方的模型会自动根据你的显存大小来调整占用】

markitdown

微软开源的工具

支持多种格式转换成markdown

得配合着插件来使用，Azure上的OCR文档识别对于文档布局的识别不是很给力，但是好在微软生态结合，调用API即可实现相应的功能，一键傻瓜式部署！

©2024 Akabane71

Built with Hexo and 3-hexo theme