[点晴永久免费OA]全网最好的免费开源pdf文件OCR识别转换工具都在这里了，速来看效果

当前位置：点晴教程→点晴OA办公管理信息系统 →『经验分享&问题答疑』

admin

2025年8月28日 1:37 本文热度 127

现在Ａi是一个技术热门领域，其中从非结构化数据转换到结构化数据，是时常要面对的问题。我们经常需要从各原始数据中提取文本，这可能是来自docx/ppt/excel/pdf等此类文件。

其中PDF我愿称之为　“文档转换的终点”　因为当你实际操作时，你会发现由其他格式（如docx/html）转换到PDF比较容易，但从PDF转换出来却变得非常困难，特别是那种纯图片形式的、扫描件PDF。“苦PDF久矣～啊”，各位同学。

不要慌，问题与答案往往是相继出现的，只要我们不停下探索的脚步。在本文中　我通过实际测验市面上评分较高的一些工具、项目，基本上包含了你在网上能找到的最优的技术方案，大部是开源的，也有个别是非开源的。　下面将向大家逐一介绍。

在下面的项目中我们使用下面的2份纯图片形式的求职简历作为输入，来测试OCR模型的识别和提取能力。
原内容

• 中文简历(OCR测试)

• 英文简历(OCR测试)

ＭinerU

MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具，专注于高效解析复杂文档（如PDF、网页、电子书），并将其转换为结构化的机器可读格式（如Markdown、JSON）。该项目凭借其强大的多模态解析能力，能够精准识别文本、表格、图片、数学公式（支持LaTeX转换）及复杂排版，并自动去除页眉、页脚、页码等冗余信息，保留原始文档的语义逻辑与结构。MinerU支持176种语言识别，兼容CPU/GPU/NPU加速，适用于学术研究、企业数据处理、大模型训练等场景

开源许可`AGPL-3.0`

• 源代码公开：如果一个程序以AGPL-3.0授权，并且你通过网络为他人提供了该程序的服务（比如SaaS），那么即使你没有直接分发该程序的副本，你也必须向用户提供源代码，包括任何修改过的版本。
• 衍生作品：使用了AGPL-3.0许可代码的衍生作品也必须采用相同的许可证进行发布。
• 兼容性：AGPL-3.0与GPL-3.0保持一致，允许各自的组件保持其原有的授权，但当涉及到网络服务时，GPL授权的组件也需要遵守AGPL的要求，即提供源代码

若企业使用AGPL-3.0软件提供网络服务（如SaaS），必须向用户公开完整源代码及修改内容；其强传染性要求衍生作品也需开源，可能迫使整个商业项目开放源码。如果仅在企业内部使用（非对外服务），则无需公开源代码。若企业希望避免开源代码，可与原作者协商闭源授权（需支付费用）。

转换效果

ＭinerU的识别效果，总体上来算可以，核心内容是没有太大问题，不足的地方是还是有一些排版错乱的问题，如下图中：“技能评价”被横插到了“实践经历”的内容中，而且有些内容的字号设置不是太准确，三级标题和二级标题一样大。

在线体验

• ＭinerU官网：https://mineru.net/OpenSourceTools/Extractor?source=github
• ModelScope：https://www.modelscope.cn/studios/OpenDataLab/MinerU
• HuggingFace：https://huggingface.co/spaces/opendatalab/MinerU
• Github仓库：https://github.com/opendatalab/MinerU

mPLUG-DocOwl 1.5

阿里巴巴mPLUG团队在多模态文档图片理解领域的最新开源工作，在10个文档理解benchmark上达到最优效果，5个数据集上提升超过10个点，部分数据集上超过智谱17.3B的CogAgent，在DocVQA上达到82.2的效果

开源许可`Apacha-2.0`

以下是该许可证的一些关键特性：

• 专利授权：如果软件的原始贡献者拥有相关的专利权，则这些专利会在许可证下自动授予用户，但仅限于使用这些专利的权利，而不包括制造或销售产品。
• 分发代码：你可以在任何项目中使用遵循Apache 2.0许可的代码，无论是开源还是闭源项目，并且无需公开你的修改内容。
• 商标使用：该许可证不授予使用贡献者的名字、标志或其他商标的权利。
• 免责声明：该许可证包含一个明确的免责声明，表明软件“按原样”提供，没有任何形式的保证。

转换效果

mPLUG-DocOwl 1.5的识别效果，内容丢失比较严重，在排版中也存在一些问题，例如标题重复，内容重复等问题。算识别效果比较差的一个。

在线体验

• ModelScope：https://modelscope.cn/studios/iic/mPLUG-DocOwl/
• HuggingFace：https://huggingface.co/spaces/mPLUG/DocOwl
• GitHub仓库：https://github.com/X-PLUG/mPLUG-DocOwl

Mistral OCR

Mistral OCR是由法国Mistral AI开发的高性能光学字符识别工具，专为处理复杂文档设计，具备高精度解析（支持文本、图像、表格、数学公式等）、多语言识别（覆盖千种语言，准确率达99.02%）、极速处理能力（单节点每分钟2000页）及结构化输出（JSON/Markdown/HTML格式保留原始排版）等核心优势。

目前提供API版本（mistral-ocr-latest），通过开发者平台La Plateforme提供，定价为每1000页1美元。

转换效果

经过实测，Mistral OCR转换效果确实惊艳，几乎没有丢失任何信息内容，没有排版错乱问题，生成的Ｍarkdown内容干净整洁。唯一不足的是没有设置标题，所有内容都是同一字号。

在线体验

• 官方网站：https://mistral.ai/news/mistral-ocr
• 在线体验地址：https://mistralocr.org/zh-CN/

Got OCR 2.0

GOT-OCR 2.0 是一个基于通用 OCR 理论（General OCR Theory）的统一端到端模型，由 StepFun、旷视科技、中国科学院大学和清华大学联合开发，旨在推动 OCR 技术进入 OCR-2.0 时代。该模型具备处理多种类型内容的能力，包括普通文本、数学公式、分子结构、表格、图表、乐谱等，并通过端到端架构、Flash-Attention 技术优化以及动态分辨率处理，实现了高效识别与格式化输出（如 Markdown/LaTeX）。

转换效果

Got OCR 2.0识别出了大部分内容，有轻微丢失，没有排版整个结果内容全在一行中，有轻微的内容错乱。

在线体验

• ModelScope：https://www.modelscope.cn/studios/stepfun-ai/GOT_official_online_demo
• Github仓库：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

Dolphin

Dolphin是字节跳动开源一款文档解析模型。与目前市面上各类大模型相比，这款轻量级模型不仅体积小、速度快，并且取得了令人惊艳的性能突破，解析效率提升近2倍。

开源许可`MIT`

转换效果

在实际体验上Dolphin转换速度比较快，但是和ＭinerU一样的问题，部分排版错乱、有部分信息（电话号码）丢失问题。

在线体验

• 在线Ｄemo：http://115.190.42.15:8888/dolphin/
• Github仓库：https://github.com/bytedance/dolphin

Monkey OCR

MonkeyOCR 是华中科技大学与金山办公联合开发的高效文档解析模型，基于创新的SRR（Structure-Recognition-Relation）范式，精准提取PDF/图片中的文本、公式（LaTeX）、表格（JSON）等内容并结构化输出，支持Markdown/JSON格式导出。其30亿参数模型在英文文档解析中超越Gemini 2.5 Pro等大模型，处理速度达0.84页/秒，且可在单块3090 GPU上运行。

开源许可`Apache2.0`

关于Apache2.0许可和商用注意事项参考上文。

转换效果

Monkey OCR的信息保留度很高，虽然有些是以图片形式保存了下来，但是文字是文字、图片仅仅是图片而已。而在布局上没有发生混乱，原先简历中的双栏内容，被按由左至右由上至下的顺序正确的识别了，唯一问题是标题级别设置上有偏差。

Nanonets-OCR-S

Nanonets-OCR-s 是由 Nanonets 于 2025 年 6 月 10 日发布的光学字符识别（OCR）模型。该模型基于Qwen2.5-VL-3B微调，运行至少需要9G显存。

开源许可`Apache2.0`

关于Apache2.0许可和商用注意事项参考上文。

转换效果

Nanonets-OCR-S的转换效果，说实话惊㤉到我了，几乎趋于完美，我个人认为文档写到这里为止，是体验过转换效果最好的一个。内容识别完整，虽然不像Monkey OCR带图片，其实应该也可以（自己改造一下）布局准确，尽然还使用的表格来组织简历中的基础信息。更关键的是标题设置完全没毛病，非常准确。

在线体验

• ModelScope：https://www.modelscope.cn/studios/nanonets/Nanonets-ocr-s/summary
• Github仓库：https://github.com/NanoNets/docext

OCR Flux

OCRFlux 是一款基于多模态大语言模型（VLM）的工具包，专为将 PDF 文档和图像转换为结构清晰、可读性强的 Markdown 文本而设计。一张12GB GPU 内存的RTX-3090显卡可以部署运行。

开源许可`Apache2.0`

关于Apache2.0许可和商用注意事项参考上文。

转换效果

OCR Flux识别结果，文字保留相对完整，标题设置没有太大问题，唯一的不足之处是在简历中的“技能评价”处，标题设置不准确，有些是内容的部分被标记为标题，导致字体太大了。如果没有这一点问题的话，感觉和Nanonets-OCR-S不分上下。

在线体验

• 官方Ｄemo：https://ocrflux.pdfparser.io
• Github仓库：https://github.com/chatdoc-com/OCRFlux

OLM OCR

olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具，旨在将PDF文件和其他文档高效地转换为纯文本，同时保留自然的阅读顺序。它支持表格、公式、手写内容等。

开源许可`Apache2.0`

关于Apache2.0许可和商用注意事项参考上文。

转换效果

olm OCR的转换效果还是不错的，在结果中去掉了图片部分，内容结构有序，信息完整。没有设置标题部分，字体是统一大小，内容排版无错乱。整体来说，这个效果要比Mistral OCR要稍好一些。

在线体验

• 官方Ｄemo：https://olmocr.allenai.org
• Github仓库：https://github.com/allenai/olmocr

Smol Docling

SmolDocling（SmolDocling-256M-preview ）是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本，支持文本、公式、图表等多种元素识别，适用于学术论文、技术报告等多类型文档。模型参数量256M。使其能够在消费级显卡（如 RTX 3060 等）上流畅运行。

开源许可`MIT`

关于MIT许可和商用注意事项参考上文。

转换效果

Smol Docling的转换效果，整体上还算可以内容结构上没有混乱，但是在第二段工作经历中丢失了日期信息。

在线体验

• huggingface：https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo
• Github仓库：https://github.com/AIAnytime/SmolDocling-OCR-App

总结

经过实际测试了这么多款的OCR项目，如果从本次测试结果来看，我个比较倾向于Nanonets-OCR-S、olm OCR和OCR Flux这三款，感觉它们在识别结果上很不错，而且差距不是太大，特别是Nanonets-OCR-S。

当然也可能是我实际测试的数据样本的问题。使用更多的样本去测试也可能会得到不一样结果。去评价哪个工具的好坏也不是本文的目的。希望感兴趣的同学能够通过本文了解到这些工具、开源项目，你们可以实际的去测测、用一用，选择一个适合自己实际需求的，能给大家提供一个解决问题的方案和思路。

阅读原文：原文链接

该文章在 2025/8/28 16:36:11 编辑过