开源项目·Python

VikParuchuri/marker

将学术PDF转为Markdown,保留公式和表格格式

编辑判断

比其他PDF解析工具效果好,特别是对学术论文的公式和表格保留更完整。需要本地部署,有一定配置门槛,但值得花时间配置。

这是什么

Marker 是一个将PDF文档转换为Markdown格式的工具,专门针对学术论文进行了优化。它能很好地保留数学公式(转为LaTeX)、表格结构、图片位置,比传统的PDF解析工具效果更好。

适合谁

  • 需要批量处理论文PDF、提取文本的研究人员
  • 想把论文导入笔记软件(Obsidian/Notion)的同学
  • 做文献数据提取、构建知识库的开发者

成熟度

稳定可用

项目活跃,文档完善,已有大量用户使用。遇到问题在Issues里通常能找到解答。

部署门槛

中等
  • · 需要 Python 3.9+ 环境
  • · 建议有 GPU,否则速度较慢
  • · pip 安装即可,无复杂依赖
  • · 按文档走大概30分钟能跑起来

不会编程能用吗?

需要命令行基础。如果你不熟悉命令行,建议用一些在线转换服务,或者让会编程的同学帮你批量处理。

注意事项

  • ·复杂排版的PDF仍可能解析有误
  • ·扫描件PDF效果不好(需要OCR支持)
  • ·处理大量文件时需要较长时间

类似项目

如果你不想自己部署

需要现成的文献阅读工具?

超能文献提供在线的文献检索、翻译和阅读功能,无需技术背景即可使用。

了解超能文献