开源项目

Marker

将 PDF 转为高质量 Markdown,保留公式和表格

8,500 stars650 forks更新于 2024-01-10
本地运行GPU加速Python

编辑判断

目前效果最好的开源 PDF 转换工具,强烈推荐。对公式和表格的处理明显优于其他工具,但需要 GPU 才能获得最佳速度。

适合谁用

需要将论文 PDF 转为可编辑格式的研究者,尤其是包含大量公式的论文

核心功能

高质量 OCR - 准确识别文字和公式
表格提取 - 保持表格结构
LaTeX 公式 - 转为标准 LaTeX 格式
批量处理 - 支持文件夹批量转换

使用场景

1.将论文 PDF 转为 Markdown,方便 AI 阅读和总结
2.提取论文中的公式,复制到自己的文档
3.批量转换文献库,建立可搜索的知识库

优点与局限

优点

  • +转换质量高,公式准确
  • +支持中英文混排
  • +本地运行,数据安全
  • +开源免费

局限

  • -需要 GPU 才能快速运行
  • -安装依赖较多
  • -超大文件可能内存不足

快速安装

# 安装
pip install marker-pdf

# 基本使用
marker_single input.pdf output_dir

# 批量转换
marker input_dir output_dir

# GPU 加速(需要 CUDA)
marker_single input.pdf output_dir --use_gpu

环境要求

  • Python 3.9+
  • 8GB+ RAM
  • NVIDIA GPU(可选,大幅提速)

替代选择

如果 Marker 不适合你,可以考虑:

NougatGROBIDpdf2docx