开源项目
Marker
将 PDF 转为高质量 Markdown,保留公式和表格
8,500 stars650 forks更新于 2024-01-10
本地运行GPU加速Python
编辑判断
目前效果最好的开源 PDF 转换工具,强烈推荐。对公式和表格的处理明显优于其他工具,但需要 GPU 才能获得最佳速度。
适合谁用
需要将论文 PDF 转为可编辑格式的研究者,尤其是包含大量公式的论文
核心功能
高质量 OCR - 准确识别文字和公式
表格提取 - 保持表格结构
LaTeX 公式 - 转为标准 LaTeX 格式
批量处理 - 支持文件夹批量转换
使用场景
1.将论文 PDF 转为 Markdown,方便 AI 阅读和总结
2.提取论文中的公式,复制到自己的文档
3.批量转换文献库,建立可搜索的知识库
优点与局限
优点
- +转换质量高,公式准确
- +支持中英文混排
- +本地运行,数据安全
- +开源免费
局限
- -需要 GPU 才能快速运行
- -安装依赖较多
- -超大文件可能内存不足
快速安装
# 安装 pip install marker-pdf # 基本使用 marker_single input.pdf output_dir # 批量转换 marker input_dir output_dir # GPU 加速(需要 CUDA) marker_single input.pdf output_dir --use_gpu
环境要求
- Python 3.9+
- 8GB+ RAM
- NVIDIA GPU(可选,大幅提速)
替代选择
如果 Marker 不适合你,可以考虑:
NougatGROBIDpdf2docx