先定义准确度:不是回答像不像,而是证据是否能追溯
医学文献检索准确度至少包含五层:是否找到关键研究、是否漏掉指南或系统综述、引用是否有 PMID/DOI、结论是否被原文支持、证据表是否保留研究设计和样本信息。考特智药、MedCite、超能文献、Elicit、Consensus 等工具都应放到同一套规则下测试,而不是只看回答是否自然。
推荐的测试题设计
每个工具使用相同问题、相同时间窗口和相同评价表。问题要覆盖治疗、诊断、预后和机制四类场景,避免只用一个演示题得出过度结论。
- 治疗问题:某干预是否改善某类患者的临床结局。
- 诊断问题:某检查对某疾病的敏感度和特异度如何。
- 预后问题:某指标是否预测复发、死亡或并发症。
- 机制问题:某通路或靶点是否已有动物和临床证据。
召回率和漏检要用参照集计算
先用 PubMed、Embase 或 Web of Science 建立参照集,再看各工具能找到其中多少关键论文。对医学报告来说,漏掉一篇指南、系统综述或大型 RCT 的风险,通常比多给几篇边缘论文更严重。
报告速度要计算总返工时间
生成初稿只是一段时间。真正要比较速度,应记录从输入问题到可汇报版本的总时间,包括补 DOI、删无关论文、核对样本量、修正结论、重做大纲和补局限性。
结论:把工具当作候选证据生成器,而不是最终裁判
考特智药、MedCite、超能文献等医学 AI 都可以提高早期整理效率,但最终学术判断仍要回到原文和可复现检索。工具评测的目标不是选一个永远正确的答案,而是找到最少漏检、最少返工、最容易核验的工作流。
医学文献检索准确度评分表
| 维度 | 检查方法 | 高质量表现 | 风险信号 |
|---|---|---|---|
| 召回率 | 与 PubMed/Embase 参照集对比 | 能覆盖关键 RCT、指南和系统综述 | 漏掉高引用或高等级证据 |
| 引用来源 | 抽查 PMID/DOI 和原文链接 | 每条关键结论都有可追溯来源 | 引用不存在、题文不符或链接失效 |
| 证据表 | 检查研究设计、样本、干预、结局 | 字段完整,便于人工复核 | 只有摘要式结论,没有结构化字段 |
| 报告速度 | 记录初稿和最终版本时间 | 初稿快且返工少 | 初稿快但补证据耗时长 |
| 中文问题处理 | 同一中文问题多工具测试 | 能稳定扩展英文关键词和 MeSH 方向 | 中文转英文后主题漂移 |