近日,Nature的一篇报道称,国际知名的文献检索数据库PubMed,被一款名为Papermill Alarm的软件工具查出可能存在超34万篇问题论文。该系统将引文数据库PubMed中列出的所有标题进行了查询,发现目前列出的论文中有1%的文本与论文工厂生产的文章非常相似。
“论文工厂”
近年来,被期刊撤销的论文数量不断增加。这些撤稿数据背后,论文工厂扮演了重要角色。科学界面临着日渐规模化、工业化的学术作假手段的侵袭,打击论文工厂已成为了颇为急切的问题。
论文工厂指的是那些按订单制作科研手稿的公司或个人。根据买者需求,他们雇用相关专业写手,套用学术模板写作,最终发表在不同级别的刊物上,整套“一条龙”服务应运而生。
在2021年3月23日,Nature 杂志曾起底论文工厂,将一篇题为《打击制造伪科学的 “论文工厂”》(The fight against fake-paper factories that churn out sham science)的长文报道挂在了官网头版头条。
文章称,一些出版商发现了大规模的学术造假行为,且采取了多样化的应对措施以打击这种工业化的欺骗行为。
Nature的另一项分析发现,自2020年1月以来,各大期刊已经撤回了至少370篇与论文工厂有关的论文,预计未来还会有更多的论文被撤回。之所以出现这种文献清理,很大程度上是因为先前学术打假人公开标记了他们认为来自论文工厂的文章。总共有1000多项研究被标记入名单中。
在一些有大量明显论文工厂投稿的期刊上,编辑们现在已经修改了他们的审稿流程。打击工业化作弊需要更严格的审查:例如,告诉编辑要求提供原始数据,并雇用专门检查的人员。英国皇家化学学会(RSC)表示,科学出版需要“协调一致的努力来消除伪造的研究”。
造假“克星”?
PubMed是一个免费的MEDLINE数据库,提供生物医学和健康科学领域的文献搜索服务,也是国内最常用的生物医学相关SCI文献检索数据库。Papermill Alarm系统将引文数据库PubMed中列出的所有标题进行了查询,发现目前列出的论文中有1%的文本与论文工厂生产的文章非常相似。而PubMed数据库收录的生物医学文献超过3400万篇,1%表示超34万篇论文可能涉嫌造假。
Papermill Alarm使用一种深度学习算法,将所投文章标题和摘要中使用的语言与已知来自论文工厂的文章进行比较。该比较基于由研究学术打假人Elisabeth Bik和David Bimler编制的论文工厂文章列表。该工具使用红绿灯系统,为与已知论文工厂文章有许多相似之处的纸张分配红旗,为有一些相似之处的纸张分配橙色旗帜,为没有相似之处的纸张分配绿色旗帜。
Papermill Alarm并没有明确说明PubMed中哪篇文章是否是捏造的,而是标记了那些值得进一步研究的文章。Bik说,PubMed中列出的造纸厂论文的实际数量可能更高,但她指出,它们对科学的整体影响可能很低,因为这些文章中的大多数都没有被高度引用或影响。“但它损害了科学的声誉和我们对研究论文的信任,”她说。
参考资料:
https://www.nature.com/articles/d41586-022-02997-x
https://www.nature.com/articles/d41586-021-00733-5