|
|
骗过同行评审!200多篇软件生成的“垃圾”论文竟成功发表 |
|
编译 | 晋楠
用计算机软件“炮制”论文、骗过同行评审,最终还能浑水摸鱼成功发表?近日发表于《自然》的一篇文章显示,法国明升体育app家通过检测数百万篇论文,发现了243篇这样的“垃圾”文章。
研究还发现,这些软件制造出的论文大多数由来自明升官网(64%)或印度(22%)的研究人员撰写,尽管研究者表示,其中一些论文可能是在作者不知情的情况下以他们的名义提交的。
一些涉事出版商已经表示将撤下这些论文,但让更多人质疑的是,一些期刊的同行评审难道是“吃素”的?为何会让如此多计算机生成的论文成为漏网之鱼?
“垃圾”文章如何生成?
早在2005年,出于“玩心”,美国麻省理工学院3位计算机博士生Jeremy Stribling、Daniel Aguayo 和 Maxwell Krohn,创造了一款叫作SCIgen的论文生成软件,以了解一些会议是否会接收毫无意义的“垃圾”论文。
SCIgen能把单词拼凑在一起,生成带有随机标题、文本和图表的研究文章。它们很容易被人类读者发现是胡言乱语。
结果,出于“恶作剧”让计算机写的一篇文章Rooter: A Methodology for the Typical Unification of Access Points and Redundancy,竟然被当年7月在佛罗里达举行的第9届世界系统、控制论和信息学多学科大会(WMSCI)接收了。
事情到此并未结束。
由于SCIgen软件可免费下载,任何人都可以使用,类似的“恶作剧”还在继续,并逐渐发展为一种论文造假的手段,让明升体育app文献中涌现出一批“垃圾”文章。
到2012年,法国计算机明升体育app家Cyril Labbe发现,美国电气和电子工程师协会(IEEE)出版的会议论文中有85篇出自SCIgen的伪造论文。他还找到了120多篇被IEEE和施普林格(现为施普林格·自然的一部分)发表的假SCIgen论文。
Labbe表示,目前还不清楚这些论文是谁撰写的,以及为什么这样做。随后其中一些文章被撤销,有的则被删除。
如何防范这些计算机“发明”的论文呢?
为此,Labbe注册了一个网站,可以让任何人上传手稿,检查它是否为SCIgen编程的“发明”。
Labbe发起的网站
施普林格也赞助了一个帮助发现SCIgen论文的博士项目,产生了一个叫作SciDetect的免费“侦查”软件。
SciDetect的免费“侦查”软件
为了简历“好看”发“垃圾”文章?
最初,Labbe需要在论文手稿中搜索SCIgen的典型词汇。后来他和法国图卢兹大学计算机明升体育app家Guillaume Cabanac提出了一个新想法:寻找SCIgen输出短语的关键语法特征。2020年5月,他们在Dimensions数据库收录的数百万篇论文中搜索了这些短语。
在近日发表于ASIS&T的一项研究中,他们表示,在对每篇文章进行人工检查后,发现了243篇完全或部分由SCIgen撰写的“垃圾”文章。
截至2020年5月20日,作者检测到的243篇含有SCIgen文本的文档的年份分布情况,以及每年文档类型的份额。图源:Labbe等
每年由出版商生成的包含SCIgen文本的论文数量。2020年不完整,因为数据截止日期为2020年5月20日。图片来源:Labbe等
这些论文发表于2008~2020年,出现在各种期刊、会议论文集和预印本上,大多数属于计算机明升体育app领域。还有一些论文则出现在开放获取的期刊上,甚至是付费阅读期刊上。其中,46篇已从最初发布的网站上被撤销或删除。
从图中可以看到,IEEE、ACM(国际计算机协会)、IAES(航空航天与电子系统)、美国明升体育app出版社等期刊、会议或机构都曾发表过相关论文。(图中“C”表示封闭获取,“O”表示开放获取。)图片来源:Labbe等
自去年以来,Labbe的清单上又增加了20篇论文,其中包括用MATHgen(生成数学论文的软件)和SBIR提案生成器(生成无意义的拨款提案)编写的乱七八糟的文章。
Labbe指出,最新一批的SCIgen论文大多数由来自明升官网(64%)或印度(22%)的研究人员撰写,尽管这些手稿可能是在他们不知情的情况下被他人以其名义提交的。
图片来源:Labbe等
其中几篇论文的作者告诉Labbe和Cabanac,他们是作为“恶作剧”提交的。但其他论文似乎是用真实的参考书目列表进行编辑,这表明它们的出现可能是为了夸大明升体育app家的引文数量。
“我认为,这些论文绝大多数都是为了充实简历,以满足发表论文的需要。”Labbe说。
同行评审是“吃素”的?
在最新一批论文中,除了IEEE等知名会议或机构出现问题,还出现了若干计算机生成论文的“重灾区”。发布SCIgen内容排名前三位的分别是:
瑞士的跨技术出版社(Trans Tech Publications),共发表了57篇相关论文;
印度的蓝眼睛智能工程与明升体育app出版社(Blue Eyes Intelligence Engineering and Sciences Publication,BEIESP),发表了54篇;
今年3月被施普林格·自然收购的法国出版社亚特兰蒂斯(Atlantis),发表了39篇。
上述瑞士和法国出版社表示,他们正在调查并撤回这些文章。不过,BEIESP的一位发言人表示,他们发表的文章都是通过双盲同行评审和剽窃检查的原创内容。
被明升体育app界奉为圭臬的同行评审难道是“吃素”的?为何对这类计算机炮制的论文防不胜防?
对于这一问题,以WMSCI为例,Stribling认为,这是因为这类会议比较“水”,没有明升体育app功能,只会通过发邮件等各种方式推销自己而获利。
此次,英国伦敦物理研究所附属机构IOP出版社也撤回了 10 篇论文,并在调查为什么在同行评审阶段没有发现这些计算机生成的论文。
该出版社诚信和内容经理Kim Eggleton表示,“我们有合理的证据表明,这些论文的同行评审过程不合格。”
你能想象自己看过的某篇论文其实是计算机软件生成的“垃圾”论文吗?它们之所以能被最终发表,是因为这些会议或期刊比较“水”,还是因为同行评议容易被操纵?
你有什么看法?欢迎讨论。
参考文献:
http://www.nature.com/articles/d41586-021-01436-7http://www.nature.com/articles/nature03653
http://scigendetection.imag.fr/main.php
http://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24495
http://link.springer.com/article/10.1007/s11192-012-0781-y
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。