2013年《科学》(Science)杂志曾发表了一篇详细的调查报告,揭露了中国复杂而暴利的论文买卖产业。 现在,两位计算生物学家通过PubMed搜索意外发现,中国从事论文买卖的公司依然在活跃。巴塞罗那基因组调控中心的Guillaume Filion和Pompeu Fabra大学的Lucas Carey,从PubMed下载了2012年1月到今年4月的论文发表数据。他们用自然语言处理技术梳理近两百万论文的摘要,希望从中分析出2014年的新热点。 他们发现,提及CRISPR、lncRNA的文章明显增多。CRISPR是一种基因编辑的新技术,被Science杂志评为2013年十大突破之一,lncRNA的全名是长非编码RNA,这种RNA现在是基因组领域的热点话题。 在这些并不令人意外的发现之中,一个名词显得格格不入。这是一个鲜为人知的数据库,名为CISCOM(Centralised Information Service for Complementary Medicine),属于伦敦的补充医学研究委员会。巴塞罗那的两位学者发现,以前每年只有两三篇论文提及CISCOM,但从二月份开始,这个数据库的出现频率突然上升为一周一次。 Filion和Carey进一步发现,有32篇不同主题的文章很奇怪,它们都是分析CISCOM已发表数据的meta分析或综述(也包括一些常用数据库,比如Google Scholar、PubMed和Web of Science)。而且这些文章全部来自于中国,作者是分布在多个城市的28个不同研究团队。 Filion在自己的博文中指出,这些文章有着“令人不安的相似性”。于是,他与Carey决定搞清楚到底发生了什么。他们下载了25篇有嫌疑的论文全文,并用剽窃检测程序iThenticate进行检测,结果并未发现什么问题。 然而,这些文章的讨论部分都含有类似的表述,只有很小的改动。举例来说,一篇文章写道“Importantly, the inclusion criteria of cases and controls were not well defined in all included studies and thus might have influenced our results.”另一篇写道“Importantly, the inclusion criteria of cases and controls were not well defined in all included studies, which might also have influenced our results.” 有四篇文章具有同样的语法错误,比如“our results had lacked sufficient statistical power”中多余的“had”。Filion和Carey发现,这些文章似乎来自于多个模板。可以看出,文章作者主动对文段进行洗牌,这是一种规避剽窃检测软件的手法,与洗黑钱类似。 所有可疑论文都是在2013年年底提交的,因此不可能存在发表之后的剽窃。Filion和Carey推测这些文章可能来自于同一家公司。在复旦大学遗传学家Yao Yu的帮助下,他们找到了一家公司。这家公司在其网站上宣传可以定制meta分析论文,经过联系和询问,该公司给出了报价:影响因子2或3的meta分析文章大约$10,000。 去年Science报道了历时五个月的调查,发现了十几家类似的公司。这些公司除了用客户提供的数据草拟论文,还伪造数据、提供论文加名和售卖已完成的论文。 在已完成的论文中,最受欢迎的就是meta分析,这可能是因为它们不需要原始数据。2013年六月PLOS ONE杂志发表的一篇分析文章指出,从2003年到2011年,中国meta分析文章的增加比美国快16倍。不过,Filion和Carey并不打算再深入调查这个问题,“我们不是专门干这个的猎手,我们做的是大数据分析。 |