“查重”还是“查抄”？查重技术里的大BUG-医药经济报

医药经济报 > 正文

“查重”还是“查抄”？查重技术里的大BUG

发布时间：2019-07-31 16:33:35作者：王建新来源：医药经济报

毕业季里，全国的应届毕业生尤其是硕士和博士生都非常紧张，担心自己的论文被查出“超额”重复而被认定“抄袭”。

很巧的是，笔者刚刚为一个杂志准备了一篇“万言书”。在这种大环境下，笔者觉得最好还是查一下“重”，以免将来授人以柄。

然而，查重的结果还是让笔者大吃一惊——原来现在的查重技术居然存在原则性的大BUG！

意外的原创文“查重”结果

笔者常用的文字编辑软件是WPS。随着“查重”之风日盛，WPS推出了由第三方公司（PaperPass）外包的“查重”功能，价格还算亲民，尤其是分析时间仅需30分钟。这样便利的服务何乐而不为呢？

在讨论WPS查重结果之前，笔者需要告诉大家的是，这样一篇“万言书”是在不查阅任何原始文献的情况下写出来的。而附录的文献只是文章完成之后作为对内容的辅证而补充进去的。因此，这样的文章除了与其他作者享有共同的科学原理之外应该完全是原创。因此，笔者有理由期望查重的结果是“白茫茫一篇真干净”的。

然而，事实却稍稍有点出人意外。笔者这篇文章的查重结果是9%。这个结果笔者相信对于任何一个指望着论文毕业的学子来说都是梦寐以求的。但是，如果放在某个极端严厉、把底线划在8%的学校里，那还就不可能毕业了。

这样的结果引起了笔者对于整个查重分析方法的兴趣。感谢查重公司提供的全部分析材料，让笔者有机会了解到让千万学子胆战心惊的查重背后是一个什么样的AI逻辑方法（注：这一分析不代表其他任何查重公司）。

查重软件在将文章与浩如烟海的文献以及互联网上的信息进行逐句比较之后，给出三个不同等级的评判：严重相似（70%～100%）、非常相似（40%～70%）、不太相似（<40%）。并根据这样的判断来帮助作者修改。

这样的思路原本无可厚非，但结果却让人大吃一惊。在177个提醒修改的条例中，有48个是引用的文献。也就是说，软件并不能分辨哪些是“文章”、哪些是“文献”。更加让人吃惊的是，整个177条毛病里，只有一条是非常严重的“100%相似”。而这个最相似的文字，恰恰是我们公司的名称（南通欣生元生物科技有限公司）。笔者很难决定，是否需要为这样一次查重去更改公司的名称？

只懂文字、不懂科学

更重要的是对文中一些内容查重。在仔细阅读了软件发现的100多条毛病后，笔者不得不承认，这个背后的AI确实存在重大的逻辑问题。这个软件查重的基本思路是“一句对一句”地进行比较。因此查出来的都是某一句话有重复嫌疑。而这样分析的结果是——越常用的句子被“查重”的可能越大。总体来讲，严谨的科学描述不太难被查到，而恰恰是那些非常通用的句子被要求修改。笔者在这这里举一个例子：

“然而，对于肿瘤免疫治疗的研究并没有因此而停步。我们对于免疫系统在肿瘤的发生、发展和治疗中的作用也越来越清楚了。上世纪50年代，科学界开始认识到人体免疫系统存在对肿瘤细胞的“监察”（Surveillance）功能，并认识到肿瘤发生的本质是因为机体免疫系统的“监察”功能失效。而这一概念在多年后又被进一步分成肿瘤发展的“三阶段”论，即“消除”（Elimination）、“平衡”（Equilibrium）和“逃逸”（Escape）。这一免疫系统与肿瘤作战并最终失败的过程被称为“肿瘤免疫编辑”（Cancer ImmunoEditing）。这些理论的发展让我们认识到免疫系统是人类自有的天然抗肿瘤武器。

你可能认为这段文字中有关免疫系统的“监察”作用以及肿瘤发生“三阶段”的内容有抄袭的可能。但恰恰相反，那些被划线加重的部分被软件认为是有“抄袭嫌疑”。其中原因很清楚，这类一般性的表述在很多文中都可能出现。因此，我们从中可以断定的是，这个软件也许懂得文字，但并不懂科学。

“查抄”才是根本目的

那么问题出在哪里？设计这些软件的人都没有搞清楚，“查重”的根本目的是“查抄”。而要断定是否抄袭，需要有严格的定义。既不能让抄袭者轻易逃脱，同时也要给科学研究留有足够的“互鉴”空间。

首先，抄袭的重灾区不是文字而是数据和图片。实验数据的特点是，即使同一个人重复同一个实验也不可能得到完全一样的数据。因此，在数据的重复率上，我们需要采取“零容忍”的态度。在图片分析方面，现在也有一些AI软件不但可以比较整个图片，也可以比较部分图片，甚至是PS过的图片。如果在数据和图片方面发现“重复”，几乎可以“一票否决”。国际上，近年来发现的很多抄袭事件，多半是在数据和图片上得到突破的。因此，查重的软件要下大力气去查数据和图片。

同样，在文字方面，我们的重点应该是在“段落”，而不是“句子”。真正的抄袭者是不会去抄袭某一个句子，即使是“金句”。这样琐碎的抄袭法本身就需要很高的抄袭技能，所花费的时间成本也很高。

因此，只有发现整段或者数段的重复性，尤其是在结构、用词、顺序等方面高度的相似性，才能坐实抄袭。而更加高级的抄袭很可能在整篇文章的立意、框架和路径等方面的重复。

如果我们的软件对这样的抄袭无所措手，而只能在个别短句中寻求一些相似性，那就是“捡了芝麻丢了西瓜”。这会让95%以上的良家学子惶惶不可终日，而让高级山寨者逍遥于外，最终出现笔者原创“万言书”查重出现的让人哭笑不得的结果。

结语<<<

写这样一篇文章，绝不是要替刚刚惊险过关的众多学子们出口气。相反，笔者希望读到这篇文章的学子们要明白，AI只会越来越聪明，而抄袭总是要被发现的。

避免被“查重”的唯一办法，就是要把整个研究背景真正听懂、看懂、学懂，然后用你自己的理解和自己的语言把自己的观点讲述出来。这样的文章才是天下唯一的。

此内容为《医药经济报》融媒体平台原创。未经《医药经济报》授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。如需获得授权请事前主动联系：020-37886610或020-37886753；yyjjb@21cn.com。

“查重”还是“查抄”？ 查重技术里的大BUG

“查重”还是“查抄”？查重技术里的大BUG