朱自清《荷塘月色》AI率超60% 怎么回事？专家的回答出乎意料-新闻中心-中国宁波网

还记得朱自清的《荷塘月色》吗？“曲曲折折的荷塘上面，弥望的是田田的叶子。叶子出水很高，像亭亭的舞女的裙……”

这篇全文1361字的经典散文，几乎在热搜上挂了一天。起因是有网友发现，它被某AI检测工具判定：AI疑似生成率超过60%。

评论区顿时炸开了锅。有网友调侃，“那我的论文AI率80%，是不是也正常了？”也有网友怀疑，AI率是随机生成的；还有网友爆料，同一篇文章，不同平台查出的AI率相差30%。

这到底是怎么一回事？AI率检测工具究竟靠不靠谱？橙柿互动记者跟西湖大学文本智能实验室博士、Fast-DetectGPT研发者之一鲍光胜聊了聊。

他的第一个回答，就有点出乎意料。

“大家对AI率有误解”

关于AI率，鲍光胜认为，大家首先可能存在一个误解。“比如一篇文章检测出AI率60%，并不是说每100个字里面，就有60个字是AI写的。AI率实际上是指一篇文章有多大概率由AI生成，60%就意味着它有60%的概率由AI整体生成。”

检测工具其实无法分辨，也不能告诉你哪几个字出自AI之手。“因为一两个字的微观层面，人类和AI的差别几乎看不出来。”

那它是怎么来判断的？简单说，就是在宏观层面寻找统计上的线索。例如在用词方面，AI会有相对固定的偏好，某个冷门词出现的频率如果远高于人类平均水平，就会成为一个统计的信号。

鲍光胜举了个例子：有研究发现，大模型应用于英语学术论文写作时，单词delve（深入研究）的使用频率大幅提高，“这时，就可以拿它作为一个信号或者说特征”。

但这种特征是统计意义上的，“它需要在一篇文章中反复出现某些可被检测的信号。因此，如果只给出一段很短的文字，是无法准确判断是否为AI所写。”鲍光胜认为，目前的检测工具对于100字以下“小作文”的判断通常不太准确，到了500字左右，结果就比较可信了。

《荷塘月色》是怎么被误伤的

那么，《荷塘月色》超60%的AI率是怎么回事？

“以现在的检测技术，如果是全新写的文章，AI率可能更准些，老文章反而不一定。”鲍光胜先给了一个结论。

原因很简单，就是那些脍炙人口的经典文本，绝大部分早就被用来训练大模型。

“AI检测的基本原理是这样的，你的一篇文章放到大模型，看它的用词、词频分布等，和模型预测的分布是否一致。”通常情况下，如果是AI生成的文字，那它和模型的预测会比较一致。

于是，问题就来了：当AI检测工具遇到在学习阶段就“读”过的经典文本，这种“一致性”就会因为模型熟悉这些表达而变得很高，进而倾向于判断文章是AI写的。

《荷塘月色》大概率就是这样被误伤了。

AI模仿的是整个人类的写作共性

在评论区的热门位，有网友反映自己的同一篇文章，不同平台查出的AI率相差30%。鲍光胜说：这太正常了。

“市面上各个检测工具用的算法不一样，有的主要看词频，有的侧重语法，有的看语义。单独一篇文章，差30%一点都不奇怪。”

热搜里还提到了一个现象：有些平台一边卖AI生成论文，一边又提供降AI率服务。

“这就是互相攻防。”鲍光胜继续解释。

降AI率的原理，说起来并不神秘：研究市面上的检测工具喜欢抓什么信号或者说特征，比如某个词用得太频繁，那就把它换成另一个意思相近的词。“更换后意思不变，但检测工具就抓不到了。”

他同时也提到，对抗检测最好的方式或许是保持自己的写作风格。

“AI是在模仿整个人类的写作共性。如果你有非常独特的个人风格，AI反而不太容易抓住。”这就是为什么有些人的文章AI率很高，而另一些人却没事，后者可能天生就不按套路写。

AI检测AI，未来是持续的攻防战

鲍光胜博士研究的方向是AI生成文本检测，他从2022年底ChatGPT问世后就开始关注这一问题。

“当时觉得随着AI应用的普及，它会变得越来越严重。互联网上AI生成内容越来越多，会侵蚀人与人之间的信任，比如教育场景中的师生关系。另外，AI生成的东西，人类单靠自己会越来越难分辨，需要‘AI检测AI’”。

他所在的西湖大学文本智能实验室研发了Fast-DetectGPT，这是一个可以快速并准确检测文本是否由AI生成的工具，相关成果发表在国际会议ICLR 2024上。

鲍光胜坦言，未来会是持续的攻防战，大模型越来越强，AI检测技术跟着升级，然后新的模型又来了……

“网上不少人可能觉得检测工具说这篇文章是AI写的，那就一定是。但任何AI检测工具给的都只是概率，这个概率有一定可能是错的。”他强调说，这个观念，才是最需要传递给大家的。

至于有学生网友在网上“喊冤”，说自己手搓的论文被判了高百分比的AI率，鲍光胜给出了三种可能：要么不是完全自己写的，要么不自觉受了AI模板影响，要么就是检测工具本身不准。“越来越多人在写作中用AI给的模板做参考或直接润色文字，AI已经在影响人类的用语习惯。”橙柿互动·都市快报记者童蔚

编辑： 郭静纠错：171964650@qq.com