知网是如何检测AIGC的?为什么你的论文会被判定为AI生成?

知网是如何检测AIGC的?为什么你的论文会被判定为AI生成?
本文由XYZ SCIENCE官方撰写,未经授权禁止转载
XYZ SCIENCE是国内唯一以自研模型技术提供论文降AI率解决方案的平台,所有用户可以免费使用(www.xyzscience.com

AIGC检测原理

AIGC检测主要有两种方法:一种是传统的统计学方法,另一种是基于深度学习模型(通常是BERT模型)的风格分类方法。

先说结论: 

✅ 知网的AIGC检测由以前的统计学方法升级为了BERT检测模型,这就是为什么之前ai率为0的论文,在知网升级后再去检测会变为100%。

image.png

接下来我们分别介绍以下两种方法是如何进行检测的,我们尽量使用通俗易懂的语言来讲解。

统计学方法

主要统计你论文中的一些特征值是否符合AI论文特征,例如困惑度、突发性等等,我们以突发性(这个概念非常好理解)为例,过一遍检测流程。

突发性:输入内容的每个句子的长度分布。

如果你的论文内容有10句话,每句话都是40-50个字长度,那么你的内容突发性就是很低。

如果每一句长度都一样,那么突发性为0。

AI写的论文的一个特征就是,每个句子长度很相近,即突发性很低。

image.png

也就是说,如果单纯看这一个特征,当你的输入内容每个句子长度都差不多时,就会被判定为AI写作。

深度学习方法

然后我们重点介绍深度学习方法,基于Transformer架构的BERT分类模型:

该方法旨在用大量的人类写作论文数据+AI写作论文数据去训练一个模型,让该模型学会区分这两种写作风格,然后用于AIGC检测。

简单理解,可以将模型理解为一个人,让他每天都去阅读大量的AI论文和人类论文,经过长时间学习,这个人能一眼看出你的论文是不是AI写的

image.png

总的来说,统计学方法就是单纯的计算表面特征,BERT方法是深度理解内容然后区分写作风格。

所以在知网升级前(Turnitin也是如此),用一些指令让AI进行改写,或者直接将所有句号改为逗号等等操作,对于降AI率非常有效,因为这本质是改变统计方法中统计的那些特征值,如突发性。
但是知网升级后,BERT模型可不管你逗号句号的,它负责整体理解内容并判断,只要你还是用AI改写的,那依旧逃不过检测。

image.png

那么,为什么 BERT 对AI生成内容检测如此严格?

用指令二次改写也无法逃过?

image.png

因为现有的AI模型如GPT、DeepSeek等,是基于Transformer架构,而BERT检测模型也是基于Transformer架构,不同的是:

✅  GPT 使用Transformer架构 生成内容(例如生成论文)

✅  BERT则是使用Transformer架构 理解内容(识别论文风格)

所以,你让AI去改写AI生成的内容,本质上还是AI在输出,那么就很难逃过被检测识别的命运。

我们如何解决降AI率

根据检测原理,针对性的开发相应的对抗模型。

从零开始训练一个模型,让它从“出生”那一刻起就学习——像人类一样写作。

不是微调、不是模仿现有 AI 的语料,而是真正意义上:

让模型从第一行参数开始,就只接触人类写作,而不是AI生成内容。

image.png

第一步:训练 AI 文本检测模型

我们先用 BERT 架构训练了一个检测模型,让它学会:

✅ 区分人类写作 vs AI 写作
✅ 判断文本是否具有“人类风格”

简单说,这个模型就是我们之前提到的和知网一样的 AIGC检测器

注意:只是技术架构相同,但是训练数据不同,检测结果不会完全一致


 第二步:训练写作模型

然后我们用700万篇论文数据构成的语料,从零开始训练一个生成模型(写论文的模型),让它学习:

  • 人类写作逻辑
  • 语言风格
  • 文章结构
  • 表达方式
让模型真正理解人类是怎么写文章的,而不是照搬模板。

我们把两个模型连起来:

✅ 写作模型生成内容
✅ 检测模型判断“像不像人写的”
✅ 给出评分和反馈
✅ 写作模型根据反馈继续学习

形成一个闭环:

写作 → 评估 → 改进 → 再写

image.png

最终成果  我们得到两款核心模型:

✅高精度 AIGC 检测模型
用于判断论文内容是否为 AI 生成(AI风格)

✅人类风格写作模型

可以将任何AI生成的论文改写为人类的写作风格

注:所有训练数据均为论文,所以模型不适合其它领域(如小说、新闻等)

预计12月份推出一个更强大的新模型

碎碎念

AI的出现应该是辅助我们提升写作效率,而不应该在查重的基础上,再让我们背上AIGC检测的包袱。

论文查重尚可理解,哪里标红都有解释,重复段落是和哪篇文章重复了,那么ai率呢?作何解释?完全的黑箱操作,平台说啥就是啥!

各个平台,如知网、万方、维普等对于同一篇论文的检测结果都不一样

因为AIGC检测结果无法解释,靠写作风格判定

image.png

前文我已经介绍,训练一个这样的检测器,没什么技术难度(当然也没什么成本),主要是数据方面,也就是说:

这些所谓的提供AIGC检测服务的平台,基于大量的学生毕业论文(期刊论文)去训练模型,然后再反过来向学生收取高昂的检测费用,形成一个完美的商业闭环。perfect!

image.png

对于一个学生来说,动辄几十上百的AIGC检测费用,合适吗?

(如果任何学校或学术机构愿意使用我们的AIGC检测模型作为替代方案,请联系我们,我们可以免费提供模型并辅助部署)

Read more

人工智能:自然语言处理在教育领域的应用与实战

人工智能:自然语言处理在教育领域的应用与实战

人工智能:自然语言处理在教育领域的应用与实战 学习目标 💡 理解自然语言处理(NLP)在教育领域的应用场景和重要性 💡 掌握教育领域NLP应用的核心技术(如智能问答、作业批改、个性化学习) 💡 学会使用前沿模型(如BERT、GPT-3)进行教育文本分析 💡 理解教育领域的特殊挑战(如多学科知识、学生认知差异、数据隐私) 💡 通过实战项目,开发一个智能问答系统应用 重点内容 * 教育领域NLP应用的主要场景 * 核心技术(智能问答、作业批改、个性化学习) * 前沿模型(BERT、GPT-3)在教育领域的使用 * 教育领域的特殊挑战 * 实战项目:智能问答系统应用开发 一、教育领域NLP应用的主要场景 1.1 智能问答 1.1.1 智能问答的基本概念 智能问答是通过自然语言与用户进行交互,回答用户问题的程序。在教育领域,智能问答的主要应用场景包括: * 课程问答:回答课程相关的问题(如“什么是机器学习”

AI时代人人都是产品经理:落地流程:AI 核心功能,从需求到上线的全流程管控方法

AI时代人人都是产品经理:落地流程:AI 核心功能,从需求到上线的全流程管控方法

AI的普及正在重构产品经理的工作模式——不再依赖传统的跨部门协作瓶颈,AI可以成为产品经理的"全职助手",覆盖需求分析、原型设计、开发协同、测试验证全流程。本文将拆解AI时代产品核心功能从0到1落地的完整管控方法,让你用AI能力提升300%的落地效率。 一、需求阶段:AI辅助的需求挖掘与标准化 需求是产品的起点,AI可以帮你从海量信息中精准定位用户真实需求,避免"伪需求"浪费资源。 1. 需求挖掘:AI辅助用户洞察 传统需求调研依赖问卷、访谈,效率低且样本有限。AI可以通过以下方式快速完成用户洞察: * 结构化处理非结构化数据:用AI分析用户在社交媒体、客服对话、应用评论中的碎片化反馈,自动提炼高频需求点 * 需求优先级排序:基于KANO模型,AI可以自动将需求划分为基础型、期望型、兴奋型、无差异型四类,输出优先级列表 实战工具与示例: 使用GPT-4+Python脚本批量处理应用商店评论: import openai import pandas as

Flutter 三方库 algolia_client_recommend 的鸿蒙化适配指南 - 打造 AI 驱动的个性化推荐引擎、助力鸿蒙端电商与内容应用转化率倍增

Flutter 三方库 algolia_client_recommend 的鸿蒙化适配指南 - 打造 AI 驱动的个性化推荐引擎、助力鸿蒙端电商与内容应用转化率倍增

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 algolia_client_recommend 的鸿蒙化适配指南 - 打造 AI 驱动的个性化推荐引擎、助力鸿蒙端电商与内容应用转化率倍增 前言 在 OpenHarmony 鸿蒙应用全场景连接的商业版图中,“信息找人”已成为提升流量价值的核心逻辑。无论是电商应用的“经常一起购买”,还是内容平台的“相关推荐”,高质量的个性化算法能显著降低用户的决策成本。algolia_client_recommend 作为一个连接 Algolia 顶尖 AI 推荐服务的专业客户端,为开发者提供了一套开箱即用的推荐逻辑封装。本文将详述如何在鸿蒙端利用此库构建“读懂用户”的智能化交互。 一、原原理分析 / 概念介绍 1.1 基础原理 algolia_client_recommend 的核心逻辑是 基于意图建模的异步推荐查询与联合过滤机制

Plottable高级图表制作:从散点图到堆叠面积图的10种实现方法

Plottable高级图表制作:从散点图到堆叠面积图的10种实现方法 【免费下载链接】plottable:bar_chart: A library of modular chart components built on D3 项目地址: https://gitcode.com/gh_mirrors/pl/plottable Plottable是一个基于D3.js构建的模块化图表组件库,为开发者提供了创建灵活、定制化图表的强大工具。这个开源项目专注于"组合优于配置"的理念,让你能够像搭积木一样构建复杂的图表系统。通过Plottable的高级图表制作功能,你可以轻松实现从基础散点图到复杂堆叠面积图的各种数据可视化需求。😊 为什么选择Plottable进行高级图表制作? Plottable不是一个传统的图表库,而是一个图表组件库。这意味着你拥有前所未有的灵活性来创建自定义图表。与直接使用D3相比,Plottable提供了更高层次的抽象,让图表制作变得更加简单快捷;与传统图表库相比,它又提供了无与伦比的定制能力。 核心关键词:Plottable图表制作、D3图表组件、高级数据可