过去两年里,美国的上班族和学生都“恨”上了一个人,他的名字叫做Edward Tian。
2022年底,普林斯顿的大学生Edward Tian花了一个寒假的时间研发出了GPTZero,专门用于识别AI生成的文字内容,该产品推出后迅速走红,成为了教育界和科技界关注的焦点。
当AI产品与服务大行其道时,一些领域就产生了识别AI的需求。例如AIGC应用铺开时,教师需要判断学生交上来的内容是不是通过AI生成的,政府机构在查看材料时判断数据是不是AI自动生成的。
Edward Tian设计的GPTZero,就是检测“一段文本是否是 AI 生成”的应用,设计之初专注于教师群体,旨在帮助教师检测人工智能生成的学生作业,并且与美国教师联合会达成协议。
截至今日,GPTZero用户规模已增长到400万,6个月狂涨300万用户,ARR在六个月内增长了500%并实现盈利。Edward Tian还因此拿到了350 万美元的风投基金,创办同名的公司GPTZero。
通常情况下,人类在写作时会有独特的习惯且会下意识改变句子的构造,而在目前大模型的水平下,AI在组成句子时容易产生幻觉且有高度的相似性,这就为检测创造了可能。
GPTZero模型采用了多层方法和端到端深度学习模型,核心都是利用目前LLM模型的生成原理或者弱点来进行突破检测。
GPTZero主要通过检测输入文本的“困惑度”(Perplexity)和“突发性”(Burstiness)这两项指标来进行分析。通过对这两个指标的评分,GPTZero能够基于统计特征判断文本是由人工智能还是人类所写。如果这两项得分都非常低,那么文本很有可能是机器生成的,反之则为人类所写。
用户将文本粘贴到GPTZero平台,GPTZero利用大量人类写作和AI生成文本的多样化语料库进行训练,通过对句子、段落和整篇文档的综合分析,评估语言特征和写作风格的细微差异,生成详细的报告,标记可能的AI生成内容,帮助用户理解检测结果。
官方表示ZeroGPT使用DeepAnalyse技术加上超过一千万篇文章进行训练,得出具有98%准确率的模型,目前可以检测ChatGPT文本、Google BARD或任何其他AI生成的文本。
ZeroGPT因其检测精度受到了广泛好评,政府采购机构、拨款组织、招聘经理、人工智能训练数据标注员等也在采购使用GPTZero。
对于普通人来说,ZeroGPT可以用来检测信息是否为AI生成的假新闻,从而减少假新闻的传播,降低识别成本。ZeroGPT官方表示未来目标将分析超过10亿篇的文章,并将错误率压低到1%以下。
除了文本检测领域,GPTZero的远期目标定位于研究AI幻觉检测。由于幻觉是AI行业的顽疾,GPTZero决定推出LLM训练数据集的免费AI文本版权检查,从而生成更广泛的幻觉检测训练数据。
事实上,在AI行业如火如荼发展的当下,与之相对应用于识别是否是AI生产内容的反AI产品也成为行业研究的重点。
今年8月,多家外媒爆料OpenAI已经研发出方案,能够检测到是否有人使用 ChatGPT完成作业或者撰写研究论文,但没有将解决方案对外公开。
事实上,早2023年1月OpenAI就曾发布了一种算法,旨在检测由包括其自家模型在内的多种AI模型编写的文本,但成功率只有6%,七个月之后,OpenAI 决定将其撤回。
此外,斯坦福大学研究团队推出的DetectGPT、我国西湖大学文本智能实验室研发的Fast-DetectGPT等都是检测AIGC的算法程序。
AIGC与检测AIGC的算法,就像矛与盾之间的关系,看似水火不容,其实相辅相成。检测AIGC的算法主要针对的是AIGC的漏洞与幻觉,反过来会促进AI行业的发展。
文字、图片来源于网络