百万次用户调研:真实世界中人用大模型在干什么?

科技   2024-12-13 12:21   北京  

AI提供商面临着双重责任,既要确保其系统的安全性,又要保护用户隐私。





Key Takeaways:


Anthropic 在北京时间12月13日发布最新研究,推出clio工具探索AI安全使用,其中一个突出特点是其隐私保护分析能力,确保了在深入了解AI使用模式的同时,用户的隐私能够得到保障。

Anthropic使用Clio分析了100万次用户与Claude的对话,发现使用Claude编程的用户占比很高,教育方面(涵盖数据分析、材料撰写等)也非常显著;其他还有许多非常有意思类似于解梦、预判足球比赛的问答。

Clio在促进AI开发者的透明性和责任感方面也起着至关重要的作用,通过公开讨论Clio的开发方法和实施过程,企业能够推动道德AI开发的规范。

尽管Clio是一个重要的进展,但它并不是最终的产品。该工具仍在持续开发中,正在进行改进,以提高其准确性和效果。

总的来说,Clio代表了向更安全、更道德的AI系统迈出的重要一步。通过实现隐私保护的现实世界AI使用分析,Clio为识别和缓解风险提供了有效的机制,同时保护了用户隐私,其持续的开发和透明的方法为未来AI系统的负责任建设设立了强有力的先例。

Clio为AI安全与隐私能够并行存在提供了希望,表明这两个目标可以在人工智能领域内共存并相辅相成。

为什么要推出Clio?

因为大语言模型能做的事情规模和种类非常庞大及复杂,理解其用途,进行全面的安全监控,是非常困难的事情……

出于安全性、好奇心、以及预测技术发展方向、未来如何更好管控AI,Anthropic进行了一次深度研究。

为了在严格保持用户隐私的前提下,研究和观察系统是如何被使用Anthropic推出了Claude洞察与观察工具(Clio)。

Clio是一种自动化分析工具,它能在保护隐私的前提下分析真实世界中的语言模型使用情况。

它让管理开发团队能够像使用Google Trends一样,洞察用户日常使用claude.ai的情况,同时也帮助改进安全措施。

Clio工作原理:大规模隐私保护分析

Clio的工作原理是获取真实世界的对话,在删除识别信息的同时对其进行总结,并将这些摘要聚类以揭示汇总的见解。

并且他们承诺,这个过程在一个安全的环境中进行——只有最终的、高层次的见解对人类分析人员是可见的。

以下是Clio的多阶段处理过程的简要总结:
  1. 提取facets:对于每一段对话,Clio会提取多个“facets”——这些是具体的属性或元数据,例如对话主题、对话回合数或使用的语言等。

  2. 语义聚类:相似的对话会根据主题或大致内容自动归类。

  3. 聚类描述:每个聚类会得到一个描述性标题和摘要,捕捉原始数据中的共性主题,同时排除私人信息。

  4. 建立层次结构:聚类会按层次结构组织,方便进一步探索。最终,分析师可以通过交互式界面,按主题、语言等维度探索不同的模式。
这些步骤完全由Claude系统驱动,而非人类分析师。
这也是Clio工具隐私优先设计的一部分,确保通过多重防护层实现“深度防御”。
例如,Claude被指令从对话中提取相关信息时,自动省略私人细节。
此外,Anthropic设置了一个最低阈值,要求每个话题或对话必须涉及一定数量的用户或对话,避免低频话题(可能与个别用户相关)无意中泄露。
最后,Claude还会在显示给人类用户之前,检查聚类摘要,确保其中不包含过于具体或具有识别性的信息。

研究揭示:大家都在用Claude做什么?

这次研究,Anthropic使用Clio分析了100万次用户与Claude的对话(涵盖免费和专业版用户),以识别人们使用Claude的主要任务。

结果显示,编程相关的任务占据了显著比例:“Web和移动应用开发”类别的对话占比超过10%。

软件开发人员使用Claude执行从调试代码到解释Git操作和概念等任务。

教育也是排行也很高的类别,超过7%的对话集中在教学与学习方面。

大比例的对话(接近6%)涉及商业战略和运营,包括撰写专业沟通文稿和分析商业数据等任务。

Clio还识别出了成千上万个较小的对话群体,展示了Claude多样化的使用场景。

包括:

  • 解梦

  • 足球比赛分析

  • 灾难准备

  • 猜字谜提示

  • “龙与地下城”游戏

  • 计算“草莓”一词中的字母“r”数量

除此之外,Claude的使用在不同语言之间也呈现出显著差异,反映了不同文化背景和需求的差异。

此次研究计算了每种语言在整体对话中的出现频率,并由此识别出一些特定语言在某些话题上的频繁出现,其中就包含中文,占比非常高。

是如何通过Clio改善安全系统的?

除了训练大语言模型拒绝有害请求外,Anthropic还使用专门的信任与安全执法系统来检测、阻止并对可能违反使用政策的行为采取措施。
Clio在这项工作中发挥了补充作用,帮助识别在哪些方面可能有改进和加强的机会。
基于有个别账户的话题可能需要审核,Anthropic对谁能使用Clio实施了严格的隐私访问控制,以进一步遵守与执行任务。
这部分的权限由Anthropic信任与安全团队所有,他们负责审查话题集,以识别可能违反使用政策的领域。
例如,一些涉及到政策禁止的话题,“为募捐邮件生成误导性内容”或“煽动仇恨行为”等等。
信任与安全团队可以使用自下而上的审查方法,识别需要进一步审查的个别账户,并在适当时根据Anthropic的条款和政策采取行动。
当然这类型审查仅限于具有合法信任与安全需求的人员。
当下,Anthropic正在在将Clio推广到所有执法系统中,目前为止,clio已经被证明是团队安全工具包中的有用组成部分,帮助发现那些需要加强保护措施的领域。
Anthropic举了几个例子来说明Clio的出色表现:
在识别和阻止滥用行为方面:九月末,有一个使用相似提示结构来生成搜索引擎优化垃圾邮件的自动化账户网络。虽然单个对话并未违反使用政策,但跨账户的行为模式被clio识别,揭示了他们明确禁止的协调性平台滥用行为。
还有,类似试图转售未经授权的Claude访问权限等违法行为也能被Clio发现。
此外,Clio还帮助团队在不确定时期或高风险事件期间,监控新的使用场景和潜在风险。
例如,在为推出“新计算机使用功能”进行广泛安全测试时,团队使用Clio筛查了可能被忽视的突发能力和危害。Clio在整个过程中提供了额外的风控保障,并且给出了有助于在发布过程中,以及未来版本中不断改进安全措施的见解。
在监控重大公共事件(如选举或国际大事)的未知风险Clio也能起到作用。
2024年美国大选前的几个月里,团队使用Clio识别了与美国政治、选举和相关问题有关的活动集,并防范可能的风险或滥用行为。
总体而言,Clio与Anthropic现有的信任与安全分类器在哪些对话集被认为“需要关注(可能有违反规则)”上达成了一致。
当然,对于某些话题集,也存在一些分歧。
目前发现,Clio需要改进的地方是假阴性(当系统未能标记某些实际上有害的对话时)。
例如,当用户要求Claude进行语言翻译时,AI系统有时未能标记违反政策的内容,但Clio则能够发现这些对话,反之,也有可能。
但也进一步表明了Clio的有用性和进一步优化的必要性。
Clio相关团队也表明致力于优化该系统,帮助更好地识别新出现的风险并防范不断变化的滥用模式。
也提醒人们AI安全是一个持续的挑战,需要不断的创新和适应新的威胁。

资料来源:https://www.anthropic.com/research/clio

阅读


END

亿欧网
科技与产业创新服务平台
 最新文章