仅一个晚上过去,Claude 3.5 的重磅升级令整个 AI 圈都为之一震:
“ChatGPT 很好,但我宣布今天过后 Claude 3.5 Sonnet 赢疯了!”
“太疯狂了!Anthropic 刚发布了 Claude 3.5 Sonnet & Haiku,它将彻底改变 AI Agent 的游戏规则。”
像人一样操控电脑
Claude 3.5 Sonnet 能够像人类一样使用计算机,这一突破性的新功能令人惊叹。它可以观察屏幕,通过分析屏幕截图来识别用户界面元素。实现原理是利用多模态能力,理解图像和视频内容,在执行任务时进行视觉识别和操作。
下图为网友展示的,仅用三分钟就做成了一个90年代背景风格的个人网站展示:
再例如,当需要查找信息时,它会自行打开浏览器进行搜索,如在为用户安排去金门大桥看日出的行程时,它会打开 Google 查找观赏地点、开车时间和日出时间,然后在日历中安排活动。
在自动编码写网站任务中,它能在小哥的 Chrome 浏览器中导航到 Claude.ai,输入网址、键入提示并向另一个 Claude 发出请求,还能下载文件、在 VS Code 中打开并进行代码修复。
在自动寻找数据填表任务中,它可以截取屏幕截图,当发现所需信息不在表格中时,会切换到 CRM 系统中搜索并提交表格。其实现原理是通过 API 感知并与计算机界面进行交互,开发者可将用户指令翻译成计算机可执行的指令。
虽然目前该功能处于实验阶段,使用起来可能有些笨拙且速度较慢,但为未来的 AI 发展开辟了新的方向。
(二)编码能力大幅提升
升级后的 Claude 3.5 Sonnet 在行业基准测试中编码能力有了显著提升。在 SWE-bench Verified 测试中,性能从 33.4% 大幅提升至 49.0%,超越了所有公开可用的模型。
在处理复杂任务方面表现出色,例如在客户服务和多步骤流程的协调中,它可以解决 64% 的编码难题。客户反馈显示,在 GitLab 的 DevSecOps 任务测试中,其推理能力明显提升,且没有增加延迟。在数据可视化方面,它展现出惊人的图像理解能力,尤其在处理图表和数据时表现优异,适用于零售、物流和金融等多个行业。
(三)Claude 3.5 Haiku 推出
Claude 3.5 Haiku 具有诸多特点。在性能上与 Claude 3 Opus 相当,成本和运行速度与上一代 Haiku 保持一致。在智能基准测试中表现出色,特别是在编码任务上。它在 SWE-bench Verified 测试中的得分达到了 40.6%,显示出其在编程任务上的能力。低延迟和出色的指令理解能力使其非常适合开发用户产品、处理子智能体任务。
它还能从大量数据中生成个性化体验,如购买记录、价格或库存信息等。同时,它引入了 “计算机使用” 功能,使 AI 能模拟人类与计算机的交互方式。
此外,它使用了一种名为 “Unstructured Generalization” 的算法,让 AI 在处理非结构化数据时更加有效,并致力于扩展模型在复杂推理与问题解决方面的能力,为其 AI 模型提供了一套明确的行为原则。常见用例包括代码补全、交互式聊天机器人、数据提取和标记、实时内容审核等。
三、对用户的影响
(一)工作效率提升
Claude 3.5 在工作中的表现可谓卓越。在重复性劳动方面,比如数据录入工作,以前需要人工逐个输入大量数据,耗时且容易出错。现在,Claude 3.5 可以自动截取屏幕截图,识别数据并准确填写表格,极大地提高了工作效率。以一家电商企业为例,过去处理订单信息可能需要多名员工花费数小时,现在借助 Claude 3.5,时间缩短至原来的几分之一。
在复杂任务中,如软件开发,它不仅能自动生成代码,还能进行调试和优化。开发人员只需提供简单的需求描述,Claude 3.5 就能快速生成高质量的代码,大大减少了开发时间和成本。对于文案撰写工作,它可以根据给定的主题和要求,快速生成丰富、准确的文案内容,让创作者从繁琐的文字工作中解脱出来,有更多时间进行创意构思和深度思考。
(二)新的应用场景
在编程领域,Claude 3.5 成为了程序员的得力助手。它可以根据用户的需求自动生成代码,无论是 Python、Java 还是 C++ 等多种编程语言,都能轻松应对。
在数据处理方面,它能够快速分析和整理大量数据,为企业提供准确的数据分析报告。例如,金融机构可以利用它来分析市场数据,预测趋势,为投资决策提供支持。
在网站设计中,它可以根据用户的喜好和需求,自动生成美观、实用的网站布局和设计方案。教育领域也能看到它的身影,为学生提供个性化的学习建议和辅导,帮助教师自动批改作业和试卷。医疗领域,它可以协助医生分析病历数据,提供诊断建议,提高医疗效率和准确性。
(三)安全风险与展望
随着 Claude 3.5 计算机操控能力的增强,安全风险也不容忽视。一方面,可能会成为网络攻击的新载体,增加垃圾邮件、虚假信息等潜在威胁。恶意攻击者可能利用其强大的功能进行非法活动,如窃取敏感信息、破坏系统等。
另一方面,数据隐私也面临挑战。在使用 Claude 3.5 处理数据时,可能会涉及到用户的个人信息和商业机密,如果安全措施不到位,很容易被泄露。然而,这并不意味着我们应该抵制它的发展。未来,随着技术的不断进步,安全问题将逐步得到解决。
开发者可以通过建立更加严格的安全机制,如加密技术、访问控制等,来保护用户的数据安全。
同时,不断改进算法,提高模型的安全性和可靠性。展望未来,Claude 3.5 将在更多领域发挥重要作用,其功能将不断完善和扩展,为用户带来更多的便利和价值。