Devin.AI:天价AI程序员,值回票价了吗?

文摘   2025-01-18 21:33   美国  
!关注不迷路


 

 

Devin.AI测评:火热赛道上的冷思考

要点总结:

  • • 高期望与低效用: 尽管 Devin.AI 获得了巨额融资和业界大佬的支持,并在演示中展现了惊人的潜力,但经过我们一个月的实际测试,发现其在多数情况下无法有效完成任务。20个测试任务中,仅3个成功,14个失败,3个结果不明确。
  • • 自主性成为双刃剑: Devin.AI 的核心特点——自主性,在实际应用中反而成为了它的主要缺陷。它常常在不可能完成的任务上浪费大量时间,而不是及时识别并反馈问题。
  • • 难以处理复杂任务: Devin.AI 能够胜任一些简单的代码生成和 API 集成任务,但在面对更复杂的场景,例如代码库分析、修改和调试,以及需要深入研究的技术难题时,往往表现不佳,生成的代码质量低下,甚至会引入新的错误。
  • • 与现有工具链整合困难: Devin.AI 在使用我们内部工具和一些特定技术栈时遇到了困难,即使提供了详细的文档和示例也无法解决。
  • • 开发者主导的工具更有效率: 相比之下,我们发现那些以开发者为主导,AI 辅助的工具,例如 Cursor,能够更好地满足实际开发需求,避免了 Devin.AI 的许多问题。
  • • 市场宣传与实际效用脱节: Devin.AI 的案例再次提醒我们,AI 工具领域的市场宣传和估值与其真实效用之间经常存在巨大差异,需要谨慎评估。

2024年3月,一家名为Devin.AI的新兴AI公司横空出世,获得了由 Founders Fund 领投的2100万美元A轮融资,并得到了Collison兄弟、Elad Gil等科技界大佬的支持。其团队成员更是来头不小——国际信息学奥林匹克竞赛 (IOI) 金牌得主,一群能够解决大多数人无法理解的编程难题的天才。他们的产品 Devin,承诺成为一个完全自主的软件工程师,可以像人类同事一样与你聊天,能够学习新技术、调试成熟代码库、部署完整的应用程序,甚至训练AI模型。

早期的演示令人印象深刻。一段视频展示了 Devin 独立完成 Upwork 赏金任务,在没有人工干预的情况下安装并运行 PyTorch 项目。(虽然该演示后来被证实存在问题)该公司声称,Devin 可以在 SWE-bench 基准测试中端到端地解决 13.86% 的现实世界 GitHub 问题,比以前的系统好约 3 倍。最初只有一小部分用户可以访问它,这导致 Twitter 上充斥着关于它将如何彻底改变软件开发的赞叹。

作为 Answer.AI 团队,我们经常试验 AI 开发者工具,Devin 的出现让我们感到与众不同。如果它能够实现哪怕一半的承诺,它就可能改变我们的工作方式。但是,虽然 Twitter 上充满了热情,但我们找不到多少人实际使用它的详细描述。因此,我们决定对它进行全面的测试,用一系列现实世界的任务来检验它。这就是我们的故事——一次对 2024 年最受追捧的 AI 产品之一进行的全面、真实的尝试。

Devin是什么?

Devin 的独特之处在于它的基础设施。与典型的 AI 助手不同,Devin 通过 Slack 运行,并启动自己的计算环境。当你与 Devin 聊天时,你正在与一个可以访问完整计算环境的 AI 对话——包括 Web 浏览器、代码编辑器和 Shell。它可以安装依赖项、阅读文档,甚至预览它创建的 Web 应用程序。

这种体验就像与同事聊天一样。你描述你想要什么,Devin 就开始工作。通过 Slack,你可以观察它思考问题,在需要时索取凭据,并分享已完成工作的链接。它在 Docker 容器中运行,这为其提供了安全实验所需的环境隔离,同时保护了你的系统。Devin 还提供了一个 Web 界面,你也可以通过它访问其环境,并实时观看它如何使用 IDE、Web 浏览器等工具。

初步的成功

我们的第一个任务很简单但很实际:将 Notion 数据库中的数据提取到 Google 表格中。Devin 以惊人的能力完成了这项任务。它导航到 Notion API 文档,理解了它需要什么,并指导我们完成在 Google Cloud Console 中设置必要凭据的步骤。它没有简单地丢给我们 API 说明,而是引导我们完成每个菜单和按钮点击——节省了通常需要进行的繁琐文档查找工作。整个过程大约花了一个小时(但只需要几分钟的人工交互)。最后,Devin 分享了一个链接,指向一个包含我们数据的格式完美的 Google 表格。

它生成的代码有点冗长,但可以工作。这感觉像是对未来的一瞥——一个可以处理那些消耗开发者大量时间的“粘合代码”任务的 AI。团队成员 Johno 也成功地使用 Devin 创建了一个行星跟踪器,用于揭穿关于木星和土星历史位置的错误说法。尤其令人印象深刻的是,他完全通过手机完成了这项工作,Devin 负责所有繁重的环境设置和代码编写工作。

扩大测试规模后遇到的问题

基于早期的成功,我们开始尝试 Devin 的异步功能。我们设想让 Devin 在我们开会时编写文档,或者在我们专注于设计工作时调试问题。但随着我们扩大测试规模,问题出现了。看似简单的任务通常需要几天而不是几个小时,Devin 会陷入技术死胡同,或者产生过于复杂、无法使用的解决方案。

更令人担忧的是 Devin 倾向于推进实际上不可能完成的任务。当被要求将多个应用程序部署到单个 Railway 部署时(Railway 不支持此操作),Devin 没有识别出这个限制,而是花了一天多的时间尝试各种方法,并虚构了不存在的功能。

最令人沮丧的方面不是失败本身——所有工具都有局限性——而是我们花了多少时间试图挽救这些尝试。

深入探究问题所在

在我们的旅程的这个阶段,我们感到困惑。我们已经看到 Devin 能够胜任 API 集成和构建功能应用程序,但它却在看似更简单的任务上苦苦挣扎。这仅仅是运气不好吗?是我们使用方式错误吗?

在一个月的时间里,我们系统地记录了我们在以下几类任务中的尝试:

  1. 1. 从头开始创建新项目
  2. 2. 执行研究任务
  3. 3. 分析和修改现有项目

结果令人失望。在 20 个任务中,我们有 14 个失败,3 个成功(包括我们最初的 2 个),以及 3 个没有定论的结果。更能说明问题的是,我们无法辨别出任何模式来预测哪些任务会成功。与我们早期成功案例类似的任务会以意想不到的方式失败。(我们在附录中提供了有关这些任务的更多详细信息)

团队反思

经过一个月的密集测试,我们的团队聚集在一起,总结了我们的经验。以下几句话最能体现我们的感受:

“它能做的任务是那些规模很小、定义明确的任务,我完全可以自己更快地完成。对于那些我觉得可以节省时间的大型任务,它很可能会失败。所以没有真正的利基市场是我想使用它的。” - Johno Whitaker

“我最初对它如此接近成功感到兴奋,因为我觉得我可以调整一些东西。然后,随着我不得不做出越来越多的改变,我慢慢地感到沮丧,最终到了我从头开始一步一步地做会更好的地步。” - Isaac Flath

“Devin 难以使用 AnswerAI 的关键内部工具,除了其他问题之外,这使得它难以使用。尽管我们为 Devin 提供了大量的文档和示例,但仍然存在这个问题。我没有发现像 Cursor 这样的工具存在这个问题,在 Cursor 中,我们有更多机会逐步引导事情朝着正确的方向发展。” - Hamel Husain

与 Devin 相比,我们发现开发者驱动更多(如 Cursor)的工作流程避免了我们在 Devin 中遇到的的大多数问题。

结论

与 Devin 的合作展示了自主 AI 开发的理想状态。用户体验很出色——通过 Slack 聊天,异步观看它的工作,看到它设置环境和处理依赖项。当它工作时,令人印象深刻。

**但问题是——它很少工作。**在我们尝试的 20 个任务中,我们看到了 14 个失败,3 个没有定论的结果,只有 3 个成功。更令人担忧的是我们无法预测哪些任务会成功。即使是与我们早期成功案例类似的任务,也会以复杂、耗时的方式失败。看似有希望的自主性变成了一个累赘——Devin 会花几天时间去追求不可能的解决方案,而不是识别根本的障碍。

这反映了我们在 AI 工具中反复观察到的一个模式。社交媒体的兴奋和公司估值与现实世界的效用关系不大。我们发现最可靠的信号来自于用户交付产品和服务的详细故事。目前,我们将继续使用那些让我们能够驱动开发过程,同时提供 AI 辅助的工具。

原文:

https://www.answer.ai/posts/2025-01-08-devin.html

 


如果您觉得这篇文章还不错,欢迎点赞、关注、转发。

如果您想要让大模型写出优质的短篇小说,以及对其他内容感兴趣,也欢迎点击下面的链接,效果不错哦,很多朋友都说好。

点击这里:超强写作提示词 以及 最强写作指导

效果如下


AI写作批改助手

雪花写作法

prompt自动优化

一文读懂4种AI Agent设计模式



草台AI
世界潮流 浩浩荡荡 顺之则昌 逆之则亡。AI来了!AIGC,LLM,大模型,规模效应,软件开发
 最新文章