每月3500的AI码农Devin,还是140的编程神器Cursor?实测来了

文摘   2024-12-20 17:09   上海  

FUTURE | 远见


FUTURE | 远见 闵青云 选编

狠人来了,Devin刚发布,网友Steve (不是普通网友Builder.io的CEO)就花了500美金订阅了,并与20美金的编程神器Cursor进行的对比评测,看完你再决定是否用3500一个月的Devin还是140的Cursor吧。以下是评测结果。


Devin主要基于Slack工作流:


Devin主要通过Slack交互,而非IDE集成。用户在Slack中标记@devin并提出请求,例如更新代码、修复bug等。Devin的界面包括远程服务器、浏览器、VS Code编辑界面和计划器,用户可以逐步查看Devin的操作和进度。



Devin的实际测试:


Steve首先测试了一个可以在消费级硬件上运行的小型图像生成模型。由于他不懂Python也不知道如何操作,便请求Devin帮他运行。Devin成功克隆了代码库,启动程序,并生成了想要的猫咪图片。随后,Steve又要求它生成四张狗狗乘坐热气球的图片,虽然生成的图像质量略显惊悚 (这当然不是Devin的错,而是模型本身的问题),但Devin的确完成了任务。


接着,Steve尝试让Devin为这个图像生成模型添加一个基于Web的UI界面,以便输入提示词并查看生成的图像。Devin开始工作并发送更新,过程中它会记录笔记并存储在notes.txt文件中,以便在后续步骤中引用和使用,这似乎是一种总结重要信息并跨步骤传递的有效方法。Devin有时还会创建「知识条目」,即一些可能在后续子令牌运行中用到的有用信息片段,并将其存储和查找,模拟团队内部的知识积累。


总的来说,Devin表现出色。它能够创建计划、编写代码、查找和修复代码中的bug,甚至进行端到端测试以验证功能。它还能响应用户反馈并尝试解决问题。任何你在Slack中的回复,Devin都会尝试回复。例如,它能够识别部署问题并持续调试,虽然最终未能解决问题,但其努力尝试的过程值得肯定。


Devin的一些问题:


工作流程不理想:Devin的工作流程并非个人偏好。提交请求后等待15分钟才能收到PR,然后在PR上来回沟通。个人更喜欢在本地IDE中进行所有操作,实时查看更新,并在本地提交和调试,而无需跳转到远程服务器和其他不熟悉的工具,以及忍受漫长的等待和延迟。


可靠性有待提高:Devin的理念是让异步代理同事处理任务,并并行执行多项操作,最终向你提供结果。但这只有在Devin足够可靠的情况下才是一个高效的工作流程。让AI自己去执行任务,除非你非常确信它能够可靠地完成。否则,宁愿使用自己的IDE来完成。


其他bug: 在测试过程中,Devin还出现了一些其他问题,例如无法正确生成拉取请求、添加不必要的代码、无法响应反馈等,虽然这些问题并非无法解决,但也影响了使用体验。


与Cursor的比较


与Devin相比,Cursor代理的优势在于无需手动添加文件到上下文,它会自动扫描代码库并添加相关文件。在同样的任务中,Cursor代理能够快速准确地完成代码修改,并且能够实时控制和查看更新,无需等待和跳转到其他工具。这种实时交互和掌控感让你对Cursor代理更有信心。


在GraphQL后端功能的测试中,Cursor代理也取得了与Devin类似的结果,成功添加了Comments Resolver并将其集成到API中。此外,Cursor代理在运行命令前会进行确认,更加谨慎,这对于在本地机器上运行的工具来说是一个重要的优势。


总结


虽然Devin在AI编码领域展现出一定的潜力,但它不太可能像Cursor那样迅速普及。这不仅仅是因为500美元的月费,更重要的是Cursor代理更容易上手,其增量式方法也更符合个人的工作习惯。Devin试图一步到位,并以代理驱动开发的新方式为噱头筹集资金(据说devin已经估值20亿美金了),但这并不是理想中的工作流程。也许当大型语言模型更加完善,代理更加可靠时,Devin的价值才能真正体现出来。但个人更看好Cursor的增量式方法,而不是Devin的全面改革式方法。


尽管如此,仍然很高兴看到AI编码领域出现新的竞争者,这将推动Cursor进一步发展。期待看到Devin的未来发展。


--AI寒武纪


延伸阅读



FUTURE|远见

End


FUTURE远见
远见拓边界,卓识创未来
 最新文章