奥赛满分金牌得主出品，硅谷诞生超级AI码农

文摘 2024-03-13 12:39 上海

又是让程序员们兴奋而焦绿的一刻，昨天业界又发布了一款 AI 编程产品 Devin。号称是业界第一个 AI 软件工程师。

作者 Scott Wu 曾是国际信息奥赛 (IOI) 连续三届的金牌得主，其中还有一届是满分。

Devin 背后的公司名字叫 Cognition。中文翻译就是认知，很契合。发布了不到 24 小时，推上就有了 4 万多粉丝。官号关注的 10 个人，看上去应该都是公司的员工，MIT，Stanford，Harvard，Google Brain。时代最优秀的大脑们，终于不再去思考如何让人们点击广告了。

Devin 官网也放出了和其他 LLM 大模型在 SWE-bench 下的表现对比。SWE-bench 收录的是 GitHub 上真实的问题。之前在没有辅助的情况下，表现最好的 Claude 2 也只有 1.96% 的完成度。即使在有辅助的情况下，表现最好的 Claude 2 也只有 4.8 %。

而 Devin 在没有辅助的情况下，一下子就把完成度提高到了 13.86 %。从 1.96% 到 13.86%，从相对提升来说惊人，但从绝对值来说，仍然略显寒酸。虽然 Devin 是随机取样了 25% 的数据进行测试，但作为一款专门针对编程场景的 AI，想必是针对 GitHub 数据进行了训练，那是否会有过拟合 overfitting 的问题，使得在基于 GitHub 数据的测试集上表现优秀？网友们也纷纷表达观点：

质疑派。又来一个画饼的！就在昨天，我想尝试从一个简单的网页里提取选择器，我试了 GPT-4-turbo，我试了 Claude，我试了 Groq，我试了本地的 LLama2，结果没一个能用的！我自己干 10 秒钟就搞定了！我已经被你们这些编程 AI 伤够了！（是不是还是氪金不够？说不定用 GPT-4 或者 Claude 2 就行了呢，甚至 Claude 3?）

实践保守派。又是一个被 VC 过早催熟的例子。我在这个领域干过一段时间，目前还处在实验室研究阶段，远未达到可以在日常环境使用的地步。

当然乐观派也很多，包括笔者在内，都已经习惯了每天和 GPT 对话写程序了。在写一些像 GitHub Action 这样的配置类文件时，GPT-4 的表现让我刮目相看。笔者也已经加入了 Devin 的 waitlist，想迫不及待地测试一下他的能力，先看看 Devin 能否优化我手上一批上百行的祖传 SQL 脚本吧。

不同于之前像 Copilot 这样的产品形态，Devin 确实更像是一个真正的软件工程师。Demo 里展示的 Devin 产品界面就是一个 IDE (Integrated Development Environment 集成开发环境)，不过这是专门为 AI 打造的。Devin 在这个 IDE 里完成各种编程任务，就像人类软件工程师在 VSCode 这样的 IDE 里干活一样。

之前我们讨论 LUI (Language UI) 或者 CUI (Chat UI)，是从人的角度去思考怎么更好地和 AI 交互。那如果从 AI 的角度去看呢？未来的 AI 软件工程师，是不是就应该有像 Devin 这样专门为 AI 们打造的工作环境？

Devin 提出的 AI 软件工程师概念确实足够吸引眼球。不过看着这 AI 日新月异的发展，这一天恐怕是迟早要来了。其实这在不算长的计算机历史上，也已经发生过了一回。

最早 Computer 计算机这个词，一开始指的就是做计算的人，是后来才被机器取代的。或许将来 Engineer 工程师这个词也会被机器取代吧，那人类最后的阵地就只剩下👇

但至少人人都是产品经理的夙愿，就一，定，要，实现现现～～～。

转转高效改表平台的演进之路

管理者经典难题，团队很烂，但把持核心业务，该怎么办？

MySQL 大战 PostgreSQL 第二回：呆瓜模式的分歧

给 GitLab 远程打工惊心动魄的真相 - 28号员工回忆录

DBA札记

dba 数据库知识科普踩坑指南经验分享原理解读

最新文章

Ape-DTS：开源 DTS 工具，助力自建 MySQL、PostgreSQL 迁移上云

12月28日，TiDB 社区活动（上海站）走进哔哩哔哩，一起探索国产数据库替换下简化技术栈的收益和实践，限量版 B 站周边等你领

走,晚上面试丁奇去

一等座

MySQL基础专栏 #0 mysql shell简介及用法

解锁新城市：TiDB 社区活动大连站——走进乐天 Rakuten：了解从数据库选型到运维 TiDB 为你带来的全新体验！

#13《并发场景、锁和死锁》

我准备好了，你呢？

A股暴涨，见证历史，多少人财富自由的梦想又蠢蠢欲动了

GitHub使用极简指南

在k8s上部署TiDB数据库

大厂MySQL DBA面试题全解析

k8s重要概念-0 Service

写一个符合大厂MySQL内核主干标准的功能，难不难？

frp实现远程ssh访问家里PC笔记本

黑神话:悟空背后的黑科技

手把手教你实现一个 SQL 审核插件

linux内核追踪分析工具

MySQL里那些“一眼bug”的案例们（一）

Redis运行原理-过期删除（上篇）

中国数据库技术大会（DTCC2024）—— 共绘数智未来新篇章，留言点赞送票

超强mysql灾难恢复工具--ibd2sql

C++ 11新特性— lambda表达式、std::function、std::bind

招聘信息

MySQL9.0 来了，支持向量！！！

多租户对分布式数据库的重要性

国产数据库该不该搞oracle兼容？

两条命令就能运行属于自己的开源大模型，就问香不香?

这条命令有可能断送DBA职业生涯，我今天真的执行了

MySQL 优化器源码入门-内核实现 FULL JOIN 功能

TiDB忘记root密码怎么修改？

学习TiDB的一些感受

怎么查看linux系统调用用法？

ELF格式及其常用的几个函数

数据库与万有引力

DB圆桌派第一期：MySQL高可用那些事儿

MySQL 必备工具：SQL Developer

送书啦！！！

想学数据库技术吗？fellow me

奥赛满分金牌得主出品，硅谷诞生超级AI码农

MariaDB到MySQL数据迁移案例分享

MySQL常用命令总结

两条重要的命令

中国企业常用人力资源系统及兼容数据库

MySQL8.0.32版本一个严重Bug及解决方案

给大家一些“鸡汤”共勉

DBA必须了解的开源项目：mayfly-go

MySQL8.3发布

2023年简单总结

ChatGTP在数据库中的应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉