Hui:
—— XNG
我是Hui,来自D轮公司XNG,今年专注于孵化出海项目。公司上半年给了我一个任务:一个人能否完成coding、产品、运营和投放?于是我尝试了几款工具,分别分享我的体验。一开始使用Copilot时,我直接让它帮我写一个Web APP。它给的建议很不错,例如应该建哪些文件、如何部署到云端。但实际用下来有两个问题:1. 代码修改不方便:每次修改需要手动拷贝代码到源文件,稍有错误就容易崩溃。2. 不保存对话记录:上下文记忆有限,更像是为程序员设计的工具。在开发第二个产品时,我使用了Cursor。相比Copilot,它更适合像我这样的产品经理或独立开发者:1. 代码修改更直观:直接标出红绿对比区域,点击即可修改,无需手动操作。2. 上下文记忆强:可以指定一个公共文件夹存储核心代码文档,Cursor会自动读取这些文档,结合上下文给出更精准的反馈,仿佛内置了一个小型RAG(检索增强生成)。3. UI和交互优越:操作体验显著好于Copilot,虽然响应稍慢,但精准度提升明显。Cursor的20美元订阅费完全值得,它帮助我节省了大量时间,提升了效率。更让我惊讶的是,它作为新产品的用户量已远超Copilot,证明好的交互设计对效率工具至关重要。BOLT让我更惊艳。使用短短十几分钟后,我就选择付费,因为它能从需求到代码,再到云端部署一气呵成。1. 自动化程度高:不仅编写代码,还能直接部署到云端,甚至在代码运行出错时主动提示“是否修复问题”。2. 问题:自动化虽然强,但bug修复较困难,后期完成度有待提高。这可能影响留存率,但从开发未来来看,它代表了下一代产品的方向。从这三款产品的代际来看,BOLT更像下一代工具,直接聚焦最终输出需求,能自动完成非人工必要的流程,且适用于特定场景如Web APP开发。这种全自动、场景明确的设计大幅提升了付费意愿。作为商科出身的人,这些工具大大增强了我的coding信心。现在,我觉得早期创业时,完全可以独立完成前两版Prototype开发。
蒋耀锴:
—— Zion/Momen
大家好,我叫蒋耀锴,是函子科技的CEO,我们是做无代码开发的,我们公司所有的工程师我都给他们买了Copilot,我自己是两个都买了,有的时候用Copilot,有的时候用 Cursor。我在复杂的项目上面只会用 Copilot,因为我不想让 Cursor 给我生成这么多东西,因为无法控制啊。有一次我尝试用 Cursor 做 knowledge Automation 的东西,写了 2, 000 行都不到的代码之后,已经改不下去了。所以稍微复杂点都不行,但是如果是小的东西的话,Cursor 比 GitHub Copilot 要快很多很多,因为它的 UX 是更好的。 BOLT 我也试过,问题是跟Cursor很像的,就是做一个大的东西,非常容易丧失控制。
尽管我们是看着Cursor、BOLT写代码,但是在里面花的思路是比较少的,所以到最后是做不出来。Copilot 的好处是它限制的很大,输出的可预期性是非常强。它的价值的可预期性非常强,我完全知道他在下一步会给我带来什么样的价值。
所以我们就一直在用Copilot开发,Cursor 可能用一点, BOLT 直接不用了,付了钱也没有用。这是我自己的体验。
AI coding如何改变开发流程
及对开发者的要求?
Lucy:
—— TabbyML
我是Lucy,TabbyML 的联合创始人,我们开发了一个开源的 AI 编程助手,可以看作是 GitHub Copilot 的替代品,主要面向 Copilot 的使用场景。写代码的场景多样化,我们的观察与大家讨论的很一致。对于学生或爱好者来说,写代码可能是为实现一个简单功能,比如上传、解析并导出文件,这类代码需求较小,质量和细节要求不高,只需功能能跑通即可。然而,在大型公司中,工程师的工作更复杂,他们更多是对现有的大型代码库进行改动。这种改动通常涉及多个文件甚至多个仓库,是一个庞大的任务。要将所有相关知识传递给 AI 进行端到端修改既困难又不可控。此外,大企业代码通常为协作而设计,不仅要求功能准确,还需遵守严格的性能标准和编码规范(如格式、命名等)。相比简单功能代码,大型公司对代码的可读性、可维护性要求更高。在这些复杂场景中,现阶段 AI 实现端到端生成仍是巨大挑战。Victor:
—— Mymap.ai
当前有些环节仍难被 AI 替代,例如找到合适的文档并交给 AI 分析。这是目前无法完全替代的部分。
其次,我认为前端开发的进展会比后端快,原因是前端反馈直观易见。AI生成的代码可以直接渲染或报错,而后端需要明确需求和复杂的逻辑处理,因此难度更高。我特别关注一些专注于反馈模拟或测试的公司,认为这个方向前景广阔。
此外,我持有一个激进观点,普通程序员的价值正在被工具削弱。以我的经验为例,我在 21 天前完全不懂 TypeScript,如今通过使用 cursor 已开发了三个产品,尽管我仍不精通该语言。这个工具让我像“设计师”一样,与 AI 协作进行产品开发,而不再依赖开发团队。这种模式极大提高了架构师的价值,因其能够迅速将想法付诸实践,无需等待漫长的开发周期。
最后,虽然后端进展较慢,但我对 DevOps 的变革力量非常看好。从自身效率的提升中,我能清楚感受到这场技术革命的潜力。
—— Replit
我是 Li Zhen,目前在 Replit,负责开发 Replit agent,并逐步将其打造为公司的核心产品。AI 工具的应用让每个人都可能成为 engineer,只需用好这些工具即可大幅提升效率。像 Cursor 这样的工具以用户控制为主,显著提高编程效率;而 Replit agent 则更倾向于自动化,从 prompt 到代码、依赖、环境配置,实现从头到尾的自动化开发和部署。Replit agent 的核心优势在于其自主性:它能查看日志、识别错误,并自动修复问题,节省大量时间。用户无需手动纠错,agent 可完成这些工作。然而,当前的 LLM 存在不足,如容易陷入循环修复、修复无关内容,或缺乏全面控制。这表明,AI 工具的理想形态尚未完全实现。整体来看,各类 AI 工具都在向同一目标迈进:制定清晰计划,让 AI 实现目标。差异仅在于工具选择的方向,是更自动化,还是更注重用户控制。
—— 云思維
我主要还是从产品经理的角度在分享。因为我现在在台湾多一点,这大概八九年时间,其实台湾出了非常多做互联网培训的学校,培训出来蛮多不错的独角兽团队,在这礼拜有两家全部都宣布不再持续提供服务了。我们有讨论可能一部分是Copilot的加入,另外一部分是最近几个新的 coding 服务出来了之后,我们身边有非常多以前想要学习 coding 的人,只要可能自学大概一个月左右的时间,像我昨天有认识到两位,他们都有在 YouTube 上面单一播放量都有百万以上。这个没有什么性别歧视,以前看到男性会稍微多一些,但是现在 coding 的女性更多了一些,他们可能才学了一两个月,然后其实就配合几个 Copilot 在用,所以反而就导致了这一些培训学校少一些。Li zhen:
—— Replit
其实 launch 之后变化还是蛮多的,我们两个月之前 launch 的agent,那个时候大家都还在用它做一些小工具、小游戏什么的。刚刚我在 Twitter 上直播,有一个用户跑过来说我是一个在印度的不会写编程的人,两个月之内已经用 Replit agent 赚了 20 万美金了,我们都挺惊讶的,因为我们其实都不知道这件事情。他其实做的东西也没有那么复杂,就是一个网站,有一些 back end,有一些 database 的东西。并且我们上个两个星期前在日本又突然多了很多用户,他们做了很多 SaaS 的工具,日本用户非常喜欢做各种企给企业用的工具,SaaS 财务报表 streamline 的东西等等,有很多客户会 figure out 一些我们自己都不知道的使用场景。—— Mymap.ai
我觉得任何以后有 handbook 的、有流程说明书文档 step by step 的指示性复杂的事情都会被 AI 干掉。比如你用了一个 struct 的开发文档,我把 struct 都接好,这种非常标准化、重复性的进行,我觉得 AI 是一定会开发好的。所以我现在开发产品的逻辑就是我不开发了,我等Replit agent 做好之后,我就和他开发好的 agent 说,就完事了。我觉得看handbook 这件事情一定会被硅谷的 top player like 以周为单位干掉。
Li zhen:
—— Replit
其实 AI 生成代码,说起来都是生成代码,但是它有很多种不同的生成模式。比如说最简单的、最基础的,它会去 rewrite 整个文件。比如说你说我要改一个这个文件,那它会 rewrite 一下。然后 Cursor 不生成整个文件,它生只生成改的部分,然后再把它 apply 到这个整个文件里面,这也是一种生成方式,它会更快。还有其他方式又不太一样。所以在生成代码的时候,你把它拆解下来,就会拆解成这个重写文件,生成新的文件和 edit,那 edit 有很多种不同的方式去做,就是你告诉他怎么去 edit,然后怎么 apply edit。我测试下来,不同方式对于最后结果的影响还是蛮大的,尤其是项目、文件大了之后,不同方式的影响就会产生区别。其实很好理解,因为你想如果每次 rewrite file,你没有办法保证 LLM 只改它该改的地方。然后大家也知道 LIM 经常会 lazy,它会说打个注释 rest of the file remain unchanged,经常见到这样的东西,如果你碰到这种问题,你就要解决它。这种问题出现的频率非常高,如果能解决好的话,可以大大提升 AI 生成代码的质量。这个是工程上的。从模型上来说也是有很多可以做的,但是有很多在工程上可以做的事情提高生成代码质量。
—— TabbyML
我们服务的客户普遍认可 Copilot 的价值,但由于 Copilot 依赖云端服务,存在安全隐忧,例如三星员工使用 ChatGPT 导致信息泄露的案例。许多企业,尤其是对安全要求高的行业,如金融、半导体和政府部门,更倾向于 self-hosting 方案。我们通过开源方式,提供灵活配置选项,让企业内部可自主选择模型和集成内部知识库。我们的目标是帮助企业在安全、私有化环境中高效利用内部知识资源,比如代码库、JIRA 讨论、coding guideline 等,以支持代码补全和 chat 功能。这种方式不仅提高了可靠性,也确保工程师能参照企业内部的专属知识,而非通用信息。例如,欧洲某银行客户使用专属 DSL,我们通过对开源模型进行 fine-tuning,提升 AI 在其私有语言上的表现。此外,传统行业对安全性的重视尤为突出,例如 hedge fund 的 CIO 绝对不会忽视代码安全问题。这种差异使我们更加注重在满足合规要求的同时,优化 end-to-end 体验,最大化企业资源的安全性与价值。
—— Zion/Momen
当前在大模型应用中,我关注生成质量和人机协作。提高生成质量的关键是通过规则和例子优化 prompt engineering,但不能完全依赖 AI。就像工业自动化经历了从工人操作到部分替代的过程,大模型也需要“人类在环”(Human-in-the-loop)。尽管大模型能力超越普通人,它仍低于资深专家的水平。例如,处理复杂问题或 debug 时,大模型可能效率低下,此时需要人类介入以确保高效和精确。全流程自动化并非必要目标,AI的价值在于提升效率,而不是完全取代人类操作。尤其在生产线中,质检和精细操作仍需人类主导。关于瓶颈,当前大模型难以让用户在不懂代码的情况下精细控制生成内容。当生成接近最终状态,但用户想做特定调整时,无代码工具或许是一种解决方向。无代码虽然理解成本低于代码,但复杂性依然存在。我们正在探索无代码的 Copilot 和 DSL(领域专用语言),尝试通过 AI 写 DSL 或用 API 操作应用。未来如何平衡用户需求和 AI 能力,这仍需更多实践和探索。
—— Mymap.ai
我想分享一个挺有趣的点,尤其是关于质量和可靠性,首先就是 AI 生成的代码,他写第一遍其实已经比我们人 handcoding 好了。第二个,我觉得结合第二个问题,生成代码的最终交付是通过最聪明的那帮设计师所去控制的。我举一个很有趣的例子,昨天我在SF参加一个活动,有一个创业过三次,卖掉过公司两次,还写了本书的一个人,他现在是一个founder,但他在菲律宾雇了 17 个 PhD 用 V0、Cursor 等等这套工具去开发产品,他雇的 PHD 都不是 computer science,他雇的是这种 theoretical physics、applied chemistry,他发现和这种人合作,他们能快速学习。我觉得他给我很大的冲击,就是一般级别的智能 AI 已经快接近于无限量了。在最终的代码质量和可靠性之后,我觉得包括框架性上来说,现在的产品方应该是讨好全世界最聪明的那帮人,因为他们创造的价值可能是最高的。
—— XNG
从初创公司或孵化项目的角度来看,代码生成的质量高度依赖于prompt 的工程设计和场景切分。虽然大模型的进步让 prompt 使用变得更简单,但切分细致的场景仍然至关重要。例如,CoCounsel 针对特定场景(如 Web 构建或 Chrome 扩展部署)精细化 prompt,确保非技术用户能高效使用其工具。CoCounsel 的 CEO 曾提到,当 GPT-4 开放时,他们意识到面临挑战,但通过深入打磨 prompt 和用户交互,使律师等专业用户在细分场景中高效利用工具。在代码质量方面,虽然长期表现(如高并发问题)难以预测,但引导用户快速开发、发布或修复问题的交互设计显得尤为重要。在 GenAI 会议上,业内讨论了打磨 agent prompt 的意义:如果领域知识深、场景细分到位且用户需求明确,就能显著提升质量,因用户对实用性和稳定性的感知是核心。这种打磨类似于 UI 设计,也是提升产品质量的关键手段。—— Zion/Momen
我想补充一点关于代码质量的问题。很多人认为 AI 编码可以通过一个 prompt 生成产品,但这种方式不现实,因信息缺失而难以实现真正有商业价值的开发。即使是世界顶尖工程师,也无法通过简单沟通完全理解复杂产品需求。因为这些需求中隐藏了很多细节,甚至开发者自己可能在初期都不清楚,需要在过程中不断讨论和明确。要实现高质量的 AI 驱动开发,关键在于模拟人类的协作工作流。一个精细设计的 Agent Workflow 是成功的核心,它需要模仿 CTO 和 CEO 的交流过程,包括何时提问、如何探讨问题,以及 CTO 与团队的具体沟通。这样的流程应融入自助开发的 agent 系统中,从需求到执行全覆盖。这种深度协作和分工模拟,是确保 AI 产物质量的唯一有效方式。Andy Li:
—— Stance AI Andy Li
我是 Andy,之前在硅谷工作,去年开始创业 pivot 到代码生成领域。关于短期内哪条产品路线更有潜力,我认为 AI Copilot(如 GitHub Copilot 或 Cursor)更适合有经验的程序员处理大型项目的代码补全,落地较顺利。对于初学者,虽然像 BOLT 或 Replit agents 也能生成代码,但 prompt 写不好时效率较低。而一些新手用 BOLT 做出的产品,甚至能超过有经验程序员的效果。目前来看,BOLT和Replit agent 属于中间形态产品,对新手和老手都略显复杂。未来的优化方向是无代码体验:用户仅需声明需求,AI 就能以高稳定性生成 bug-free 的解决方案。例如,对于常见功能(如 Stripe 接入),预先创建模板,AI 再根据需求调整,从当前的 60-70% 稳定性提升至 90-95%。这一方向让代码生成更加高效且普适,我的创业重点也是基于 BOLT 的优化版本。—— Linkloud
我觉得可能现在很多的小团队,或者是现在这一两年最近出来的创业者,他们会说我会拿 agent 的产品去快速地实现一些小工具的概念验证,很快复现大概的一个 beta 版本,然后用落地页去做测试投放,然后再去看对用户来说有没有吸引力,然后如果一个礼拜之内反馈不好,他就赶紧换。Early adopter 可能都在采取相似的方式来快速做一些测试和验证。—— Chaorders
我是来自 Chaorders 的卢元,我们是一家 social media MCN agents team。我认为未来两种工具形态将有巨大市场:低代码/无代码工具和编程助手。低代码或无代码工具的核心在于简单易用,满足大众懒于学习的习惯。正如抖音成为超级 APP,用户只需上下刷即可。未来的工具应像“乐高”,让用户堆积积木,而非造一辆车。这种形态能以低成本吸引大量用户,例如每月订阅费用 10-20 美元。编程助手则更适合 empower 超级个体和小团队。传统大型产品开发需要 30 人以上团队,但编程助手可让小团队(如 15 人以内)高效完成大型项目,降低协作成本。对于这些高效团队来说,编程助手的价值巨大,他们愿意为高性能助手每月支付数百美元,甚至每位助手每月 500-1,000 美元,减少对全职工程师的依赖。最终,低代码工具定位普适型市场,而编程助手更侧重专业高端市场,提供高级功能和高价值服务。—— Zion/Momen
无代码产品的核心难点在于选择空间的大小和复杂度的控制。相比代码,无代码的选择空间更小,但是否能小到一个复杂度量级,还需验证。降低难度的方法包括:1. 限制选择空间:无代码工具通过减少用户选择来降低复杂度,但仍需保证其图灵完备性以维持实用性。2. 加速学习与决策:无代码工具能通过优化用户学习路径和缩短问题解决时间,提升效率。无代码在大模型辅助编程中存在劣势,缺乏公开数据导致对大模型泛化能力的依赖。它依赖逻辑推理,而非现有例子的训练,因此对模型和人类的难度都需要进一步降低。最短期的无代码方向可能是结合 AI 生成短代码并嵌入现有框架。无代码工具提供现成的框架,AI 负责生成符合需求的代码模块,从而实现高效协作。
Lucy:
—— TabbyML
日本市场有许多机会,但我们发现他们更倾向于跟随已有标杆客户的脚步,而非主动尝试新事物。在接触的大型企业中,许多客户已了解或试用过 Copilot,他们认可其交互体验,但在实际部署时更关注安全性、可控性,以及企业内部信息的整合与管理。在效率提升方面,尽管衡量标准仍是一个开放话题,一些企业观察到 20%-30% 的效率提升,尤其在代码生成的接受率上显著提高。但在 chat 场景中,具体量化提升较难实现。我们还服务过一些规模较大的项目,例如一家半导体企业的 GPU 图形代码优化项目,团队规模达千人以上。这类项目更专注于底层优化,没有前端界面,要求深度理解最新发布的库和内部规范。客户更关注模型的基础能力和专业适配。值得一提的是,国产开源模型的表现令人惊喜,例如 DeepSick、阿里巴巴的 Qwen,以及我们与其他合作伙伴的模型如 Mistral 等。我们还通过 Tabby 的场景对这些模型进行 Benchmark,Qwen 2.5 的表现尤为出色,与其他顶级模型不相上下。
—— 某互联网大厂
AI 的代码安全和研发效能并非新话题,但 AI 的加入带来了范式的变革。早年,技术风险和效能管理更多依赖架构师的方向掌控和团队 leader 的代码品位指导,通过制度和组织能力保障研发质量。然而,AI coding 的引入,让一线研发能力实现质的飞跃,同时减轻了管理者的重复性任务。风险控制从传统的组织化手段逐渐转向系统化、流程化,更高效地预知和管控。- 对中小型企业而言,AI coding 更注重业务提效,但实际影响有限,优先级较低。
- 对于初创企业,AI coding 极大降低了开发成本和门槛,创业团队可以更轻松构建 AI 应用,工具链和云技术的支持尤为关键。
- 超大型企业则受限于成熟的市场和内部逻辑,更多依赖咨询公司或开源共建。创业公司要切入这一市场难度较大。
- 中型企业处在“降本增效”的关键期,对生产链路改革和研发效能提升有较强需求,但具体方向取决于企业目标。
总体来看,AI coding 改变了研发流程,但超大型组织的落地仍在摸索中,一线员工的成长压力也随之增加。
Xiaoyan:
—— 亚马逊
我是亚马逊云初创生态团队的 Xiaoyan,目前主要服务 AI 出海的创业公司。在 AI Coding 工具中,分为面向工程师的编程助手和面向产品经理的无代码工具。
编程助手分为两类:Copilot 和全自动化的 AI agent 产品。Copilot 产品(如 GitHub Copilot)通过短上下文完成代码补全,而 Cursor 则依托更大的上下文窗口(基于 Anthropics Claude 模型),能理解完整项目代码库,生成更长的代码,甚至适配编程风格,拥有更强的全局理解能力。
Autonomous AI agent(如 Devin)虽然概念先进,但落地仍有难度。当前 AI Coding 处于 L2-L3 自动驾驶水平,需要人类干预(human in the loop)。要实现完全自主化,必须提升模型上下文处理能力、自我纠错能力(self-reflection)、长思维链能力以及更好的 agent 框架(如任务拆解、模块编程与审查流程)。
无代码工具更适合产品经理,常用于快速开发网页、游戏等可视化前端产品。这类工具允许用户通过 prompt 调整可视化结果,从 idea 到市场快速验证,但难以应用于复杂软件工程。未来,这些工具能帮助产品经理快速找到市场切入点,开发初步产品矩阵。
—— HKUST
我是香港科技大学的博士生,专注研究 Multi-agent。我认为 agent 与 AI coding 的结合非常紧密,主要体现在补全和 agentic workflow 两个方向。补全已经找到 PMF(产品市场契合点),如 Cursor、Copilot 等产品盈利表现优异。但 agentic workflow 仍缺乏现象级产品,其应用场景和解决问题的范围尚不明确。Agentic workflow 的潜力在于完成更复杂、更广泛的任务。例如,创建一个 IM 应用,不仅需要 AI coding,还涉及前后端设计、交互逻辑等复杂推理能力。许多 agentic workflow 框架具备这些能力,但需要调用外部资源,并依赖用户通过交互形式补充需求。这种模式与 Claude 提出的“AI 计算机控制”方向一致,即用户提供最终目标,agent 在交互中逐步获取需求并完成复杂任务。该过程结合了多模态、复杂推理、长链路推理能力,目前学术界和工业界已实现初步可用,但仍有改进空间。未来的机会可能在于整合大模型和 agent 的能力,开发出更强大的综合性产品。
—— XNG
从 growth hacking 的角度来看,未来通用大模型的发展引发了对 agent 意义及竞争壁垒的思考。长期壁垒在于能否为企业构建基于 RAG(检索增强生成)的代码知识库,整合企业代码规范、经验沉淀和特定需求,形成专属的中间层工具。该工具不仅能随时检索,还能主动理解用户意图,提供更实用的答案。类似 YC 案例中的 PLG 模式,初期可利用通用大模型和 prompt 服务个体用户,但长期来看,AI coding 公司需转向 SLG 模式,为企业定制专属的 RAG 解决方案。这种 SaaS 服务与企业共同成长,将成为通用模型无法取代的独特价值。若仅依赖浅层的 prompt 使用,随着通用模型和 token 成本的降低,竞争力会大幅削弱。相反,深耕 RAG 定制化能力的企业,有潜力成为市值数十亿美元的独角兽。RAG 或是构建 AI coding 长期竞争壁垒的关键。
AI coding工具的普及
会如何影响下一代开发者工具市场?
蒋耀锴:
—— Zion/Momen
我现在想会不会这个发展会更类似于这种当年钢琴师碰到了唱片,在唱片出来之前,声音的复制编辑成本是很高的,这种情况下,钢琴师每一个小镇都有一个。现在我们都直接只听最牛的钢琴师弹的钢琴,录在一个 CD 上,所以真正靠钢琴为生的人不多了。同一个事情在 coding 上是不是也会发生,曾经的问题是,工程师的能力的复制是非常昂贵的,那会造成有很多工程师。那现在当大模型可以复制一些工程师的能力之后,会不会也变成更加的金字塔化,塔尖还是有一些人要做工程师的事情,他们的能力复制就变成了类似于唱片的机制。