记录活在 OpenAI 阴影里的 AI 创业经历

文摘 2024-09-07 20:28 德国

作者 | 像素炼金师
整理 | NewBeeNLP
https://zhuanlan.zhihu.com/p/682525947

作为一个生性散漫，不怎么和外界交互的野生 AI 算法工程师，这两天看到 OpenAI 的 Sora 之后，也不免想要写两句。因为我有些害怕科技巨头的产品像隆隆火车一样驶过，而我做的东西如同路边的野草一样，在这个技术进步就像跑马灯一样的时代里，留不下一丝痕迹。

所以，连论文都不发的我决定发个知乎，在这里记录一下，这一年来的思考、经历和成果，以及对未来展望。也希望可以获得来自同行和其他各行业对 AI 感兴趣的人士的各种讨论和指教。

2023.05 - 2023.07 动机

一年前的时候，我从字节跳动抖音离职，寻求从零到一的机会。那时正是国内 AIGC 投资的顶峰，我也在接触各种类型的创业公司。我还记得那时有位创业公司的 CEO 和我说

视觉生成技术落地的机会很快就会到来，我觉得未来两年内，阿凡达这种效果的电影片段，可能只是高中生的课程作业。而视觉才是人类感知和认识这个世界的最直接的方式，所以这里有最大的机会。

确实，很可能 AI 最大的机会在 C 端，而 C 端最大的机会在视觉 ，我心里很认同他的后半句，但对前半句保持疑虑。在图片上生成人脸或者手部的时候还是一团糟的时候，怎么就已经能对视频抱有那么大的期望呢？我决定踏实一些，还是从图片出来一步一步解决已有的问题。

我的思考是先从人物的一致性入手，尝试通过一张参考图，生成同一个人物。进可生成图片序列进行故事创作，退可做些图片写真获得直接的现金流。于是我找了一家和我设想差不多的创业公司。

2023.08 - 2023.09 第一版 Demo

当时我加入的创业公司没有太强算法背景，老板作为产品经理给了我很大支持，我很快成了技术负责人，第一个月内，我就交付了第一版模型，基于 StableDiffusion 训练的从一张参考图片生成大头照的模型。

说实话这没太大技术含量，只不过把自然语言的条件改成人脸特征而已，后来类似的开源工作 IP-Adapter 和 InstantID 也给出差不多的效果。但当时我们还是很兴奋，这条路能用很小的算力成本走通，而且同期妙鸭相机的爆火也给了我很大的信心。

不过我们的野心也不只是人像写真这种低用户粘性的产品，我们要做更大的应用场景，要实现内容创作。所以摆在我们面前的是还有人物互动下的语义对齐、图像的完整性等问题。一开始我们采取了一些不足为道的捷径，当时的 Demo 是这样的：

乍一看挺不错的，我们一开始是这样觉得，但只要仔细看人物的肢体或手等细节就一定会找到错误的地方。我们越使用这个模型就越发现，想要获得一张准确无误且称心如意的图片的概率实在太低了。这是一个 C 端产品不能接受的，我们预定 10月份的发布，并没有达成。

而即使在我们的持续优化下我们发现这恐怕也就是这个规模的模型的上限了，因此我们想要在模型优化上做出更大的突破。老板的计划是能用这个 Demo 寻找新一轮的融资。但这时 DALL·E 3 横空出世了。

2023.10 - 2023.12 曲折的进展

DALL·E 3 让哪怕原本在图像生成领域执牛耳的 Midjourney 也受到了巨大冲击，更不要说我们创业小公司。融资市场几乎冰封，图像生成领域的创业公司再难拿到任何一笔投资。DALL·E 3 既完成了某些程度上的图片序列的一致性，也给出了几乎完全找不出什么毛病的图片，让我们对我们产品的竞争力的信心荡然无存。

但老板并没有放弃，还是坚持我们原先设想的目标，还是动用了不少的资金租了一些 A100 显卡给我做图像生成模型训练。计算资源对创业公司来说很贵，实验的过程也很曲折，不过那都不足为外人道了。

我们慢慢地加数据量、加训练机器量和训练时间，也加大了模型的规模，最终还是做出了一些效果，说不上多好，但只求不被认为落下 DALL·E 3、Midjourney 等第一梯队太多。

实验的过程比我预期的漫长的多，习惯了深度学习上一个时代的快节奏，很难把握的了目前梭哈所有资源动不动跑一两个礼拜的实验周期。可能是因为我的资源有限吧 [sigh]，也可能是项目管理经验不足，模型交付一直延期到了年底，很多功能也没有做好。

但好歹还是最终上线了。

2024.02 发布

先直接给一版参考效果吧，随便写的图不是太满意，细节也有不少不到位的地方，但大概就这回事了。（产品体验的地址暂时不留了，有缘或许可以遇到。或者我有信心了再分享。）

人物、服装和环境一致的图片序列：(1) 小李子和凯特在船上相遇恋爱（2) 船撞上冰山，他们浮在冰块上 (3) 他们来到救生艇上，远处的船沉了（4）他们安全上岸

我原先对我们的模型还有不少期许—比起一众图片生成模型，我们有着不少差异化和领先的地方。我也期待用户可以在我们的产品里创建他们自己的形象，演绎自己的故事。

但在这个档口又遇上了 OpenAI。2月16号视频生成模型发布，可以生成 60s 的的短视频，视频当中每一帧的质量完全不输任何的图像生成模型。当 Sora 出现的时候，似乎我们做的差异化有些微不足道了。60s 的视频完全是图片序列的上位替代，我们一步一步手工构造的一致性，完全输给了短视频连续性的约束。那么作为 AI 创业公司还有什么生存之道呢？

2024 及未来迷茫

在科技巨头海量的计算资源和数据资源面前，千万资金的创业公司确实如路边的野草一样，只是历史滚滚车轮旁的一些点缀。希望野草也能有一片立足的土壤，见证这个世界的更新。

人类和机器交互的门槛被技术进步踏平，编程语言被自然语言取代，专业复杂的软件变成简单的语言指令控制——或许科技巨头会达成技术的垄断，内容创作者迎来最美好的时代，但在技术舞台上可能却容纳不了多少从业者了。

如何发布招聘？

如果你也想发布公司招聘岗位，博士/博士后岗位，请扫描以下二维码或者添加微信号：or_offer 联系我们的工作人员，添加请修改备注为：公司/学校+姓名+招聘！

微信公众号后台回复

实习：获取实习岗位投递方式

校招：获取校招岗位投递方式

社招：获取社招岗位投递方式

职场会客厅：获取职场相关直播链接和往期直播视频完整版

留学会客厅：获取留学直播链接和往期直播视频完整版

海外硕博申请：获取客服联系方式

求职群：获取加入【IT算法求职内推群】方式

留学群：获取加入【运筹学海外硕博申请群】方式

http://mp.weixin.qq.com/s?__biz=MzkzMzQwNjkxMg==&mid=2247495174&idx=3&sn=17a4a8b9f600b3dfda9f32e2f182c6a1

运筹Offer

运筹OR帷幄社区旗下的求职和留学资讯平台，聚焦运筹学、大数据、AI等领域，内容涵盖企业招聘、实习内推、职场经历分享以及运筹学海外硕博申请咨询

最新文章

私募量化6小时面试

访谈福冈工业大学运筹学教授傅靖：如何克服学术与家庭的双重挑战【教职人生06】

深漂算法工程师工作一年后的职业规划：

社招|春秋航空招聘运筹算法工程师

学界|葡萄牙里斯本大学招募计算复杂性博士

学界招聘|巴黎理工学院招募博士后

社招|玫德集团招聘运筹优化算法工程师

学界|德国纽伦堡工业大学招募应用离散数学博士

学界招聘|华威大学招募理论计算机科学博士后

社招|非凸科技成都分公司扩招！后端开发岗位名额充足

学界|奥地利格拉茨技术大学招聘计算几何博士

学界招聘|法国波尔多数学研究所招募博士后（高属几何/渐近枚举）

快速挑选导师并精准套磁的小技巧！不用因为申请太晚而焦虑，一切都是最好的安排

学界|爱尔兰都柏林大学招募博士（粮食再分配优化）

美团运筹优化算法面经

在华盛顿闲聊欧洲vs北美移民生活【直播连麦咨询39】

做控制算法工程师是怎样一种体验？

硕博无限制答疑 | 限20人，仅300元一个月！！！

社招|金溪欣招聘算法工程师（运筹学航运调度方向）

学界|华威大学招募理论计算机科学博士

学界招聘|德国波恩大学豪斯多夫数学中心(HCM) 招募数学博士后

社招|春秋航空招聘运筹算法工程师

学界|法国埃塞克工商大学招募运营管理与运营研究博士

学界招聘|慕尼黑工业大学招募算法博士后

社招|IBM 研究院招聘Herman Goldstine Memorial Postdoctoral Fellowship

学界|汉堡工业大学招募优化和机器学习博士

学界招聘|南方科技大学招募研究员（生物启发计算时间复杂性分析）

结缘运筹学：从运筹学萌新到OR科学家

学界|得克萨斯A&M大学工业与系统工程系招聘数据科学博士生

海康威视运筹优化算法求职进展汇总

在纽约闲聊欧洲vs北美留学【直播连麦咨询39】

解读INFORMS期刊影响因子的下降及运筹与管理科学出版的未来

校招&实习|杉数科技多岗位招聘

学界|澳洲阿德莱德大学招收能源系统方向博士

学界招聘|韩国基础科学研究院招募研究员

学界招聘|南科大风险院Didier Sornette院士等诚聘数量金融与复杂系统方向博士后研究员

学界|南科大风险院Didier Sornette院士等诚聘数量金融与复杂系统方向博士研究生

校招&实习|杉数科技多岗位招聘

社招|德赛西威上海智驾部门大力招聘

学界|澳大利亚阿德莱德大学招募博士(复杂能源基础设施的稳健解决方案)

学界招聘|法国计算机科学基础研究所招募博士后

放弃保研机会，从理工男到商学院博士的华丽蜕变

学界|剑桥大学招募理论计算机科学博士

盒马 20240921 算法笔试

【海归人生03】云端梦想家：访谈美国海归商飞机长吴达元的留学与深圳&美国创业故事

2024年，算法岗哪个方向更有前景？

社招|蚂蚁集团招聘运筹优化算法工程师/专家

学界|荷兰乌得勒支大学招募可解释视觉康复视觉分析博士

学界招聘|伦敦国王学院招募计算机科学讲师

社招|拼多多招聘NLP/CV/ML/运筹方向算法工程师

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置