出海同学会|导语
No.118期干货
NEWS
”
在AI时代,数据已成为驱动技术创新和商业决策的重要要素。随着人工智能技术的迅速发展,数据的重要性和需求不断增加。数据领域有哪些重要玩家?如何识别有效且有价值的数据?新兴的数据创业机会有哪些?我们邀请了创业者、大厂代表、赛道专精机构等相关的朋友们一起讨论。
以下是本次活动可公开部分。
💡 阅读小Tips:
因内容文字巨长
我们内容由chatgpt精炼过
以下为精彩节选
全文无删节版请扫码移步知识库👇
本期课代表
按公司名数字-字母序
Attribuly CEO 李驹
AWS 初创生态 王晓妍
Datastrato Cofounder & CEO 堵俊平
Epsilla CEO 宋壬初
Kanaries CEO 陈浩
Measurable AI Co-founder 黄何
MIT PhD Lei Huang
Orbifold.ai Founder 朱永钉
Pangolinfo 创始人 张竞
Qquest Founder 陈茜倩
Way to AGI Sisi
瓴羊智能科技 数据开发产品运营 Moyi
Xinyun(文档笔记整理)
Xinru(排版布局设计)
一些同学因公司PR保密不能公开
或有部分内容需要删节
我们同样感谢他们的精彩输出
本期我们将同学们在zoom聊天室输出的重要观点
也整理进入了此次笔记
如出现链接或企业名为嘉宾引用第三方,侵删。
要点问题
Part 1 背景研讨
目前在AI赛道相应的数据企业都在做什么?
Part 2 破壁研讨
什么是有效且有价值的AI数据?如何获取?
AI企业的数据治理需要注意什么?
如何提高数据的质量与可靠性?
Part 3 机会研讨
Part 01
背景研讨
目前在AI赛道相应的数据企业
都在做什么?
堵俊平:
我叫朱永钉,Orbifold.ai创始人CEO,专注data curation赛道,为企业提供大模型训练所需的数据服务,尤擅优化数据流程。公司创立三月,已服务十余企业客户,ARR达数十万。AI数据企业聚焦四大方向:data infra、data marketplace、data curation及embedding。我们深耕data curation,助力企业高效准备数据以驱动大型语言模型应用。此外,还涉及数据增强、垂直领域应用等,展现数据多元化应用场景。
陈茜倩:
—— Qquest
前数据科学家转型创办Qquest,专注数据应用方向。Qquest旨在利用企业及其用户数据提供产品分析服务。针对非技术用户,发现需求在于非开放、逐步引导的界面设计,而非单一聊天机器人交互。探索如何通过数据处理引导用户思考,成为新方向。
陈浩:
—— Kanaries
我们专注于数据可视化,开发了PyGWalker作为Tableau的开源Python替代。在探索AI化数据可视化时,我们积累了生成DSL的经验,并发现其局限性。随后发布了Lab2,利用AI生成Streamlit数据应用代码,目前正整理相关数据集,面临代码标注与语义标签管理的挑战,寻求优化与工具支持。
堵俊平:
—— Datastrato
非结构化数据元数据治理面临新挑战,需革命性突破。建议纳入统一元数据体系,标签含历史与血缘信息,确保模型回溯清晰可追溯。推荐业界领先的Gravitino工具,支持structured与unstructured数据的统一元数据湖搭建,现已成为Apache官方项目。
Part 02
破壁研讨
什么是有效且有价值的AI数据?
如何获取?
黄何:
—— Measurable AI
Measurable AI公司专注于采集并销售Email收据数据,通过用户授权获取并清洗数据,为外卖、打车公司及投资者提供预测性数据集。公司正探索将数据作为AI训练数据的新价值,并寻求与大模型公司合作机会。创新之处在于奖励用户贡献数据机制。公司关心AI公司购买数据的预算及数据对其的实际价值,以决定是否值得投入市场。
朱永钉:
—— Orbifold.ai
我觉得一个企业一般 budget 是几十万到几百万到几千万都有可能,但是企业买传统数据有个特点,他喜欢把你的整个 glossary 全部买了,但是每一个 item 的单价会很低。比如传统上像 Git image 本来是给创作者提供一个可以变现创作照片的平台,一张照片在 image 可能卖 1, 000 美元。但是如果 Git image 直接把它卖给大模型公司的话,可能是一把把所有的照片全卖了,一张照片可能就只要一块钱。对 Git image 来说,它就很快能变现,即便一张只卖一块钱,但是它全部卖掉,一次也是一笔很大的买卖,就像 Reddit 把整个数据给卖给 Google,一次性就有几千万的收入,而且对他来说成本几乎是零。
黄何:
—— Massurable AI
你刚刚讲数据单价,我不知道 AI 训练是怎么样的,但是在我目前的领域,历史数据基本上是不值钱的,历史数据基本上是白送的。比如一个打车公司想要买我们的数据,我们就白送过去三年、五年的是历史数据,让他们去验证我们的数据到底准不准?真真正正值钱的数据是未来每个礼拜、每天我们 deliver 给他们的新数据。
朱永钉:
—— Orbifold.ai
大模型公司和传统的企业在数据的需求上是不一样的,传统企业是以 business 驱动,一般越新的数据价值越高。大模型公司希望你把整个数据都给它,历史数据对它来说也是有价值的。这个观察整体是对的。
黄何:
—— Measurable AI
像现在某个打车公司买我们的数据,也不是用来训练模型,可能也做一些 pricing 模型,但他们更多用这些数据来看他们的市场占比等等。我觉得他们可能并没有真的把这些数据去训练太多东西。
朱永钉:
—— Orbifold.ai
你们数据卖出来的时候,是签一个 framework agreement,还是 specific agreement,specific purpose?
黄何:
—— Measurable AI
张竞:
—— Pangolinfo
Lei Huang:
—— MIT
我们目前专注于技术方面的一个小点,即如何将模型性能提升的贡献公平地分配给每个训练数据点。虽然已有多种方法,但难以同时满足公平、可溯源、可加性等要求。我们的工作是开发一种算法,能在明确训练数据的情况下,准确分配每个数据点的贡献。完成这项技术性工作后,我们还需探讨其对整个生态系统的影响。这不仅是技术问题,更涉及分配系统和策略,是个复杂但值得长期研究的课题。
李驹:
—— Attribuly
AI企业的数据治理需要注意什么?
黄何:
—— Measurable AI
张竞:
—— Pangolinfo
朱永钉:
—— Orbifold.ai
中国与美国在数据智能法规上存在差异,美国更侧重版权保护与鼓励创新。在数据治理中,美国企业强调避免直接交换原始数据,而是通过二次创作如数据chunking、提取与重组后进行交换,以避免法律风险。数据治理需特别关注版权与内容合规,对内加强员工宣传,以免企业利益受损。
宋壬初:
—— Epsilla
堵俊平:
—— Datastrato
张竞:
—— Pangolinfo
如何提高数据的质量与可靠性?
朱永钉:
—— Orbifold.ai
数据创建关键在多样性,企业需平衡瘦身与保留多样性。利用density sampling、clustering等算法精选代表性数据点,降低成本同时保留关键信息。面对数据不全,需公开数据集补齐,确保模型无偏见、高准确。关键在于有效sampling与数据增强,两者看似矛盾实则互补。数据治理需定好规则,元数据管理清晰,AI助力自动化理解与提取,提升数据质量与管理效率。大模型时代,数据质量尤为重要,补丁时代呼唤根本性数据质量解决方案。
堵俊平:
—— Datastrato
Part 03
机会研讨
AI时代新兴的数据创业机会
有哪些?
王晓妍:
—— AWS
大模型的未来发展面临数据需求和瓶颈的挑战。目前文本模态的提升空间有限,下一步需要更多模态的数据,如图片、视频、3D以及真实世界的行为数据。这些数据的采集和处理正吸引众多创业公司加入,主要分为两派:一派坚持使用真实世界数据,通过低成本设备采集;另一派结合仿真数据,利用物理引擎创建逼真的仿真环境。部分人认为两者结合更优。合成数据的使用也备受关注,OpenAI 和 Anthropic 强调其重要性,但也有人担忧其效果递减。合成数据的潜力仍待探索。
堵俊平:
—— Datastrato
Sisi:
—— Way to AGI
我们现在遇到的多模态数据上,第一个感觉是欠缺很多数据,另外一个是收集数据的时候,我个人比较偏好收集真实世界的数据,因为仿真数据会有一个问题,就是大家在做仿真或者说做合成的时候,你会天然地去根据目标导向,来做一些合成,其实它很难模拟真实世界,有一些不太符合规则,或者说各种低质量,或者说有一些需要处理的 Badcase。所以我推荐用真实数据。
朱永钉:
—— Orbifold.ai
关于合成数据,我在我们公司里其实也要做相关的事情。我觉得合成是数据分两个层面,第一个是你把 AI 生成的数据直接又去对这个 AI 进行训练,我觉得这个是近亲结婚,往往结果都不是特别好。但是如果 AI 生成的数据训练另外一个AI,可能会有比较好的结果。
全文无删节版请移步知识库
Part 04
同学提问
现在行业有一些什么瓶颈
或者突破?
堵俊平:
过去二三十年间,数据积累多集中于structured data,对non/unstructured data的管理与治理薄弱,亟需创新产品破局。另一瓶颈在于数据获取,公开数据集稀缺,私域数据难流通,影响效率。GPU与算法飞速发展,数据却稍显滞后。核心在于如何高效生产并共享数据,未来数据交换、交易成关键,需解决数据格式对齐、价值评估难题,尤其大企业数据隔离问题严峻,如某跨国巨头三套Hadoop系统彼此隔绝,严重阻碍数据价值释放,影响AI模型与应用效能。
宋壬初:
—— Epsilla
我们打造一站式检索增强生成平台,助力企业无缝集成私有数据与大模型,快速构建AI应用如chatbot、semantic search。面对数据领域两大挑战:非结构化数据精准抽取难题,如PDF图表信息,现技术如Llama Pass等正高效提取高质量数据;多模态数据融合,传统文字抽取已进化至跨模态embedding,如OpenClip,实现文字与图像无缝整合,推动多模态检索生成新纪元。
Moyi:
—— 瓴羊智能科技
DataWorks AI虽试水SQL智能辅助,但成效未达预期。企业服务广泛,发现数据治理乃关键瓶颈。数据口径、标准不一,组织扩大后简单问题复杂化,错误数据频现。开发提效非瓶颈,数据治理迫切。我们正力推AI于Data Catalog,补全元数据,构建清晰资产目录,助力用户高效消费数据。如智能助手速找数据,简化复杂查询,加速企业数据价值实现。
你们在找数据时,
如何定义有价值的数据?
黄何:
—— Measurable AI
我们曾深耕email APP十年,虽获YC青睐却难盈利。受YC内Second Measure启发,我们转型利用邮件数据洞察消费趋势,初尝预测游戏增长等 use case,却一年无客问津。幸得客户主动寻觅,我们逐渐拓展至多个市场,专攻外卖、打车、电商领域,为投资者提供企业性能对比数据。策略转型,市场渐宽。
保险和医疗领域有传统数据模式,大家有什么见解?
朱永钉:
—— Orbifold.ai
怎样提高数据的可解释性?
服务于业务人员口径差异?
朱永钉:
—— Orbifold.ai
堵俊平:
—— Datastrato
全文无删节版请移步知识库
Part 05
往期推荐
两周一次闭门会,期待您的加入
我们坚信“华人在全世界任何地方都可以成功”!
这是汇集全球一线创始人、行业专家的交流平台;
两周一次的闭门研讨,为全球化发展提供支持;
期待您的加入,一起探索全球化的无限可能,
共同迈向星辰大海!