AI时代针对数据需求的创新探索研讨|No.118期干货

文摘   2024-09-05 08:03   陕西  

出海同学会|导语

No.118期干货

NEWS

在AI时代,数据已成为驱动技术创新和商业决策的重要要素。随着人工智能技术的迅速发展,数据的重要性和需求不断增加。数据领域有哪些重要玩家?如何识别有效且有价值的数据?新兴的数据创业机会有哪些?我们邀请了创业者、大厂代表、赛道专精机构等相关的朋友们一起讨论。


以下是本次活动可公开部分。




💡 阅读小Tips:

因内容文字巨长

我们内容由chatgpt精炼过

以下为精彩节选

全文无删节版请扫码移步知识库👇






本期课代表

按公司名数字-字母序


Attribuly CEO 李驹

AWS 初创生态 王晓妍

Datastrato Cofounder & CEO 堵俊平

Epsilla CEO 宋壬初

Kanaries CEO 陈浩

Measurable AI Co-founder 黄何

MIT PhD Lei Huang

Orbifold.ai Founder 朱永钉

Pangolinfo 创始人 张竞

Qquest Founder 陈茜倩

Way to AGI Sisi

瓴羊智能科技 数据开发产品运营 Moyi

Xinyun(文档笔记整理)
Xinru(排版布局设计)


一些同学因公司PR保密不能公开

或有部分内容需要删节

我们同样感谢他们的精彩输出

本期我们将同学们在zoom聊天室输出的重要观点

也整理进入了此次笔记

如出现链接或企业名为嘉宾引用第三方,侵删。




要点问题


Part 1 背景研讨

目前在AI赛道相应的数据企业都在做什么?

Part 2 破壁研讨

什么是有效且有价值的AI数据?如何获取?

AI企业的数据治理需要注意什么?

如何提高数据的质量与可靠性?


Part 3 机会研讨

AI时代新兴的数据创业机会有哪些?
















Part 01



背景研讨



#1

目前在AI赛道相应的数据企业

在做什么?


堵俊平:

—— Datastrato


我们专注于下一代面向 AI 的数据基础设施,项目名为 Gravitino,致力于元数据的整合和统一管理。我们观察到当前 AI 赛道中的数据企业正在各自领域展开工作。比如,Hugging Face 专注于数据集与模型的托管,Databricks 在数据共享与目录整合方面表现突出,而我们公司则以更开源和开放的方式参与其中。此外,还有企业如 JuiceFS 专注于高性能存储,Scale.AI 和 Unstructured.io 关注数据清洗与标注。

另一个值得关注的趋势是AI for Data,即利用 AI 模型增强数据智能化。许多大厂如 Snowflake 和 Databricks 正在向这一领域转型,通过收购或自研模型,提升数据平台的智能化运营能力。

朱永钉:
—— Orbifold.ai


我叫朱永钉,Orbifold.ai创始人CEO,专注data curation赛道,为企业提供大模型训练所需的数据服务,尤擅优化数据流程。公司创立三月,已服务十余企业客户,ARR达数十万。AI数据企业聚焦四大方向:data infra、data marketplace、data curation及embedding。我们深耕data curation,助力企业高效准备数据以驱动大型语言模型应用。此外,还涉及数据增强、垂直领域应用等,展现数据多元化应用场景。


陈茜倩:

—— Qquest


前数据科学家转型创办Qquest,专注数据应用方向。Qquest旨在利用企业及其用户数据提供产品分析服务。针对非技术用户,发现需求在于非开放、逐步引导的界面设计,而非单一聊天机器人交互。探索如何通过数据处理引导用户思考,成为新方向。


陈浩:

—— Kanaries


我们专注于数据可视化,开发了PyGWalker作为Tableau的开源Python替代。在探索AI化数据可视化时,我们积累了生成DSL的经验,并发现其局限性。随后发布了Lab2,利用AI生成Streamlit数据应用代码,目前正整理相关数据集,面临代码标注与语义标签管理的挑战,寻求优化与工具支持。


堵俊平:

—— Datastrato


非结构化数据元数据治理面临新挑战,需革命性突破。建议纳入统一元数据体系,标签含历史与血缘信息,确保模型回溯清晰可追溯。推荐业界领先的Gravitino工具,支持structured与unstructured数据的统一元数据湖搭建,现已成为Apache官方项目。

















Part 02



破壁研讨


#1

什么是有效且有价值的AI数据?

如何获取?


黄何:

—— Measurable AI


Measurable AI公司专注于采集并销售Email收据数据,通过用户授权获取并清洗数据,为外卖、打车公司及投资者提供预测性数据集。公司正探索将数据作为AI训练数据的新价值,并寻求与大模型公司合作机会。创新之处在于奖励用户贡献数据机制。公司关心AI公司购买数据的预算及数据对其的实际价值,以决定是否值得投入市场。


朱永钉:

—— Orbifold.ai


我觉得一个企业一般 budget 是几十万到几百万到几千万都有可能,但是企业买传统数据有个特点,他喜欢把你的整个 glossary 全部买了,但是每一个 item 的单价会很低。比如传统上像 Git image 本来是给创作者提供一个可以变现创作照片的平台,一张照片在 image 可能卖 1, 000 美元。但是如果 Git image 直接把它卖给大模型公司的话,可能是一把把所有的照片全卖了,一张照片可能就只要一块钱。对 Git image 来说,它就很快能变现,即便一张只卖一块钱,但是它全部卖掉,一次也是一笔很大的买卖,就像 Reddit 把整个数据给卖给 Google,一次性就有几千万的收入,而且对他来说成本几乎是零。


黄何:

—— Massurable AI


你刚刚讲数据单价,我不知道 AI 训练是怎么样的,但是在我目前的领域,历史数据基本上是不值钱的,历史数据基本上是白送的。比如一个打车公司想要买我们的数据,我们就白送过去三年、五年的是历史数据,让他们去验证我们的数据到底准不准?真真正正值钱的数据是未来每个礼拜、每天我们 deliver 给他们的新数据。


朱永钉:

—— Orbifold.ai


大模型公司和传统的企业在数据的需求上是不一样的,传统企业是以 business 驱动,一般越新的数据价值越高。大模型公司希望你把整个数据都给它,历史数据对它来说也是有价值的。这个观察整体是对的。

如果数据要变现,我感觉你们数据是比较垂类的,属于receipt,更多的是像外卖或者打车公司可能需要这样的数据去帮助分析行业和市场。但是大模型一般不是这样的特点,我认为你们的数据,对于外卖公司训练它的垂类模型应该是有很大的价值。所以你们一个最大的市场应该是卖给你们对应行业里面的头部的企业,他们是有比较大的 budget 去训练垂直领域模型的,应该是有一个比较大的市场机会。

黄何:

—— Measurable AI


像现在某个打车公司买我们的数据,也不是用来训练模型,可能也做一些 pricing 模型,但他们更多用这些数据来看他们的市场占比等等。我觉得他们可能并没有真的把这些数据去训练太多东西。


朱永钉:

—— Orbifold.ai


你们数据卖出来的时候,是签一个 framework agreement,还是 specific agreement,specific purpose?


黄何:

—— Measurable AI


我们在每一个国家采集 10 万、 20 万用户,把邮箱授权给我们,像巴西有个二十万人授权邮箱给我们,那我们就看这 20 万用户里面每天有多少人收到,比如说某个打车公司的邮件。我们把这些邮件做清洗完之后,每天做成一个 dataset 给他们,他们就按国家来订阅,每一个国家每一个月给我们钱。
像打车会用我们的数据做大模型,我们大部分客户,交流的时候他们问的问题还是一些比较基础的问题,他们甚至就关心说你的文档太大了,Excel 是打不开等等。

张竞:

—— Pangolinfo


我们专注于亚马逊电商数据的高效采集与监控,尤擅分钟级更新关键词排名,业内领先。多家出海企业及数据服务商依赖我们的数据服务。作为企业级服务背景专家,我深感AI时代下的数据需求激增与数字化转型的挑战。当前,AI应用受限于数据获取难题,我们聚焦于降低门槛,探索公有数据的挖掘与利用。

Lei Huang:

—— MIT


数据定价涉及多个利益群体,如数据提供者、中台公司、和使用数据训练模型的人员。它既涉及技术,又影响生态系统和激励机制,因而是个高度交叉的学科。

我们目前专注于技术方面的一个小点,即如何将模型性能提升的贡献公平地分配给每个训练数据点。虽然已有多种方法,但难以同时满足公平、可溯源、可加性等要求。我们的工作是开发一种算法,能在明确训练数据的情况下,准确分配每个数据点的贡献。完成这项技术性工作后,我们还需探讨其对整个生态系统的影响。这不仅是技术问题,更涉及分配系统和策略,是个复杂但值得长期研究的课题。




李驹:

—— Attribuly


我们专注电商用户行为数据,通过AI与SQL简化数据分析,助力非专业团队提升业务洞察。计划整合用户、产品及营销数据,结合AI与BI技术,实现数据加工可视化,优化用户体验与LTV。同时,探索数据分享机制,如加密脱敏后的人群数据交换,以助力精准营销,并考虑根据人群价值动态定价。目前,我们正基于Google BigQuery进行初步尝试,但面临法律风险等挑战。

#2

AI企业的数据治理需要注意什么?


黄何:

—— Measurable AI


信用卡数据与Web scraping成为数据替代重要来源。信用卡数据由成熟data provider提供,历史悠久。Web scraping爬取电商数据在投资界应用广泛。去年美国最高法院一判决确立:公开网页数据(无需登录即可访问)爬取合法,引发数据保护策略调整,如LinkedIn限制非登录访问,标志着public data获取合规性的重要里程碑。

张竞:

—— Pangolinfo


公共数据合规边界日益清晰,美国明确无需登录即可访问且无版权信息可合法利用。我们正探索通用公有数据挖掘基础设施,致力于高效支撑AI应用。该设施需满足全适用、低成本、高并发、实时性等四大条件,以突破数据处理瓶颈,助力AI实现实时行动,如订机票等复杂场景。

朱永钉:

—— Orbifold.ai


中国与美国在数据智能法规上存在差异,美国更侧重版权保护与鼓励创新。在数据治理中,美国企业强调避免直接交换原始数据,而是通过二次创作如数据chunking、提取与重组后进行交换,以避免法律风险。数据治理需特别关注版权与内容合规,对内加强员工宣传,以免企业利益受损。


宋壬初:

—— Epsilla


刚才嘉宾也提到了,怎么在非结构化的数据上面增加元数据,使得它的数据在可检索性和可使用性上面有提升?元数据与基于向量检索和基于知识图谱的检索相结合,可以进一步提高检索增强生成系统的性能,这是我们现在主要在看到的一个趋势。

堵俊平:

—— Datastrato


未来数据变现将多样化,核心在于data as product。元数据增强、API标准化及行业定制化是关键。数据垄断将向民主化转变,企业需构建数据竞争力。隐私保护在欧美尤为重要,合规性需关注PII信息及数据集license。大模型将在数据使用中提升隐私保护,通过中立算法增强信任感。

张竞:

—— Pangolinfo


数据交换历史悠久,Salesforce通过Krux推出CDP方案。数据分三类:first party、second party及third party。DMP虽实现data enrichment,但脱敏后数据信任度低,且易致内卷。使用者渴求原始数据以独特视角获业务knowhow。数据交换难题待解,尚无完美方案。

#3

如何提高数据的质量与可靠性?

朱永钉:

—— Orbifold.ai


数据创建关键在多样性,企业需平衡瘦身与保留多样性。利用density sampling、clustering等算法精选代表性数据点,降低成本同时保留关键信息。面对数据不全,需公开数据集补齐,确保模型无偏见、高准确。关键在于有效sampling与数据增强,两者看似矛盾实则互补。数据治理需定好规则,元数据管理清晰,AI助力自动化理解与提取,提升数据质量与管理效率。大模型时代,数据质量尤为重要,补丁时代呼唤根本性数据质量解决方案。


堵俊平:

—— Datastrato


AI模型数据面临多模态挑战,大模型推理端可通过RAG系统结合数据检索能力,优化结果。我们利用元数据聚合与LlamaIndex等框架,有效整合文本与非文本数据,提升复杂语义检索。AI正重塑数据领域,从Data Ops的自动运维到Data Engineer的数据转换,再到Data Scientist的智能化辅助,均展现巨大潜力。数据质量提升需创新手段,如数据增强、标准化与统一元数据定义,以应对时效性与接口不对等问题,共促AI数据质量飞跃。
















Part 03



机会研讨


#1

AI时代新兴的数据创业机会

有哪些?



王晓妍:

—— AWS


大模型的未来发展面临数据需求和瓶颈的挑战。目前文本模态的提升空间有限,下一步需要更多模态的数据,如图片、视频、3D以及真实世界的行为数据。这些数据的采集和处理正吸引众多创业公司加入,主要分为两派:一派坚持使用真实世界数据,通过低成本设备采集;另一派结合仿真数据,利用物理引擎创建逼真的仿真环境。部分人认为两者结合更优。合成数据的使用也备受关注,OpenAI 和 Anthropic 强调其重要性,但也有人担忧其效果递减。合成数据的潜力仍待探索。


堵俊平:

—— Datastrato


我觉得未来合成数据还是挺有潜力的,因为有些 startup 现在也在做这块的研究。这块我觉得核心是,未来很大程度上取决于我们多模态做得好不好,现在只是靠文本(ChatGPT 成功的本质还是因为 document 的数据),但是对于很多 3D 的、包括 physical 的数据,最好的模型还没有 deliver 出来。
我觉得现在的模型相对于两年、三年之后的可能还是比较初级到阶段,如果到那个时候模型能模拟出来各种各样的仿真环境,产生一些更逼近真实的数据的可能性就会很高。

Sisi:

——  Way to AGI


我们现在遇到的多模态数据上,第一个感觉是欠缺很多数据,另外一个是收集数据的时候,我个人比较偏好收集真实世界的数据,因为仿真数据会有一个问题,就是大家在做仿真或者说做合成的时候,你会天然地去根据目标导向,来做一些合成,其实它很难模拟真实世界,有一些不太符合规则,或者说各种低质量,或者说有一些需要处理的 Badcase。所以我推荐用真实数据。

另外一个是,我看硅谷那边比较有意思的是,像群里刚刚有老师提到的数据管理的 SaaS 服务或者 Infra 的平台,可能是很大的机会。我看有一些已经在做了,就说在 AI 的时代,下一个是数据要如何存储,另外一个是这些数据要怎么天然地跟模型、或者说跟公司业务做一个这个很好的契合。

朱永钉:

—— Orbifold.ai


关于合成数据,我在我们公司里其实也要做相关的事情。我觉得合成是数据分两个层面,第一个是你把 AI 生成的数据直接又去对这个 AI 进行训练,我觉得这个是近亲结婚,往往结果都不是特别好。但是如果 AI 生成的数据训练另外一个AI,可能会有比较好的结果。

不知道大家想过没有,如果说我们现在存在的世界本来就是一个 AI,那我们不就是拿着 AI 生成的数据去训练一些东西吗?其实很多时候我们在一个虚拟世界中获得了一些数据,如果我们能够比较好地设置这个 parameter,那么它生成的数是可以比较好地模拟一种现实,它就确实是可以拿来训练现实中的一个模型,我觉得这个道路是行得通的。但是如果你单纯地只是拿着这个 AI 产生的数据又去训练他自己这是一个比较大的问题。

                                                                     

全文无删节版请移步知识库      

















Part 04



同学提问


#1

现在行业有一些什么瓶颈

或者突破?


堵俊平:

—— Datastrato

过去二三十年间,数据积累多集中于structured data,对non/unstructured data的管理与治理薄弱,亟需创新产品破局。另一瓶颈在于数据获取,公开数据集稀缺,私域数据难流通,影响效率。GPU与算法飞速发展,数据却稍显滞后。核心在于如何高效生产并共享数据,未来数据交换、交易成关键,需解决数据格式对齐、价值评估难题,尤其大企业数据隔离问题严峻,如某跨国巨头三套Hadoop系统彼此隔绝,严重阻碍数据价值释放,影响AI模型与应用效能。


宋壬初:


—— Epsilla


我们打造一站式检索增强生成平台,助力企业无缝集成私有数据与大模型,快速构建AI应用如chatbot、semantic search。面对数据领域两大挑战:非结构化数据精准抽取难题,如PDF图表信息,现技术如Llama Pass等正高效提取高质量数据;多模态数据融合,传统文字抽取已进化至跨模态embedding,如OpenClip,实现文字与图像无缝整合,推动多模态检索生成新纪元。


Moyi:

—— 瓴羊智能科技


DataWorks AI虽试水SQL智能辅助,但成效未达预期。企业服务广泛,发现数据治理乃关键瓶颈。数据口径、标准不一,组织扩大后简单问题复杂化,错误数据频现。开发提效非瓶颈,数据治理迫切。我们正力推AI于Data Catalog,补全元数据,构建清晰资产目录,助力用户高效消费数据。如智能助手速找数据,简化复杂查询,加速企业数据价值实现。


#2

你们在找数据时,

如何定义有价值的数据?

黄何:

—— Measurable AI


我们曾深耕email APP十年,虽获YC青睐却难盈利。受YC内Second Measure启发,我们转型利用邮件数据洞察消费趋势,初尝预测游戏增长等 use case,却一年无客问津。幸得客户主动寻觅,我们逐渐拓展至多个市场,专攻外卖、打车、电商领域,为投资者提供企业性能对比数据。策略转型,市场渐宽。


#3

保险和医疗领域有传统数据模式,大家有什么见解?

朱永钉:

—— Orbifold.ai


医疗这一块确实比较特殊,钱很多,但是要进去也挺难我知道有硅谷有很多 VC 重点就是投资医疗领域的大模型。他们的数据(美国这个问题更严重)更加不愿意开放出来,所以我觉得医疗可能不是属于接下来两年之内我们会去做的事情。
我觉得 regulation 基础上还要做一些放松,然后现在医疗领域,可能医药研制是一个比较好的、可以通过大模型来做的领域。事实上,硅谷大量企业,包括我自己客户里面有很多是做医药研发的,相对来说现在已经开始在大模型上有一些应用,比如说怎么去找到一个新的分子、如何在海量的论文中去找到一些 insight,这些都是一些挺好的方向。

#4

怎样提高数据的可解释性?

服务于业务人员口径差异?


朱永钉:

—— Orbifold.ai


我觉得这个问题是数据血缘的问题,还是归结到元数据管理的范畴,这个 topic 其实挺大的。

堵俊平:

—— Datastrato


数据血缘这个概念以前是用于结构化数据的,就表跟表之间的上下游关系。但现在 dataset 之间也非常需要数据血缘,我们碰到好多场景,就是说这些 dataset 从哪里来,被哪些模型用到,版本和生命周期如何管理,对下游的模型有什么影响等等。我觉得这个问题可能会越来越重要,而且这部分的工作相对来说也比传统结构化数据更困难,我们攻克下来也更有价值。

                                                                                      

全文无删节版请移步知识库    







Part 05



往期推荐




两周一次闭门会,期待您的加入

我们坚信“华人在全世界任何地方都可以成功”!

这是汇集全球一线创始人、行业专家的交流平台;

两周一次的闭门研讨,为全球化发展提供支持;

期待您的加入,一起探索全球化的无限可能,

共同迈向星辰大海!



出海同学会
深度研究整合出海价值链
 最新文章