引言
随着算力、数据库、大数据等底层技术的发展,大模型的建设与在各个领域的应用正在加速推进,那么,这些迹象是否预示着 AGI 正在到来?最先进的大模型技术又有哪些共同表现?回到国内,大模型当前的应用场景面临哪些挑战,应该如何解决?有哪些趋势和机遇值得创业者关注?
为解答以上问题,近日,腾讯云 TVP AI 创变研讨会系列第二期「AI 下半场,探创新与应用风向」在深圳腾讯滨海大厦举行,邀请多位 AI 领域资深专家进行前沿分享,并特别设置了全场嘉宾的深度分组脑暴,现场思维火花碰撞,精彩观点迸发。
以大模型为代表的AGI:
自主决策、自我探索、自我迭代
在《通用人工智能的现在与未来》主题演讲中,达观数据副总裁、腾讯云 TVP 王文广首先追溯了从神经网络概念的最初提出,到如今这一技术在大模型上的延续。具体来说,目前大模型的发展主要呈现以下特点:
● 模型的多样化。从 2017 年谷歌发布 Transformer 到 2018 年,两年间产业界开始不断涌现出具有代表力的模型。其中,典型如 BERT 和 GPT,GPT 比 BERT 的出现更早,但是在语言处理能力上,首先爆发的是 BERT。当时,在阅读理解能力评测上,BERT 首次超越了人类专家的水平。
● 参数规模和数据规模的爆发。BERT 在“阅读理解”上的优异表现拉开了模型参数“野蛮增长”的时代,直至今日 GPT-4 达到 1 万亿的参数规模。同时,数据语料也从 BERT 时期的几百兆,达到现在的几 PB 甚至是几十 PB。
关于大模型如何在实际中更好地应用,王文广特别强调:大模型有依靠自身无法解决的“幻觉”问题,导致了准确性和事实性无法保证。所以对它的使用需要有所限定,在对可靠性和真实性要求不高的情况下非常有用。针对大模型也不擅长做数学计算,王文广说:“我的建议是,可以通过代码解释器运行大模型给出的结果,这是一种可行的方法。”
据其介绍,目前大模型的应用主要集中在文字创作相关领域,包括查阅资料、营销文案、创作小说,主要基于搜索和编造的强大能力。
“但如果需要保证可靠性,特别像我们达观数据大模型平台‘曹植’面向产业应用,就需要想方设法地利用检索增强,通过知识图谱的方法对它的结果做校验,做知识的凭据、二次的验证,去做所有答案的溯源。”
构想未来,王文广认为,以大模型为代表的 AGI 将进一步发展至“自主决策、自主探索和自我迭代”的新时代。而相对于自我迭代难度较高,自主决策和自我探索正在实现:
“‘输出’无非两种:一种语言,一种工具。语言发展到最新就是现在的大语言模型,此外用视频训练大模型的方向也值得关注。而在使用工具上,也不乏应用工具的 Agents和工具调用方法。也可以将大模型作为大脑与机器人相结合,机器人根据指令操作,实现“具身智能。”
资本耐心有限下,
AI成功落地的关键要素
从 1956 年人工智能概念的提出,到 2012 年 AlexNet 取得 ImageNet 的冠军,看似 AI 再一次迎来了新的产业利好。2013 年至 2019 年间,NLP、AR、VR 等技术发展势头良好,很多概念公司拿到融资。但实际上,产业仍处于炒作周期,直到2019年,迎来本轮浪潮的第一次低谷。
按照资本运作的逻辑,当项目在短期内难以达到预期回报,就很难避免被关停的命运。基于邵浩在 AI 投资领域的切身体验,他认为当下大模型投资标的选择非常困难。
那么,在资本耐心有限的情况下,AI 技术若想成功落地又有哪些关键要素?
首先,是做到高效应用。在邵浩看来,无论是将大语言模型应用到办公软件,还是将 AI 的搜索能力应用于信息的抓取和推荐,都是 AI 在普及化场景中的优秀应用案例。在专业领域也需要找到痛点方向,比如通过大数据帮助医学领域进行重大发现,寻找新的靶点等。
“是否是好的应用,大概有几个判断要素:包括行业属于劳动密集型,企业生产工具类、普适性产品,终端场景包括军工、医药、银行、券商等等。包含了这些关键点就更容易走得通。”
其次,需要形成完整的产业闭环。比如,在半导体领域,需要从原材料、设备、人才、配套、生产、销售,各个环节一起形成市场化的产业链。在 AI 领域也是一样,如果难以形成市场闭环,就很难交付出用户真正喜欢的产品。
除此之外,邵浩也从自身资深的创业经历出发,给到他对 AI 创业者两点建议:
其一,AI 决定技术上限,但不要盲目追求。基于 AI 的复杂性和高成本附加,可以的话在项目前期进行技术替代,如果进展顺利,在后续过程中再引入 AI,这样可以降低投资人的风险预期;其二,除技术之外,新产品该如何取代旧产品的市场也值得创业者多思考。
最后,基于对大模型未来技术发展的预判,邵浩提出几点具体建议:
● 关注 AI 发展中的瓶颈要素和领域应用,如算力、行业数据;
● 具体领域应用中,医疗与军工领域较有机会;
● 以用户需求和产业需求为导向,选择“+ AI”的项目,而非“ AI+”的项目;
● 保持前瞻性眼光,如关注多模态等前沿方向;
● 强调“产业闭环”。
向量数据库:实现多模态数据打通
和人与数据的互动
在《向量数据库:AI 时代的数据枢纽》主题演讲中,腾讯云数据库副总经理 罗云首先提出了他对大模型的看法。
进一步,与强大算力相配套的,则是完善的数据存储平台。通过在腾讯云的内部实践,在构建存储平台上罗云认为需要攻克以下两个关键点:
● 数据的多模态。包括关系型数据库数据、文件系统中的数据,以及存储的非结构化数据,这些数据都是价值数据,需要通过智能化的方式加以利用。其中,关键在于数据的多模态互动,做到表数据、KV 数据、图片数据等不同模态下的数据对应和流通。
● 以自然语言为基础的人与数据的交互。如何无需通过程序员就能调度底层存储,包括读写数据、检索数据等任务。
要达成以上两点,需要运用向量数据库的“中枢”和“索引”作用:
● 向量数据库是数据中枢。数据之间存在信息差的关键点在于格式不一致,而通过“向量”的方式,可以让多模态数据最终表达为一种格式。
● 向量数据库位于索引层。通过向量数据库,可以索引包括数据库、大数据、文件系统等各个不同数据空间中的数据,是通用索引层,方便查找。
● 与中国信通院标准制定组织一起完成了千亿规模的测试。“包括实现最高支持千亿级向量规模和 500 万 QPS 峰值能力,达到 99.99% 的可用性;我们也是国内首家通过信通院标准测试的向量数据库;同时,和信通院一起联合 50 多家企业共同发布了国内首个向量数据库标准《向量数据库技术要求》。”
● 端到端的召回率提升 30% 以上。通过集成 Embedding,实现自然语言查询;通过 AI 套件的应用,实现端到端的 RAG 应用检索,从而使召回率提升 30% 以上。
“通常大家会用框架去做,但我们测下来发现准确率表现不是很高,基本上通过开源方案去搭建,端到端的召回率能做到 50% 就算高的。为提升召回率,我们在内部也做了很多尝试,比如和 PCG 业务团队的合作,将他们的一些知识平台化,做成标准的解决方案运用到行业之中,这样就能让行业发展得更快。这样一套做下来,召回率可以达到 70~80%。”
截至目前,腾讯云向量数据库在集团内部有超过 40 个业务的接入,每天完成 1600 亿次请求。此外,自今年 7 月份向量数据库上云,在 3 个月左右的时间里已经累计了 1500 家以上企业级用户和开发者用户,增长飞速。
分组脑暴,观点碰撞
三位嘉宾的精彩演讲结束后,主持人火光摇曳 CEO、腾讯云 TVP 靳志辉总结道:“‘通向 AGI 之路’我非常认可,AGI 的话题也非常吸引人。如果对这个话题感兴趣,推荐大家读 3 本书:《生命 3.0》《未来简史》以及《千脑智能》,基本上很好地解读了未来人类 AGI 的发展走向。”
紧接着,人人参与的深度探讨环节正式开启,主持人火光摇曳 CEO、腾讯云 TVP 靳志辉提出四个关于大模型和 AI 技术的热点问题,现场嘉宾以小组抽签的形式分别选择不同话题进行探讨,然后各小组派代表进行发言,其他小组组员也可以针对性地发表自己的看法。热点讨论结束后,特别设置了争议性话题“观点 PK ”环节,嘉宾在交流过程中也碰撞出更多精彩观点。
GPTs会给创业者带来哪些机会,
它的未来会如何演化?
由此来看,GPTs 强大的编排能力和极低的使用门槛将极大推动大模型应用的普及以及为大模型行业培养大量的人才。未来十年,无论是 To C 还是 To B 的场景会有大量的 AI 应用出现,这些应用会是独立开发,并不会是基于 GPTs 来构建。
对于 AI、大模型的未来发展,
看好哪些核心方向?
其中,计算和存储能力可以通过存算一体的芯片进行融合,如果加上感知层,还可以实现感、存、算的三层融合,未来可能还能够进一步融合网络传输能力。而从应用方向来看的话,我们更看好“AI 智能体”的未来发展。
AI大模型与行业或领域有哪些结合,
看好哪些应用场景?
此外,各小组的嘉宾也结合自身所在领域的应用场景发表了各自见解。
主持人火光摇曳 CEO、腾讯云 TVP 靳志辉则结合其所在语言教育领域,指出 NLP 中的一些重要场景。一是儿童语言学习及成人语言学习,已经有很多创业公司利用 ChatGPT 对话技术产出下一代语言训练场景。此外,在未来的老年社会,如何利用 AI 给老人提供陪伴及情绪价值,在他看来也是可以应用的场景。
未来十年的中美AI竞争,
中国将逐渐追平还是越拉越远?
而讨论到算力方面,主持人火光摇曳 CEO、腾讯云 TVP 靳志辉保持乐观,他认为当前中国的算力研发突破很快,AI 人才方面也在不断追赶,未来大模型技术发展我国有能力紧跟美国不掉队。
观点PK:
“有效加速”还是“超级对齐”?
有效加速理论代表人物:Sam Altman、Yann Lecun、Andrew Ng(吴恩达)
核心观点:技术发展不应受到其他因素限制,要更加开放,AI无需监管。
超级对齐理论代表人物:Elon Musk、Hinton、Ilya Sutskever
核心观点:基于技术带来的潜在威胁,应该对AI系统的行为进行引导,让其能够符合设计者的意图,也就是需要监管。
从正方观点来看,之所以赞同“有效加速”,主要在于各国最终都会选择去监管,但因为 AGI 对人的影响很大,监管的结果好坏尚未可知。达观数据副总裁、腾讯云 TVP 王文广提出:未来 AGI 将至,并将带来很大的影响,在这一点上两派人物的观点是一致,只是 Ilya 希望在让 AGI 服务人类之后再放开给大家使用,Altman 则是希望先发展,抢先占领机会。对于目前中美在 AI 发展上存在差距,我认为应该首先支持发展,在技术上进行追赶。
正方 vivo 研发总监、腾讯云 TVP 杨振涛进一步指出,这涉及非常多关于价值观的话题,现在不少人会带“e/acc”的标签,表明自己是“有效加速主义”支持者。有的人可能认为这代表了一种精英的傲慢,但实际上,在技术成长的阶段,AGI 突破的前夕,如果有太多监管,必然影响到技术本身的发展。换个角度,从社会和政府层面,可能需要考虑的是大环境与价值观的问题,包括法律的完善、科技伦理等等,这些都会考虑到,但是需要在合适的时机,不应该在新技术这棵小苗初长新叶的时候就喷农药,还是要给它生长的空间。
最后,腾讯云数据库副总经理 罗云对两方的观点进行了调和,让这个辩题的思考上升到了哲学层面:这个论题我自己的看法是没有答案。相信没有人会说我们人类的目的是为了制造 AI,碳基的目的是制造硅基。我们运用 AI 最终的目的一定是服务于人类,帮助我们提升生产力,让人类更加幸福。那么在这一大的目的共识下,我认为当前的阶段应该放手向前跑,做大胆的尝试,这对于我国科技的发展更加有益。
结语
事实上,AGI 首先是一个技术命题,但它同时也是社会命题和哲学命题。所以,在本次 TVP AI 创新研讨会上,无论是嘉宾演讲还是线下讨论,都会在技术之上加入对 AGI 的社会性思考和哲学思辨,这也是本次活动的超预期收获。
秉持“用科技影响世界”的初心,腾讯云 TVP 还将携手各界专家,共同探索大模型在不同维度、各个领域中的理论前沿和技术实践,共同迈向 AGI 的智能未来。
现场花絮集锦
左右滑动查看更多
欢迎关注「腾讯云TVP」,期待你的「在看」~👇