香港科技大学贾佳亚教授《Mini-Gemini - A New Large Multi-Modal Model》|科技论坛

科技   2024-12-24 17:44   北京  

点击图片了解2024未来科学大奖颁奖典礼详情🔎


10月30日,由香港未来科学大奖基金会、香港科技大学、香港科学院联合主办的科技论坛于港科大隆重举行。作为2024未来科学大奖周的启幕活动,这场汇聚科技智慧与创新思维的盛会,吸引了来自各地的专家学者、商业精英、投资人及政界要员齐聚一堂,围绕AI技术的最新进展以及产学研深度融合的话题展开深入讨论,共同为香港科技创新的未来描绘宏伟蓝图。


在本次论坛上,香港科技大学讲座教授、思谋集团创始人兼董事长、电气与电子工程师协会会士(IEEE Fellow)贾佳亚以《Mini-Gemini - A New Large Multi-Modal Model》为主题进行分享,他提到,“因为AGI(通用人工智能)不是很成熟,或者说它的路径并不完全正确,我们并不能保证AGI在短期之内会降临这个世界,但是我想说ASI(超级人工智能)正在降临这个世界,因为人工智能正变得越来越强大,它能作为一个辅助。尽管它回答的问题不一定全部正确,但如果我们没有它回答的问题,就会花10倍或20倍的精力去完成这件事情,所以ASI意味着它可以成为你的辅助,成为你的帮手,成为你工作中和学习空间必不可少的这样一种能力。”

点击观看演讲视频👇

贾佳亚,香港科技大学讲座教授,思谋集团创始人兼董事长,电气与电子工程师协会会士(IEEE Fellow)


以下是演讲内容:

大家下午好,今天我作为东道主,第一个给大家做一个分享。


我觉得可以讲的东西还是很多的,因为在去年的时候,也是整个未来科学大奖周第一次落地香港举办的时候,其实我也参加过这个活动,也是在这样一个时间点上给大家做了分享,到今天为止,我想讲的东西可能跟去年又完全不一样了。这些PPT就完全没有重用,这也证明了AI发展有多快。


另外我给大家举一个例子,就是去年的时候我在开场白的时候说,因为去年的时候我还在香港中文大学,我说中文大学的AI发展是非常非常快的,香港两家最大的科技公司,然后最多的论文引用量,然后最多的学者的培养来自于中文大学,但是今年大家看,我已经来了香港科技大学。然后我们的马毅教授已经在港大建立了人工智能的这样一个学院,所以整个香港的AI发展已经进入到一个百花齐放的状态。所以什么呢?说明AI发展实在太快了。


好,我们今天正式进入正题,我跟大家讲一讲在这一年里面,我们又看到什么事情?当然,我们在讲我们今年的进展的时候,我更希望呢,给大家去看一看,就是在过往人类历史中间,其实一定是有很多的变化,在这过程中AI其实已经经历过三个高峰了,在一九七零年时代和一九九零年的时代,都有两个高峰在AI的发展,但是都以失败告终,最后的结局是大家觉得AI就是一个骗子所用的一个这样的词语。但是到了真正到了2022年以后,我们看到整个的人工智能的发展,实现了一个井喷状态,而且是进入到一个非常高速发展的周期,我想说这个周期,别人如果还再问我的预计会不会又会跌落到一个低谷呢?我觉得已经不太可能,它们可能会就蹦到天花板,但是不可能再往下走,所以其实人工智能马上会伴随人类走向接下来的未来的100年,我相信这个科学大奖应该离不开这个AI的这个事情了。为什么呢?因为大家看到今年的诺贝尔奖里面,我们在物理学奖和化学奖,都是颁给了AI相关的研究人员。而在去年的时候,我们也看到在未来论坛理事会2022轮值主席沈向洋院士的带领下,我们科学大奖更领先的,更早的把我们的数学和计算机奖颁给了AI的这个了不起的研究成果,包括我的前同事,所以这就证明了其实AI在整个的未来,5年,10年,20年,50年里面都有可能会伴随我们的整个科学发展的进程的推进。


那首先我们回顾一下,就是为什么AI这件事情会成为一个真正可以做的事呢?那我在一开始会跟大家想说,在人类的其实整个的学习过程中间的时候,其实我们一直处置一个仿生学,就是我们在很多很多年里面都希望用人工智能去模拟人类的智能,human intelligence,AI is artificial intelligence,我觉得这两个词应该是互相去借鉴的。


那人类究竟有多少个复杂的这种思考的单元呢?就是我们的神经元有860亿个神经元,大概这样,一个成年人。但是呢,因为每一个神经元,它并不是像我们这样单独的就是一个神经元,它要跟周边的神经元去做联系,它每一个神经元会联系多少个神经元呢?它每一个神经元它会连接到周围7000个神经元,它有700个突触。所以它最后的总量,就是我们人脑大家预估现在人类智能所能达到这样一个高度的时候,它的神经元的总量是700个trillion,就是700万亿的参数量,700万亿参数量这是多大的一个参数量呢?大家知不知道中国去年的GDP是多少?去年GDP是差不多是160万亿,也就证明了,就是说如果我们用去年整个中国的GDP的每一块钱想去购买神经元的话呢,你一块钱也只能购买五个神经元,所以这是一个非常非常大的数字。



所以在这个过程中间,人类发展过程中你看到,就是整个神经元是保证了我们成长的每一步,它是一个非常非常复杂的过程。但是呢,人类为了去模拟这个神经元的连接过程,我们在2012年之前和2020年之前,我们一直用的叫做卷积神经元,卷积神经元它是用的一个卷积的方式convolution的方式去连接所有神经,但后来2020年以后出现了transformer,它可以更快更大的去连接更多神经元,这样的话,突然就变成了一个大家今天看到的Large Language Model,就是大模型,在之前的话,大模型是做不来的,因为它的神经元的连接限度是有限的,它的周围的边界是有限。


所以在今年一年里,我想跟你讲讲,我不会讲2023年发生以前的事情,我想讲讲2024年整个AI界发生了什么?首先我们看到在这个数学竞赛里面,我们在这个人类历史上第一次看到AlphaGeometry已经开始达到了一个IMO的这个金牌选手的水平,就是在这个几何体里面能达到一个国际奥林匹克的金牌选手的水准。


同时,我们看到在2024年9月份,在上个月这个OpenAI发布的o1,它可以进行一个非常复杂的推理,也就是说它把以前可能直接问问题出答案的过程进行回溯和推理,然后通过大量的新的标注,然后实现到了在很长很长的时间的思考阶段,思考完了之后给你更加正确的答案啊,这就是o1可以做到的事情,同时在Microsoft,其实我们也看到它开始出现了新的Copilot,它可以把Python用所有的Copilot方式去自动去编写,而不要人去编写,所以我们很多的同学在未来你可以看到,当我们想去用一个非常复杂的excel的功能的时候,你不再用自己去编辑和去创建,你可以要这个Copilot的AI去帮你做。我们同时也看到,在2024年的8月,也就是两个月以前,就是我们出现了最新的一个Text-to-Image-Model,这个Model它是可以去帮你设计海报,帮你设计logo,帮你设计sticker,帮你设计Game Character,所以这些都是可以在这样一个新的这个模型下面去完成,当然我们也知道,在今年二月份的时候Sora可以很快的通过一句话帮你生成一个视频,对不对?这个在座的听众大家都知道这件事情,但是大家可能不知道是在这个月又出现了一个新的技术叫做Movie Gen,它是可以把语音也配上去,也就是说它的声音也可以配到这样一个视频里面,通过这一句话。这个音乐和这个所有的蛇爬行的声音全部都是自动生成的。


这是在过去的这段时间里面,我们看到整个领域发生的什么事情,但是作为研究人员,我想跟大家说,其实在香港我们也发生了很多的变化,我们做了非常多有趣的事情。比如说我们做的Mini-Gemini,这是我们在今年上半年做的一套系统,因为在去年我给大家做演讲的时候还没有这套系统,所以我没有讲这件事情,今年上半年的时候我们可以在香港,我们可以自主的研发了一套大模型,到大模型可以去理解图像,同时能生成图像。那这个过程你可以看到,这有个例子,在这张图上我们看到右边是一张香港的那个observatory发布的一张台风的路线图,大家要去看的时候,其实作为一个可能作为一个小学生或者是一个没有常识的人,看这张图是看不懂的。但是以前的大模型也不能做这件事情,因为它不能理解图像,所以通过我们大模型可以去直接理解右边这张图像,比如说我们问通过这张图,你预计什么时候台风会登陆香港?这个事情说明它必须首先理解这句话的意思,同时还要理解这幅图里充分的语言和科学含义,这个时候你看到它开始推理,所以我们这个系统呢,开始推理就是基于这个台风路径,然后基于这个图上所标注的这些信息,它预计在比如说9月1号的12点到9月2号之间会产生一个登陆的可能性。那这件事情实际上我们最后验证其实是非常非常准确的,因为它的实际登陆时间就是在早上的2:40到4:20的之间,这是天文台的预计。


然后同时呢,我们还能做什么事情呢?这个是在第一个版本里面的时候,我们可以让它直接看到左边这张图像,大家可以觉得这是张图像,你要把它给变成excel是件很很困难的事情,或者说你必须手动去处理,对不对?现在大模型可以直接问,当你看到左边那张图像的时候,你帮我生成一张table,这个table可以直接把你左边图像的所有信息给放进来,所以这就是OCR的能力,它可以去自动的理解OCR,同时把信息给标注进去。


同时呢,我们还做了一个非常有意思的事儿,就是我们在自己创建的这个大模型里面,我们在左边输入一张图像,里面有两个毛线团。我们就问,首先我们问一个问题Show me some ideas of what kind of toy I could make with this?就是说,这两个东西能做什么事情?这样的话,它就它既是一个designer,它又是一个图像的理解者。它要知道,这个毛线是什么东西,它能干什么事情?所以它生成了什么?生成了一个马,生成了一个章鱼,你看这两个东西在市面上都没有卖的对不对?如果你把它做出来,其实你就可以很好的做一个新的产品出来。这完全是帮你自动设计,但是我们不满足于此,我们继续问What if I want to add some medal?就是你加入一些金属,你会得到什么东西?它得到什么?它得到了一个闪闪发光的独角兽,它下面得到了一个带有扣眼的这样一个章鱼,有吸盘的章鱼,这是他的第二个结论。


但是我们还是觉得可以再继续问一问,我们就问我们如果加入些木头的部分,那能够让它有用,你觉得做什么东西,它把上面做成了什么,做成了一个rocking chair,它变成了一个小朋友玩的一个摇摇椅,下面那个变成什么,像章鱼哥,变成了一个拖把,变成了一个mop。所以这个东西就是在它能理解这个东西怎么叫实用性,同时加入它的这个材料属性,最后得到了这样一个结果,这就是在我们V1版本里得到了一个非常有意思的一个例子。


然后,因为现在人工智能发展非常快,所以到了下半年的时候,我们不满足于第一个版本所带给我们这些惊喜。在第二个版本里面,我带领我的团队做了第二个版本,叫Trio,Mini-Gemini是什么意思呢?就是一个双子星,因为它能理解文字,理解图像,所以我们叫它双子星。如果Trio代表什么呢?我们加入更多的功能,所以这个功能你加入什么?加入语音,我们这个系统是全世界第一个能够输入非常长的语音,同时理解语音,帮你做总结,帮你做记录,帮你做最后的一个分析的这样一个大模型。这个大模型,同时它还具有了能够在PC端,能够在server端和mobile端去同时部署的能力,它可以离线和在线同时运行。同时,它的这个参数的这个比例从一个billion到80个billion的这样一个这样的变化,它都可以去容纳。那大家看到这个今年马上我们会发布的系统。现在还没发布,因为今年给大家也是做了一个剧透,就这个系统的话,我们会在接下来的这个CVPR去正式的去投稿,去发布。


那这个Trio呢?它里面可以接纳了非常多的模态,包括了text,就是文字图像语音,还有视频,还有视频里的图像和文字,所以这些东西加在一起的时候,你看到这个Trio,现在是整个市面上可以接纳最多模态的这样一个大模型,比所有的现在的开源和闭源大模型都要来的强大。我给大家看几个例子,这一个视频是一个ABC的news,它长达20分钟,所以你有的时候或者在座的各位可能没有时间去看那个新闻,当你看完这样一个视频的时候,你想干什么?你想做总结,所以,我们其实开始做总结,那我们现在看完这个视频,你传给了这个系统之后,系统就问那你现在Please summarize the content from the video,然后它就给你去总结好,它说这个video里讨论的是一系列的非常重大的一些事件,包括伊朗发射了导弹,包括飓风袭击了美国的佛罗里达,这些事情帮你全部通过这一段没有文字的语音,它自动做识别,做总结,最后给了你这些信息。


接下来,我们继续做大海捞针的这个实验。大海捞针意味着就是说,我要找到更加精准的信息,这样的话,那我就问究竟伊朗发射了多少枚导弹,这个是在这新闻里报道的。这个时候它就会说,它就会寻找到这个视频里面最关键的部分,然后做总结,它告诉你说,其实据这个新闻报道,伊朗发射了超过200枚的导弹。然后那到底有多少人通过在这个在North Carolina这个地方就是能够被这个hurricane,就是这个飓风给杀死掉了是吧?它会告诉你,总结了超过100个人。这个时候你看到很多信息,通过这样一段超过20分钟的语音,它能够帮你总结出来,这就是我们新的一个能力,在这系统里面。


我给大家再看看几个例子,这个是我们的这个系统的一个界面,就比较简单,因为这是学校开发的一个就是基于网页端的一个界面,我们传入了一幅中国画。然后这个时候呢,你去问问题的时候,已经不再需要去打文字了,你就可以输入一段语音,你自己跟它对话,你跟系统对话。然后你对完话之后呢?这个结论呢,不会是通过文字给你,它会通过语音告诉你,你可以不用去看它,可以听得到发生什么事情。这个在这个大模型里面,这是第一次把这个流程全部打通了。然后第二呢,我们可以通过这个事情,同时可以上传很多图像,在图像里面的时候,你可以去问到底有多少个人在那张图像里面呢?这个时候你看到这个系统开始用语音给你回答。大家看到这个语音其实非常流畅的,就像一个人在跟你对话一样,所以这个语音的整个模块是我们自己研发,同时能够把这个Encoder-Decoder(编码器-解码器)再加入到大模型的这个整个的系统里面。


然后,这是最后的一个例子,给大家看一看。我们可以上传一个视频,不仅仅是图像了。所以这个就是我们现在整个的Trio能够做到的,然后我们即将会发布在香港,整个这也是成为在香港为数不多的能够去大家可以自研的整套的大模型的系统之一,而且这个系统的不断在更新,我们大概的预计计划是每三个月更新一个版本,也就是说大家会预计到未来,有非常多的功能和新的能力会加入进来,同时能帮助你控制机器人、控制你的电脑、控制你的手机,这些东西都是我们的很多同学在一起开发和研制的东西。


最后,我想给大家讲一讲,就是大模型发展的这么快,在今年里面,大家看到好像无所不能了,究竟大模型还有什么问题,我相信马毅教授会谈论更多这样的问题。但是我想说,我给大家讲举几个例子。第一呢,大家看到,我问一个问题,就是在ChatGPT o1里面,大家问在香港为什么可以红灯时通行啊?这个事情本身就是错误的问题,但是正是因为你问了这个错误的问题,这个答案它就会被你的这个问题带偏,你看到答案就是说:在香港,车辆在红灯时必须停止,但是如果同时有绿色箭头亮起,司机可以按照箭头所示的方向通行,即使主信号灯为红灯。这是不对的,这是按照香港的交规法,这是不对的,所以这个也就说明什么大模型产生了非常多的幻觉,这个是现在还没有完全被解决好的一个问题,同时也很容易被人类去攻破。


第二个,大家常见的,就是9.11和9.8哪个大?这个问题大家还可以去问ChatGPT o1,你去试试看,你会发现他告诉你说9.11比9.8大。以至于到了我看了这个问题,看了很多次以后,我自己都产生幻觉了,我觉得究竟是不是9.11比9.8大呢?是吧,就这个事情,到现在其实大模型还是在坚持9.11比9.8大,就这个还是一个比较有意思的问题。


第三个,其实就是在整个的大模型里,它对于这种技术还是有非常大的问题,它不太记得自己说过什么话和看过什么事情,比如说你问我们现在在这样一个非常古怪的新的词里面,有多少个“r”,它会告诉你说这里面有五个“r”,还给你数了一遍。它给你数完之后,其实你发现其实是不对的,它实际上是不止五个“r”的。所以,你看到就是它一本正经的给你在回答问题,但实际上不太对,这个答案并不对的。


最后给大家举个例子,特别有意思,我问了一个问题,就是基努里维斯他有一次去NASA访问的时候,拿到了一个颁给他的的奖状,请解释这个奖状的这个来源和这个具体的由来,这个时候你会发现这个GPT给你干什么事情?它给你创建了两个不存在的网页,这个网页是不存在的,这个事情是不存在的,这事情是假的事情,就是基努里维斯并没有从NASA拿到过任何的一块这样的一个颁奖的奖牌。但是这个系统为了回答你这个问题,它创建了两个网页,一个是这个bing的网页,一个space的网页,还有wikipedia的这个网页里面其实也没有讲这件事情,但是它把它创建出来,告诉你说你看这是我查询到的这个网站。但是实际上这个网站是不存在的,所以说明什么呢?说明这个大模型到现在为止还是比较的虚幻,就是不是很真实的一件事情。


所以通过这些例子呢,我想给大家最后给出一个Take-home message(关键信息)。这个就是逻辑上,它不太会计数,就是当人我看到这张漫画的时候,我知道怎么做菜的这个规矩,但是大模型看完之后它告诉你说,最后菜做完以后就是一个破烂的鸡蛋。就这个是它不太理解这个逻辑的整个的这个发生的过程。最后,Take-home message是什么呢?就像在去年的时候,很多人都叫AGI。就是artificial general intelligence,但我想跟你说今年的话,这个词变成了ASI,artificial super intelligence。那为什么呢?因为大家发现AGI就跟刚才我给大家看的例子一样,它还不是很成熟,或者说它的路径并不是完全正确,我们并不能保证AGI在短期之内会降临这个世界。但是我想说,超级人工智能现在在降临这个世界,因为人工智能变得越来越强大,它能作为一个辅助,它回答的问题不一定全部正确,但是如果你没有它回答的问题,你会花10倍或者是20倍,更多的精力去完成这件事情,所以超级人工智能意味着它可以成为你的辅助,成为你的帮手,成为你工作中和学习中间的必不可少的这样一种能力。但是我想说,未来AGI是不是真的能够做到,还是依赖于在我们学校和好多科研学者继续努力,希望能够有一天真正能实现AGI。


好,谢谢大家。




扫描二维码,手动get
《“未来”科学家—未来科学大奖获奖者访谈实录》




相关阅读





未来科学发展中心
科学改变未来。未来论坛是由科学家、企业家、投资人群体于2015年共同发起创立的科学公益组织。全面推动科学传播事业发展和产学研资对接融合,迄今已凝聚了数百位全球杰出科学家、行业领军人物、青年创新精英。
 最新文章