这幢三层小楼,藏着OpenAI步步领先的“灵魂密码”

文摘   2024-09-13 06:30   陕西  


文|崔伟

       清华大学博士

       浙江大学金融学系校外导师

       IEEE PES 中国区常务理事



GPT-4o将人机交互

提升到一个全新的水平


5月13日,OpenAI发布了新的全能模型GPT-4o,实现了跨模态的即时响应,在全球立即引起了广泛的关注和轰动。


在OpenAI的发布会上,GPT-4o在没有任何延迟感的语音对话中,表现出了和真人无异的节奏、语气和交互性,甚至还能隔空接住主持人Mira Murati(OpenAI的CTO)抛出的“梗”。


媒体一片惊叹:人们期待已久的“全能AI助手”,终于要成为现实了!


▲ GPT-4o发布会现场


GPT-4o 的“o”代表“omni”,意味着全能。此模型的多模态交互能力很强,可接受文本、音频和图像的“混合”输入,能快速响应并完成推理,生成文本、音频和图像的组合输出。


这种自然的交互体验,让人几乎难以察觉与机器的界限。


OpenAI首席执行官 Sam Altman 没有在这场发布会上亮相,发布会结束后也只在社交媒体上发布了一个词——她(Her)。电影《她》正讲述了一名男性作家和一名人工智能语音助手建立了恋爱关系,GPT-4o和电影中斯嘉丽·约翰逊配音的“她”非常相似。通过直播,OpenAI全方位展示了接入GPT-4o后,ChatGPT是如何识别用户语音甚至面部表情中的情绪。可读懂用户情绪的智能助理,似乎真的有望让科幻电影的桥段走入现实。


GPT-4o和国内主流大语言模型的

最大差别——交互性


众所周知,自从ChatGPT发布以后,国内也出现了“百模大战”,无论是科研机构还是企业界,都推出了各种不同类型的开源、闭源模型,其中不少声称已经达到甚至超过了GPT-4的水平。


这种比较的依据,主要源自以下几个常见的评判指标:

MMLU:通用知识和推理能力。

MATH:数学解题能力。

GSM8K:小学数学。

HumanEval:Python 编码任务。

GPQA:大学生物、物理和化学问答。

DROP:阅读理解和算术。

Big-Bench-Hard:综合评估。

ARC-Challenge:常识推理。

HellaSwag:常识推理。

AGIEval:大学入学考试和资格考试。

MT-Bench:多轮对话基准测试。

AlpacaEval 2.0:指令跟随能力。


目前最为常用的大语言模型(LLM)对比标准是Huggingface的“LMSYS Chatbot Arena Leaderboard”(https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard),笔者查看了当前(6月5日)的排行榜(部分):



可以看到国内的通义千问(阿里出品)、GLM(智谱AI出品)等大模型在通用知识、问题解答、多轮对话方面,可以说不遑多让,已经进入国际第一阵营。


但是为什么,我们在使用国内的AI工具时,虽然在代码辅助、文件解读、知识搜索等方面已经具备了强大的功能,相对于GPT-4o在应答问题方面的轻松自如,总觉得缺了一点什么呢?


可以明显感觉到的是:国内的产品,在交互性,或者人性化方面,与GPT-4o略逊一筹,也就是说,GPT-4o显得更有“灵性”,具有更强的人性化能力,可以更好地理解用户的情感和意愿,从而实现更加智能的交互。


在5月13日的发布会中,GPT-4o甚至可以通过摄像头,读懂用户表情的含义,并给予适当的响应。


这种交互中的“情感”和“温度”,恰恰是我们所欠缺的。


从OpenAI的图书馆谈起


最近有媒体公开了OpenAI总部大楼的陈设。这栋小楼很不起眼,外面也没有大幅的标识,你根本想不到,里面正在开发人类最先进的人工智能模型。


OpenAI位于旧金山市区的三层办公楼


更加令人意外的是,里面布置了一个两层楼的图书馆。


墙上有四位科学家的照片:特斯拉、爱因斯坦、海蒂·拉玛和艾伦图灵,其中海蒂·拉玛是一位好莱坞著名演员,但是1941年海蒂借鉴了音乐家乔治·安太尔同步演奏钢琴的原理发明了“跳频技术”,为CDMA、Wi-Fi等技术奠定了基础 。1942年海蒂获得了美国颁发的“跳频技术”专利。


图书馆中的书籍来自员工的捐献和推荐。书架上琳琅满目的图书,涵盖了科技、人文、艺术等多个领域,反映出OpenAI团队的多元知识背景。


下方可以看到有《西方世界的艺术战争》《20世纪美国艺术史》《美国油画》这样的艺术类书籍:



还有大量关于心理学的书籍,以及不可或缺的《2001:太空漫游》:



以及一些科学家的传记,例如《奥本海默》:



这个图书馆已经成为了员工办公、阅读、休息的空间:



显然,我们无法通过这些书籍简单地判断出OpenAI员工的知识结构,但是可以从中一窥其团队的阅读视野和素养:艺术、历史、心理学,不一而足。


这些看似与人工智能毫不相关的人文知识,可能恰恰是让其产品具备了更强“人性”的关键。


您可能会觉得:这个结论下得有点太武断了吧?我们单位的读书室里面,可是也有各种方方面面的书籍,这也不意味着我们都爱读书,都具备人文素养啊。


我们不妨再来看看OpenAI一位重要成员的履历:今年年初在“文生视频”领域带来突破性变革的Sora项目负责人Tim Brooks。


Tim本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在Facebook软件工程部门实习了四个月。去年一月,Tim顺利毕业并取得了博士学位,转而加入OpenAI,并相继参与了DALL-E 3和Sora的工作。



值得一提的是,Tim不仅在专业领域拥有高超的技术水平,还是个多才多艺的人。据Tim自己介绍,他还喜欢摄影和音乐,高中时他拍摄的照片获得过National Geographic颁发的奖项,本人到过百老汇演出,还获得过B-box国际奖项。


Tim Brooks的摄影作品


Tim Brooks制作的电影《What do you live for》,关注于儿童心理健康问题


正是Tim Brooks在艺术领域的造诣,让他能够在众多的计算机科学家、软件工程师的队伍中脱颖而出,打造出Sora这样兼具美感和智能的划时代产品。


相比之下,我们的人工智能团队,具备心理学、艺术、人文背景的知识储备和人员太少。这是我们总体的社会氛围决定的。


我们从小学习的都是:学好数理化,走遍天下都不怕。笔者作为一名科研工作者,也深刻地体会到:在解决工程问题层面,技术能力是足够的。但是一旦到了前沿的创新领域,哲学思维和人文素养,就显得越来越重要。比如,一个AI产品经理的能力模型,“常规能力要求、AI相关知识能力以及垂直行业认知等能力项“,决定了他将来工作产出和个人成就的下限,但“人文素养和哲学思维”,将会决定他将来工作产出和个人成就的上限。


如何看待

科技发展和人文素养之间的关系


回到最近发布的GPT-4o。人们惊叹于它在交互上的流畅度和人性化设计,这不仅是算力的胜利,更是团队广泛的人文素养和深厚的心理学素养的结晶。快速响应的技术特性背后是对人的深刻理解,让交互变得生动、自然。


因此,为AI带来个性化、人性化的互动能力,不仅需要技术的支撑,更需要团队成员具备深厚的人文素养和心理学素养。这正是目前国内AI团队所亟须补充的。


而目前国内,在就业导向的学习和教育环境下,人文学科和教育,正面临着前所未有的挑战。著名专栏作家法里德·扎卡里亚在著作《为人文教育辩护》中,并没有展开艰涩的学术探讨,而是由自己从印度到美国耶鲁读书的经历讲起,用对话式的口吻,平实幽默的语言,追溯人文教育的起源和演变,激辩人文教育的争议、困境和意义。



书中引用了生物学家爱德华·奥斯本·威尔森具有预见性的一句名言:

“我们为信息所窒息,而渴求智慧。今后的世界,将属于能总揽全局者,他们在恰当的时间,运用恰当的信息,以独立的思考来做出明智的选择。”


在我们今天这个信息、知识触手可及、浩如烟海的时代,如何打造出具备“智慧”的、人性化的人工智能产品,威尔森的预言可以作为时代的一个注脚。


结语


在人工智能的世界里,代码是构建的基石,但人文素养则是赋予产品“灵魂”的画师。在AI产品的研发过程中,我们需要融入更多的人文关怀,让技术产品不仅高效、智能,更具备“灵魂”。


这不仅是对技术的一次革新,更是对人类文明的一次致敬。


 END 


* 所刊专家文章并不代表本中心观点。

* 部分图片来源于网络,如有侵权,请联系我们删除


【欢迎转载】

请注明“来源:数字社会发展与研究”。




 数字社会发展研究中心 

专注于数字技术发展及相应经济、社会、人文领域的新现象,新问题的公共性观察和研究。

闲庭听雨
诗词、散文赏析及阅读;娱乐、休闲;清茶共闲庭听雨声。
 最新文章