Wade Shu从技术的角度为我们理解心理健康服务打开了一扇窗。在科技浪潮日益迅猛的今天,我们如何与时俱进,搭乘新的科技手段,让心理学更好地服务更多人?
Wade Shu深入浅出的介绍,带领我们看到了科技在心理学上的一些应用和尝试,犹如进百花园,不得不让人惊叹,科技与心理学结合碰撞出的无限可能。
从另外一个角度去解释这个Mental Health,就是从technology的角度,尤其是过去一年半的时间里面很短的时间里面解释这个Mental Health。包括Chat GPT或者大模型的,新的科技的发展对整个心理健康的影响。
因为过去一年半的时间,整个世界是翻天覆地,从Chat GPT推出来到现在。包括google meta open a microsoft你可以想到的最大的科技公司都在做large language model这件事情。
那我今天讲的主题,主要是对AI和LLM在psychology就是心理学上面的一个探索,因为大家想一下就知道,大家在一种场景里面,比如说facial expression,比如说你有整个脸部表情的变化的时候,可以多准确的反映你的心理状态?这个大概有我们现有一些研究,出了一些paper,大概是60%左右,真正可以捕捉到你的心情的时候,大概就是60%左右,包括语言,包括你的脸面部的表情,各种各样。large language model用途在哪里?比如说你的频率,比如说用词的频率,你的语速,你焦急的时候,你的语速跟平常的时候肯定是不一样,我现在讲话的语速跟我跟家人的讲话也是不一样的,它就有各种各样的一个判断,所以在这个过程中间会有很复杂的一个algorithm。
所以今天就介绍一些基础的,跟technology有关系,在心理学上面的一些应用,我们也做了一些尝试,但是目前为止,我们整体来说,从今天比如说七八年前,大家看到,另外一种AI模型image processing就是图形处理的时候,有人说七八年以后就不需要。Radiologist不需要这个放射科的这个专家了,但是七八年过去了,现在还短缺,所以AI这个过程中间,你觉得就是AI处理图形更快更有效,还是处理你的心理更有效?所以这有一个很长漫长的路,我今天就讲一讲,在这方面的一些探索。
Chat GPT打破了很多记录,我想可能大家都多多少少的看到过,关于大模型CPT横空出世,起到了两个效果:一个是在一个月之内达到了一亿注册的人数,这是前所未有的,你可以看一下netflix,Spotify他们积累的速度显然是远远落后于Chat GPT这是第一个;
第二个就是横空出世以后,把在市场上的关于natural language processing就是自然语言处理的,很多的小的科技公司,包括我现在公司用的一些NLP的这些供应厂商,大概在几个月之内把他们全干掉了,然后包括一些room辅助的一些,本来可以自动记录一些会议的纲要,这种公司也死了一大批,所以他就是前所未有的,这个体量还是过去二三十年中间非常少见的,在很多方面已经改变世界了。
我举一个例子给大家,最近有人通过Chat GPT发现了一个疑难杂症,technology stack关于这个最底层的,有公开的信息,有私有的信息有合成的信息,所以,public就是公开信息和私有性。在firework在防火墙之后的信息比例是20%-80%,大部分的信息还是在防火墙之后的,在这个过程中间chat GPT可以应用到企业级。
那给我们大家带来的影响可能是更加深远的。那现在还有很多合成的数据,就包括我刚才讲的这个X ray CT PET/CT R所有的医学影像方面,现在nvidia大家可能也知道就新出了一个ecosystem叫Models,它已经是用90%,合成的数据,做他Models的这个源头。你可以想象90%的是合成的数据,10%是真实的数据,这是一个很大的改变,以前是不可能的,但是他因为现在是generative dataTo build up the synthetic data source,这是一个很可观的,前所未有一个事情发生。最重要的是什么,就是将来的数据模型就是一个数据认证的一个过程,所以叫proof这个数据是真的还是假的,这个很重要。
在数据之上,就是我们今天说的云计算,软件管理。各种各样的安全协议,硬件就是IOT的东西,可穿戴的东西,数据中心各种你想的infrastructure的东西,这是在数据之上建立需要用hardware process所有的数据。在这个之上,我们今天知道的所有的foundation model ,a larger language model。包括open source,包括开源的不开源的有lama,open AI,然后有各种各样的prompt engineering,就是prompt engineering怎么通过前端的解读,对你问题的解读达到最优的一个效果。
在这个之上,第四层是今天最有意思的事情,就是app我们都知道,你可以Chat GPT,用自己企业级的Chat GPT做很多事情,你现在不需要去再学excel了,你把excel扔给Chat GPT给你全总结好了。你有一份血检报告大概4、5页的血检报告,各种各样的项指标,有的超有的是超标,有的是不到不达标,然后你扔给Chat GPT,很快就告诉你要做什么。
另外一个,很有趣的就是今年大家谈的最多就是autonomous agents,因为你可以想象一下,就是我们现在做的任何一件事情,如果我有个digital twin,利用我的影像叫digital vide,当我说,这位你今天给我把这个机票的事定了,我想三点到,我有这个酒店的需求,有时间的需求,各种各样的需求,很快autonomous agents就把这个事情做了。
今年2023年最火红的词是Chat GPT,2024年是agents,所以agents用在各行各业,已经开始了,做的虽然很多是在prototye阶段,但是我觉得可能在今年年底或者明年的时候,会有一个很大的突破,就包括Nvidia今年的GTC上面这个digital twin,也是个agents,就是数字男生,也是一个agent在对面做各种各样数字医疗护士的事情,这个是简单的AI可以帮助我们make decision的。
一个过滤器,如果最左边就是,黄色的标识,从上往下,是我们不同的阶段在网上购买东西的一个节奏,你首先要知道这个产品,然后开始做research,然后再看各种各样的价钱的比较,性能的比较,最后决定是不是买东西,我用这个例子,我一会讲到为什么这个东西跟Mental Health也有相关的地方,今天我们大家还要去google去,或者去百度去做各种各样的检索,然后把东西找出来是在哪里,有可能你对他的信任度还不一定相信,你看在淘宝上各种地方在比较价钱,如果是碰到特殊的打折的日子,你可能会有更多的冲动去买。你可能会比较价钱比较性能,然后跟周围的朋友,家人商量去买什么东西,比如说,尤其是跟医疗有关系的东西,跟家人更有更大的关系,最后一步才是决定,不管是在淘宝在apple上面做出一个买东西的决定。在短期内,这个东西,我觉得很快就会发生改变。
如果大家知道Chat GPT已经出了一款产品叫search GPT,就是大家还没有,没有得到这个消息的话,现在就可以注册了,所以我也是今天才注册到他们的微上面,所以很快这个东西就出来了,你想要什么东西,我告诉你按照你的要求,然后通过prompt engineering的方法,比如说我现在想买一款血压计,我有这样的要求,价钱的要求,产地的要求,有各种各样的要求,然后把所有东西都列出来,我需要一个给我运到家,最快我明天就要的一个产品最终的结果就是这个ecommerce agent就把这个事情做了。这不是已经是一个翻天覆地的变化,我觉得这个过程会加速。accelerated computing,加速运算,会把我们现在所有的东西都会加速。
那可能大家说了是好的方面加速,坏的方面也是加速,这个答案是肯定的,就是说when we gain something we'll lose something就是我们一定是有一个舍得的关系。所以我们得到一些东西,一定会舍去一些东西。这是从另外一个角度去看,在稍微长远的一个目标,就是说,AI这个会非常积极的教育大家,关于你需要什么东西,你想买什么东西,你现在生活中最最困扰的是什么东西,它会主动的跟你联系。问你是不是需要,比如说你肌肉拉伤了你,这几天在做几个动作,就把这个信息传到后台。他就会主动提出这样的要求,我有肌肉拉伤治疗的产品,你想不想要,它会是一个proactive的approach会非常积极,然后给你自动比较价钱,自动比较性能,最终给你从AI的角度,一个人的建议是直接就把这个事情做了,这是跟今天的消费习惯是不一样,今天我们是作为人类是主动的,但是从另外一个角度,可能在不久的将来是机器是主动的,然后我们是被动的是这样一个过程。
现在就是关于大模型在心理学方面的一个简单的,decision tree如果大家有兴趣,可以有时间可以看一看,我就在这里。详细的点一下,就是说这个东西最重要的还是一个labeling,最终的结果还是一个labeling,比如说你必须是受过正规训练的心理治疗师或者心理学家。告诉这个机器怎么去label这个data这个才有意义,如果说是并不是这个心理学出身的,那我介入到心理学方面的,因为我管理一些跟心理学方面有关的供应商,所以了解到一些东西,他就通过词汇的表达,语速,词汇的表达,比如说他说i'm worried about something,那一定是他比较担心某些事情发生了,通过这些词汇的表达,在fine tuning重新训练你的模型达到一个最终可以用的地步。
这个中间,这个prompt engineer非常重要,因为你提出一个什么样的问题,不同的问题就会有不同的答案,我们大家都知道,比如说很简单的。我们经常说的,你知道现在几点了,有各种各样的表达方法,你知道现在几点了,是说你在催别人,还是已经太晚了,已经来不及了,还是说you know what time is你知道现在几点了,从原意来说是一个。Yes and no的答案,比如说,我问说你知道现在几点了吗?他说是我知道是这样的,但是大部分都是直接就跳到了这个时间上面,所以他在这个语义方面有各种各样的表达,大家可以有空看一下它通过data label的办法,判断出这个人是有没有心理方面需要有帮助的地方。
通过transform transformer还是一个会持续?持续在整个AI系统里面发挥的一个作用。大概有各种各use cases在各种各样应用场景,关于大模型的应用场景。
在心理学方面,第一个是这个public information,好像是google还是哪里的一个paper写的就是大家可以有空的话可以google一下,主要是measurement,就是我们希望通过大模型的方法得出一个high inference,就是一个很高推理的score,通过我们刚才讲的有各种各样的。这个数据可以供参考的。目前为止,这个facial方面的就是通过脸部的,大概也就是目前看也就是60%的准确率大概是这样的,你有不同的数据得出不同的答案,有人说90%几,但是他们的数据是不一样的,在这种情况下,你很难做出一个精准的判断。
这个过程中间,做大模型的时候你还牵扯到是不是有这个synthetic data,是不是有合成的数据在里面,刚开始的时候,所以就这个引申到下一个第二部分就是experimentation,所以还是有很多,很多实践的工作在做,包括跟social media有关系的,大家都在微信上面,大家都在facebook instagram美国用instagram在这个过程中间,你肯定通过不同的表达方法。一个人有心在心理方面需要得到帮助,比如说他在social media上面突然写了一个很悲观的话他,说oh i'm so worried I you know。我特别担心,我可能担心这个大学考不好或者怎么样这种类似的事情,所以在这种情况下,就是我们谈到的experimentation作为第二个。
第三个就是把第一个和第二个结合起来,根据个性化的东西做出一些处理。每个人的生活习惯不一样,所以在这个过程中间不可能说,我承受的压力要比你大,所以你每天要这样做,那肯定不是这样,有人在某一方面就承受压力的这个,比如说在工作方面,他承受压力能力比较小,但是有的人承受工作压力的能力非常强,但是这个承受比如说感情方面,那就没有那么强,或者在健康方面,所以这是个综合的体系,为什么医疗这么难,就是每个人的东西,每个人的生活习惯,心理教育,收入都是不一样的,所以最后会有一个不同的结果。
最难的是第四个就是practice尤其是在临床方面,去把我们今天fine-tuned LLM,我们即使有可以很多次,根据我们的结果。通过一个大规模的办法去解决更多的人群,这个东西第一个需要大规模的算力,第二个需要足够个性化的数据去解决这个事情,每个人都是不一样的,在这个基础上,我们怎么可以把今天这个东西跟你在LMM上购买这个习惯是两码事情,因为你购买的习惯大部分人是差不多的,但是一具体到心理健康,生理健康,各种各社会因素的时候,是远远要比我们想象的复杂。
最后一点我就强调一下,今天用在psychology上面的一些工具,就是大家可以希望看一下有python的有R package python的这个现在有很多人在用,有langchain,也有很多人在用这个langchain基本上就等于像中间商一样,它可以在大模型里面找到一个最好的答案,our package就是剩下的列表里面的。另外一个在Chat GPT上面,大家做了很多早期的youtube一样,你可以把这个youtube想象一个平台,也可以把Chat GPT想象一个平台,这个上面会有很多各种衍生的东西,你想象不到的东西,最新的几个初创的公司有做把医生和病人谈话,直接变成电子病历的,直接就输进去了,这是其中一个有判断你的焦虑程度的有各种各样,根据你的焦虑程度提供。你各种各样不同产品的都有,所以大家可以通过从technology角度讲。
最后总结一点,我觉得这就是large language model已经有很多应用了,在这个过程中间。尤其在医学和心理学上面,我觉得探索的成分超过于实用的成分,大概500到1000个large language model大模型大概有一个或者两个可以用到就不错了,所以就是目前为止还是处在比较前期的探索阶段,所以会有很多机会。