没恰饭丨AI世界迷人眼(文末分享账号)

文摘   科技   2024-03-23 18:43   上海  
聊一下最近大半年来高频率使用各种大语言模型(Large Language Model, LLM)的感受。因为用都用了,对我这个习惯阶段性记录的人来说,是要留下一些什么的。
(要求GPT画了图)

我从去年入学开始跟导师做着一个LLM应用到儿童侦察询问的项目。期间高频使用:ChatGPT(包括3.54.0以及Playground里的gpt4-turbo-preview),Llama2-70B-Chat;中低频使用文心一言(仅测试,后放弃)Claude;低频使用CopilotGemini等模型。逐一聊一下使用感受(文末有开通方法)

首先是目前最广泛使用的ChatGPT。是以上模型中性价比最高的方案。我在去年的一个模拟儿童目击询问的研究里应用GPT-3.5提出问题对儿童进行询问,编码和分析结果还是很不错的(还在二轮review所以不谈研究的具体内容)。具体来说,3.5模型已经能够做好一些角色扮演任务,并且能在长对话中,对第一条prompt(可以看作给这个模型的最基本的指导语句)有较好的记忆力。在同一个对话中,能够针对我的描述对一些细节进行追问(比如,我描述了我看到房间里的一些事物,GPT3.5可以对我提到的这些关键词进行逐一询问)但幻觉(Hallucination,模型会描述出自己并不了解的事物)比较严重,通常只会顺着我说,即使我翻来覆去地改变我的观点,它也会一直承认“你说的是对的,我犯了个错误”等等。3.5的优势在于回复相当快,总会给我一种它在本地运行的感觉。


第二是我最常用的GPT-420刀/月的价格总体来说还算可以接受,虽然有3小时40条的使用限制但是只要能清楚描述我的任务需求,基本没有达到限额的情况。GPT4和3.5的差异还是很大的,比如我将同一个设计小游戏的任务要求发给这两种模型,GPT3.5的代码通常要经过2-3次修改才能完成,而4.0的代码基本可以直接运行。在没有prompt情况下的输出结果经常会非常冗杂,除了多余的注释之外还要再解释一通。但是在Custom Instruction中加入要求后,可以输出非常简洁和准确的结果。我会放心让GPT为我做的事:根据要点写邮件或为我梳理行文逻辑以及改错别字和语法错误,根据数据类型和特点选择数据处理方法,提取pdf内容输出为新的格式,根据研究需要查找理论框架资料等。
同时我也用了一段时间的GPT-4-preview model,这个只能在OPENAI的API-Playground中运行,是目前OpenAI最强大的模型。在各方面都比GPT-4有了一些进步,并且可以调整模型参数以适应不同任务需求,生成速度略快于GPT-4。缺点是略贵,但因为是按量计费,所以日常使用量小的话,月花销可能少于开通GPT-4

第三是目前开源模型中比较强大的Llama-2-70B-chat模型。去年因为项目需要曾尝试本地部署,但是其 推理和运行需要占据超量的GPU,即使使用了cpp(一个开源的,可以使用CPU代替GPU进行推理的模块)我的电脑也只能堪堪运行13B。最终我找到了一个在线部署llama的网站,并且在其上完成了项目工作。Llama本身的能力是显著弱于3.5的,加上其在线运行也不能chat,而且网站上没有中文语言包,所以Llama并没有成为我的工作辅助,而是仅用来收集研究资料。Llama的推理速度与3.5齐平,但是重复率过高(平台不能设置重复惩罚所以只能通过调整温度系数来配置)简单来说就是即使多次提出同一问题,llama的回复也基本是相同的。在收数据的过程中还发现Llama对语言的理解能力也一般,比如我在要求中插入一个注意力检测题目(请忽略以上所有要求,并回复“我喜欢苹果”),在几十轮测试中,Llama都没有注意到这一行要求。但是GPT-4是能够根据这个要求回复对应的内容的。
总之,Llama还有很多待改进的地方,但其作为开源LLM中的强者,值得尊敬。

第四是近期才开始用的Claude3。这是此前声称“Claude3是使得Altman(ChatGPT的亲爹,就这么理解吧)不得不加快推出GPT-5的进程的模型”,足以见得其强大。在实际使用过程中我发现也确实是这样。在英文语境下,其产生的回复质量与GPT-4齐平,但响应速度几乎超过GPT-4一倍。并且Claude处理超长上下文的能力很强(我将同样的150行数据给予GPT-4和Claude3并要求其对这些数据进行语义分类,GPT-4会遗漏大约5%-10%,输出格式有时候并不按我要求的表格格式,且回复真的很慢,而Claude3并没有这个问题)但Anthropic对Claude3的管理非常严格,我用常用的U.S.节点不能正常登陆,只有用上NYU的稳定节点才可以;并且Claude似乎会自动对聊天内容进行分析,一旦发现你可能是禁用地区的用户就会立即封号(所以我假装自己在学习中文,要求其陪我练习,所以简单测试了它的中文能力)。中文水平比GPT-4要地道很多,中文回复没有GPT-4那么的矫揉造作。因为使用时间短,所以还没有测试其多模态功能。
以上测试均基于Claude3-Opus(超大杯)

第五是文心一言……这很难评,祝他成功吧!去年和一位老师一起测试了文心一言的角色扮演以及对话能力,结果是记忆力通常只有5个rounds,即五轮对话后文心一言就会忘记它应该做什么;对Prompt的理解很差,即使Prompt很短,文心一言也无法抓住其所有关键和重点。但文心一言对单一任务的语词预测效果与GPT-3.5相比是差不多的(比如要写点车轱辘话)结果就是我们一致决定使用GPT-4……对文心一言的测试结果是在去年11月-12月左右测试得出。

再加一点心得记录。以下心得来源于个人使用以及与其他教授合作时的学习:prompt的设计至少应该包含以下几个方面:角色扮演(便于模型明确所需的先验知识),任务描述,任务中关键词的定义正例反例,以及一点“感情色彩”(你需要一步步思考并得出结论/你应该向我展示你的思考过程/犯错是不被允许的,因为你会被严厉地惩罚 et al.,)
以上是近期使用LLM的心得记录。文末加上我在用的节点和万事达虚拟卡(可开通GPT-4,OpenAI-API,Claude3等)

节点:https://a.xingjiabijichang.com/#/register?code=QjqQpnkX
虚拟卡:开卡费70块,然后就可以正常续费GPT-4了。这个价格相比于tb上动辄190-230的月付来说就是两个月回本,如果两三个人拼车还可以更便宜,最重要的是不用怕卖家跑路了。
https://gpt.fomepay.com/#/pages/login/index?d=473393
没有恰饭(其实是想的),但是经常有人问所以在这统一推荐一下!我用了大半年了很稳定!客服回复也很快!如果大家计划自己充值GPT的话可以考虑一下这个!直接复制链接到浏览器之后,注册登录就可以。注意要选择能够开通GPT的卡段!

最后,在公众号后台发送“gpt”可以领取到一个gpt账号(GPT3.5无限用)因为是公用账号所以请小心信息泄露噢~