没恰饭丨AI世界迷人眼（文末分享账号）

文摘科技 2024-03-23 18:43 上海

聊一下最近大半年来高频率使用各种大语言模型（Large Language Model, LLM）的感受。因为用都用了，对我这个习惯阶段性记录的人来说，是要留下一些什么的。

（要求GPT画了图）

我从去年入学开始跟导师做着一个LLM应用到儿童侦察询问的项目。期间高频使用：ChatGPT（包括3.5，4.0以及Playground里的gpt4-turbo-preview）,Llama2-70B-Chat；中低频使用文心一言（仅测试，后放弃）Claude；低频使用Copilot，Gemini等模型。逐一聊一下使用感受（文末有开通方法）

首先是目前最广泛使用的ChatGPT。是以上模型中性价比最高的方案。我在去年的一个模拟儿童目击询问的研究里应用GPT-3.5提出问题对儿童进行询问，编码和分析结果还是很不错的（还在二轮review所以不谈研究的具体内容）。具体来说，3.5模型已经能够做好一些角色扮演任务，并且能在长对话中，对第一条prompt（可以看作给这个模型的最基本的指导语句）有较好的记忆力。在同一个对话中，能够针对我的描述对一些细节进行追问（比如，我描述了我看到房间里的一些事物，GPT3.5可以对我提到的这些关键词进行逐一询问）但幻觉（Hallucination，模型会描述出自己并不了解的事物）比较严重，通常只会顺着我说，即使我翻来覆去地改变我的观点，它也会一直承认“你说的是对的，我犯了个错误”等等。3.5的优势在于回复相当快，总会给我一种它在本地运行的感觉。

第二是我最常用的GPT-4。20刀/月的价格总体来说还算可以接受，虽然有3小时40条的使用限制但是只要能清楚描述我的任务需求，基本没有达到限额的情况。GPT4和3.5的差异还是很大的，比如我将同一个设计小游戏的任务要求发给这两种模型，GPT3.5的代码通常要经过2-3次修改才能完成，而4.0的代码基本可以直接运行。在没有prompt情况下的输出结果经常会非常冗杂，除了多余的注释之外还要再解释一通。但是在Custom Instruction中加入要求后，可以输出非常简洁和准确的结果。我会放心让GPT为我做的事：根据要点写邮件或为我梳理行文逻辑以及改错别字和语法错误，根据数据类型和特点选择数据处理方法，提取pdf内容输出为新的格式，根据研究需要查找理论框架资料等。

同时我也用了一段时间的GPT-4-preview model，这个只能在OPENAI的API-Playground中运行，是目前OpenAI最强大的模型。在各方面都比GPT-4有了一些进步，并且可以调整模型参数以适应不同任务需求，生成速度略快于GPT-4。缺点是略贵，但因为是按量计费，所以日常使用量小的话，月花销可能少于开通GPT-4。

第三是目前开源模型中比较强大的Llama-2-70B-chat模型。去年因为项目需要曾尝试本地部署，但是其推理和运行需要占据超量的GPU，即使使用了cpp（一个开源的，可以使用CPU代替GPU进行推理的模块）我的电脑也只能堪堪运行13B。最终我找到了一个在线部署llama的网站，并且在其上完成了项目工作。Llama本身的能力是显著弱于3.5的，加上其在线运行也不能chat，而且网站上没有中文语言包，所以Llama并没有成为我的工作辅助，而是仅用来收集研究资料。Llama的推理速度与3.5齐平，但是重复率过高（平台不能设置重复惩罚所以只能通过调整温度系数来配置）简单来说就是即使多次提出同一问题，llama的回复也基本是相同的。在收数据的过程中还发现Llama对语言的理解能力也一般，比如我在要求中插入一个注意力检测题目（请忽略以上所有要求，并回复“我喜欢苹果”），在几十轮测试中，Llama都没有注意到这一行要求。但是GPT-4是能够根据这个要求回复对应的内容的。

总之，Llama还有很多待改进的地方，但其作为开源LLM中的强者，值得尊敬。

第四是近期才开始用的Claude3。这是此前声称“Claude3是使得Altman（ChatGPT的亲爹，就这么理解吧）不得不加快推出GPT-5的进程的模型”，足以见得其强大。在实际使用过程中我发现也确实是这样。在英文语境下，其产生的回复质量与GPT-4齐平，但响应速度几乎超过GPT-4一倍。并且Claude处理超长上下文的能力很强（我将同样的150行数据给予GPT-4和Claude3并要求其对这些数据进行语义分类，GPT-4会遗漏大约5%-10%，输出格式有时候并不按我要求的表格格式，且回复真的很慢，而Claude3并没有这个问题）但Anthropic对Claude3的管理非常严格，我用常用的U.S.节点不能正常登陆，只有用上NYU的稳定节点才可以；并且Claude似乎会自动对聊天内容进行分析，一旦发现你可能是禁用地区的用户就会立即封号（所以我假装自己在学习中文，要求其陪我练习，所以简单测试了它的中文能力）。中文水平比GPT-4要地道很多，中文回复没有GPT-4那么的矫揉造作。因为使用时间短，所以还没有测试其多模态功能。

以上测试均基于Claude3-Opus（超大杯）

第五是文心一言……这很难评，祝他成功吧！去年和一位老师一起测试了文心一言的角色扮演以及对话能力，结果是记忆力通常只有5个rounds，即五轮对话后文心一言就会忘记它应该做什么；对Prompt的理解很差，即使Prompt很短，文心一言也无法抓住其所有关键和重点。但文心一言对单一任务的语词预测效果与GPT-3.5相比是差不多的（比如要写点车轱辘话）结果就是我们一致决定使用GPT-4……对文心一言的测试结果是在去年11月-12月左右测试得出。

再加一点心得记录。以下心得来源于个人使用以及与其他教授合作时的学习：prompt的设计至少应该包含以下几个方面：角色扮演（便于模型明确所需的先验知识），任务描述，任务中关键词的定义，正例与反例，以及一点“感情色彩”（你需要一步步思考并得出结论/你应该向我展示你的思考过程/犯错是不被允许的，因为你会被严厉地惩罚 et al.,）

以上是近期使用LLM的心得记录。文末加上我在用的节点和万事达虚拟卡（可开通GPT-4，OpenAI-API，Claude3等）

节点：https://a.xingjiabijichang.com/#/register?code=QjqQpnkX

虚拟卡：开卡费70块，然后就可以正常续费GPT-4了。这个价格相比于tb上动辄190-230的月付来说就是两个月回本，如果两三个人拼车还可以更便宜，最重要的是不用怕卖家跑路了。

https://gpt.fomepay.com/#/pages/login/index?d=473393

没有恰饭（其实是想的），但是经常有人问所以在这统一推荐一下！我用了大半年了很稳定！客服回复也很快！如果大家计划自己充值GPT的话可以考虑一下这个！直接复制链接到浏览器之后，注册登录就可以。注意要选择能够开通GPT的卡段！

最后，在公众号后台发送“gpt”可以领取到一个gpt账号（GPT3.5无限用）因为是公用账号所以请小心信息泄露噢~

http://mp.weixin.qq.com/s?__biz=MzI0ODc2OTQxNA==&mid=2247485816&idx=1&sn=4f216faf4c30acacedf5b929d0e4530a

海盗船长的航行日志

祝我有趣

最新文章

寻星记丨三年随记

寻星记丨好癫的情侣

恋爱三年，见过父母，感情稳定，但是打算相亲。

穿针引线绣素花，十指翻飞塑韧手

郑大学子豫见汴绣：十指春风豫见君，千年汴绣入梦来

寻星记丨我们会是很好的家人

寻星记丨我们的独一无二

海盗船长的航行日志丨3岁碎碎念

谁家的爹不拧巴？

寻星记丨新美甲欠我们一千万

寻星记丨“你知道吗，男朋友的眼泪是女生最好的玩物”

研修心法丨脆弱的记忆：你是如何被对方暗示和诱导的？

终于，我可以让GPT直接读文献了……！（ChatGPT接入Zotero指南）

寻星记丨异地巡礼：无锡扬州常州嘉兴站！

海盗船长的航行日志丨死城漫游指南

没恰饭丨AI世界迷人眼（文末分享账号）

寻星记丨甲辰正月 · 恋爱流水

寻星记丨新年新气象

寻星记丨日照金山

寻星记丨异地巡礼：郑州-新乡站

寻星记丨异地巡礼：南京站

海盗船长的航行日志丨惟有读书高

寻星记丨奋斗月③

寻星记丨奋斗月②

海盗船长的航行日志丨杂

寻星记丨奋斗月①

星里话丨不偏不倚，欣喜相遇

寻星记丨何以生活

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉