去年大模型火热之后,总想拿着大模型去应用,就像手中有一个好用的锤子了,遇到啥事就像锤两下,可惜因为大模型自身的问题,给这把锤子配上一个好钉子,还是很难的。
大模型初见是很惊艳的,特别是OpenAI采用了聊天这种人人可以感受到的模式,更加让人能直观感受到AI的魅力。不过大模型在23年有一个比较大的问题就是成本太高了:首先是GPU本身成本高,又加上禁运,很难拿到手;再就是有了GPU,部署开源模型的成本高,没有成熟的模式可以让大家尽快使用到;再就是开源模型本身的质量问题,远远达不到Chatgpt的水平,更别提能工业应用了;最后即使有闭源的开源模型,因为数据安全问题,大家又不可能拿来用。基于以上原因,对于大模型的使用是有心而无力。
今年大模型的应用成本有了大大的降低,本身的应用门槛相比于去年少了太多,开源模型的质量也追上来了,至少到了可以应用的水平,于是就差一个钉子,让大模型这把锤子锤一锤。这应该也是很多做大模型的团队遇到的问题,如何给大模型找到合适的商业模式去产生价值,而不是仅仅局限于聊天。
不过在应用的时候,大模型本身的幻觉问题也是一大难点,因为应用到生产问题,准确性是最低要求了,聊天的时候,人们可以允许犯错,但是涉及到平时生活中大部分场景,人们很难接受犯错,特别是涉及到钱啊,安全等问题。它的应用更多的是被局限在“创意大于确定性的场景”,毕竟它更多的是一个基于文字模态的通用 AI 模型。考虑到这一点,大模型依然可以去解决之前NLP领域的问题,比如分词、实体识别、文本分类、相似度判别、机器翻译、文摘系统、事件抽取等等。
从这个角度来讲,大模型的应用方向就找到了,像之前要完成一个文本分类的工作,得去定制模型和数据集,去找大量的人去标注,然后如果换了一个方向,就需要重新定制模型和数据集,重新标注,有点像手工业作坊?而大模型则代表着NLP领域进入到工业时代,一个模型解决所有问题,可以直接拿着大模型去完成文本分类的工作。
在进行文本分类的时候,相比与之前NLP的时候,需要把大量的时间花在标注数据上,现在则需要想好合适的提示词(Prompt),让大模型回答出满意的结果。至于微调和RAG呢,我个人觉得难度还是偏大了,微调有可能造成大模型质量下滑,还不如微调之前的模型,RAG则是回到了老路上,需要大量的人工去搜集和整理私有的知识库,虽然效果好。
可能在未来,一个比较好的模式是一个优秀的通用的大模型+合适的提示词以及对大模型输出结果的数据工程,这也是我目前在尝试的方向。接下来的文章,可能会聊聊尝试的过程和结果。