上篇推文《大模型时代构建专业语料库助力历史学研究的新路径》介绍了历史学者基于大模型构建历史研究助理的工作,原文用了一个很有新意的题目“If the sources could talk"。相信很多人文学者看了之后会“心向往之”,但之前的确存在不低的应用门槛,比如GPTs很美,但离我们远了一些,搭建自己的大模型+知识库,硬件又是一个必须要面对的问题!
12月19日,百川大模型宣布开放Baichuan2-Turbo系列API,包含 Baichuan2-Turbo-192K 及 Baichuan2-Turbo。在支持 192K 超长上下文窗口的基础上,还增加了搜索增强知识库的能力。API用户可上传文本资料来创建自身专属知识库,从而根据自身业务需求打造更完整、高效的智能解决方案。支持 PDF、Word 等多种文本上传。
百川智能的王小川认为:大模型就像计算机的 CPU ,通过预训练将知识内化在模型内部,然后根据用户的 Prompt 生成结果,上下文窗口可以看做计算机的内存,存储了当下正在处理的文本,而互联网实时信息与企业完整知识库共同构成了大模型时代的硬盘。【深表赞同!】192K的“内存”听起来似乎不起眼(手机内存都8个G呢),但是换一个角度就好理解了,可以一次输入35万字给大模型处理,不少了吧!
以下是百川2 Turbo搜索知识库的示例:
How to:
到百川大模型(https://www.baichuan-ai.com)注册个账号,登陆之后点击“进入开发者中心”,在“体验中心”那里就可以跟模型对话了。要让大模型搜自己的文献,就需要建自己的知识库,在“开发者中心”点击“知识库”,就进入了构建知识库的界面,建好库上传pdf、word文件,相信一看就会。
上传的文件会经过处理,等它们的状态都变成“解析完成”的时候,我们回到“体验中心”那里就可以在右边的参数打开知识库,进行搜索了。注意:知识库搜索上面还有一个网页搜索,如果两个选项都打开时:仅有“知识库搜索”生效!
Last but not least
免费使用时间:知识库API在2023年12月19日至2024年1月18日之间免费公测,2024年1月19日0点正式开启收费,公测期间每账户限制100个文件及5G容量。
最后想说:王小川干的棒!