在百川2Turbo构建自己“会说话”的知识库

文摘科技 2023-12-22 22:15 陕西

上篇推文《大模型时代构建专业语料库助力历史学研究的新路径》介绍了历史学者基于大模型构建历史研究助理的工作，原文用了一个很有新意的题目“If the sources could talk"。相信很多人文学者看了之后会“心向往之”，但之前的确存在不低的应用门槛，比如GPTs很美，但离我们远了一些，搭建自己的大模型+知识库，硬件又是一个必须要面对的问题！

12月19日，百川大模型宣布开放Baichuan2-Turbo系列API，包含 Baichuan2-Turbo-192K 及 Baichuan2-Turbo。在支持 192K 超长上下文窗口的基础上，还增加了搜索增强知识库的能力。API用户可上传文本资料来创建自身专属知识库，从而根据自身业务需求打造更完整、高效的智能解决方案。支持 PDF、Word 等多种文本上传。

百川智能的王小川认为：大模型就像计算机的 CPU ，通过预训练将知识内化在模型内部，然后根据用户的 Prompt 生成结果，上下文窗口可以看做计算机的内存，存储了当下正在处理的文本，而互联网实时信息与企业完整知识库共同构成了大模型时代的硬盘。【深表赞同！】192K的“内存”听起来似乎不起眼（手机内存都8个G呢），但是换一个角度就好理解了，可以一次输入35万字给大模型处理，不少了吧！

以下是百川2 Turbo搜索知识库的示例：

How to:

到百川大模型（https://www.baichuan-ai.com）注册个账号，登陆之后点击“进入开发者中心”，在“体验中心”那里就可以跟模型对话了。要让大模型搜自己的文献，就需要建自己的知识库，在“开发者中心”点击“知识库”，就进入了构建知识库的界面，建好库上传pdf、word文件，相信一看就会。

上传的文件会经过处理，等它们的状态都变成“解析完成”的时候，我们回到“体验中心”那里就可以在右边的参数打开知识库，进行搜索了。注意：知识库搜索上面还有一个网页搜索，如果两个选项都打开时：仅有“知识库搜索”生效！

Last but not least

免费使用时间：知识库API在2023年12月19日至2024年1月18日之间免费公测，2024年1月19日0点正式开启收费，公测期间每账户限制100个文件及5G容量。

最后想说：王小川干的棒！

智能数字人文

人工智能与数字人文

最新文章

当JSTOR年度荐书遇上AI与数字人文

解密文本情感：数字人文研究的新利器

科研生态的繁荣与逃离：高学历时代的人才悖论

大模型来解读论文《西夏文字典<文海>的网络分析》

有个大模型认为2024年诺贝尔物理学奖是虚构的

用数据点亮人文：STEAM赋能的体验式学习之旅

当文学邂逅数学：从“远读”到“文学数学”

人文研究中的量化方法

玩转现实：游戏作为数字人文研究的透镜

当古典学教授遭遇“裁员潮”：我们该如何守护人文教育的价值？

智展精灵：一个基于智谱清言智能体的策展助手

历史+地理+数学，高考可否一用？

在百川2Turbo构建自己“会说话”的知识库

大模型时代构建专业语料库助力历史学研究的新路径

创新的时空分析：欧洲城市的自由、创新与繁荣

英国Mapping the Arts and Humanities项目探秘

数字人文的未来：GPT 4.0 Turbo、AI Pin的崭新应用前景

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉