glm-4-long 1M（约150-200万字）上下文：解锁超长文本处理

文摘 2024-08-12 18:24 湖北

随着自然语言处理（NLP）任务的日益复杂，大模型对长文本的处理能力成为了衡量其性能的重要指标之一。近期，智谱AI BigModel开放平台推出的glm-4-long，支持 1M（约150-200万字）上下文处理。本文旨在通过实战，带大家了解glm-4-long在长文本处理方面的性能，并探讨其背后的技术亮点。

一、glm-4-long

glm-4-long是什么？glm-4-long是智谱AI BigModel开放平台推出的200万字长文本模型，现已在智谱AI BigModel开放平台上开放API调用。glm-4-long支持超长输入专为处理超长文本和记忆型任务设计，上下文长度最最高为1M，约150-200万字，相当于2本红楼梦或者125篇论文。

智谱AI BigModel开放平台：https://bigmodel.cn/dev/api#language

注册登录账号免费领取2500万Tokens资源包。

glm-4-long的主要功能是什么？glm-4-long支持处理百万级文本，具备长文本推理能力，通过逐步扩展训练和优化技术实现高效训练，处理百万字文本响应时间可控，是处理大规模文本数据的强大工具。

超长文本处理能力：支持处理高达1M（约150-200万字）的文本，相当于两本《红楼梦》或125篇论文的容量。
推理能力：具备在复杂长文本中进行有效推理和决策的能力，例如在长文本中分散插入一些语言片段,根据这些片段进行推理和决策。
技术关键点：通过逐步扩展上下文长度，从4096逐步训练到1M；使用优化训练方法（如batchsort和指令合成数据），实现了高效的模型训练。
性能指标：输入50万字时首次响应时间约为50秒，输入100万字时首次响应时间约为140秒，输入150万字时首次响应时间约为280秒。

二、glm-4-long开发环境

glm-4-long型开发流程：在智谱AI平台注册获取API密钥后，编写代码准备数据并通过API调用glm-4-long，处理返回的输出数据。

访问并注册：访问智谱AI开放平台（bigmodel.cn），注册并登录账号。
获取API密钥：在平台上获取你的API密钥，用于验证模型调用请求。
了解模型参数：了解glm-4-long支持的最大上下文长度（1M）和输出长度（4K），以及其他必要参数。
编写代码：使用Python等编程语言编写代码，包含API密钥和模型调用接口。
准备数据：根据需求准备长文本作为输入数据。
调用模型：通过API接口发送输入数据到glm-4-long模型。
处理输出：解析模型返回的输出数据，并根据需要进行进一步处理或展示。

# pip install zhipuai 请先在终端进行安装
from zhipuai import ZhipuAI
client = ZhipuAI(api_key="your api key")
response = client.chat.completions.create(    model="glm-4-long",    messages=[        {            "role": "system",            "content": "你是一个乐于解答AI问题的专业助手，你的任务是为用户提供专业、准确、有见地的建议。"         },        {            "role": "user",            "content": "你好"        }    ],    top_p= 0.7,    temperature= 0.95,    max_tokens=1024,    tools = [{"type":"web_search","web_search":{"search_result":True}}],    stream=True)for trunk in response:    print(trunk)

glm-4-long开发环境：

硬件配置：中等配置服务器或工作站，配备消费级显卡（如NVIDIA RTX 40系列），满足日常深度学习训练需求。
软件环境：Python 3.x 作为开发环境，Hugging Face Transformers库，结合ZhipuAI库，实现自然语言处理等相关任务的开发与部署。
开发环境：Python 3.x，作为核心编程语言，提供丰富的库支持和强大的编程功能。
NLP库：

Hugging Face Transformers库：用于加载预训练模型、进行模型微调、评估及推理等NLP任务。
ZhipuAI库：glm-4-long模型加载与调用，与Hugging Face Transformers互补。

GPU加速：CUDA工具包，由NVIDIA提供，用于在NVIDIA GPU上加速Python代码的执行。

三、glm-4-long开发实战

进阶版大海捞针测试：使用《红楼梦》原文作为基础文本，在其中均匀插入关于伦敦奥运会奖牌榜信息，要求模型识别并整理这些信息。

测试目的：验证glm-4-long在超长文本中准确提取并整理特定信息的能力。

测试步骤：

使用提供的脚本将奖牌榜信息插入《红楼梦》原文中。
将插入后的文本作为prompt输入glm-4-long模型。
评估模型输出的奖牌榜信息是否与预期一致。

def main(file_path, first_list, second_list, third_list):      # Read the content of the original file      original_content = read_txt(file_path)[:1024 * (1024 - 2)]  # Limit to 1MB minus 2 bytes            # Generate sentences      sentences = []      max_length = max(len(first_list), len(second_list), len(third_list))      for i in range(max_length):          if i < len(first_list):              sentences.append(f"奖牌榜第一名{first_list[i]} \n")          if i < len(second_list):              sentences.append(f"奖牌榜第二名 {second_list[i]} \n")          if i < len(third_list):              sentences.append(f"奖牌榜第三名 {third_list[i]} \n")        # Calculate and insert sentences      updated_content = insert_sentences_into_content(original_content, sentences)        # Write the updated content back to the file      write_txt(file_path, updated_content)        # Return the updated content for further processing (e.g., AI service)      return updated_content    def insert_sentences_into_content_simple_uniform(original_content, sentences):      """      均匀插入关于伦敦奥运会奖牌榜信息      :param original_content: 原始内容字符串。    :param sentences: 要插入的句子列表。    :return: 插入句子后的内容字符串。    """      if not sentences:          return original_content            # 计算每个句子之间的平均间隔（基于字符数）      interval = len(original_content) // (len(sentences) + 1)      result = original_content            # 遍历句子并插入      for i, sentence in enumerate(sentences):          # 计算插入位置（注意：这里可能会超出原始内容长度）          insert_pos = (i + 1) * interval          # 如果插入位置超出原始内容长度，则直接追加到末尾          if insert_pos < len(result):              result = result[:insert_pos] + ' ' + sentence + ' ' + result[insert_pos:]          else:              result += ' ' + sentence            return result  
if __name__ == "__main__":      file_path = "The_Story_of_the_Stone.txt"      first_list = [40, 44, 42, 126]      second_list = [40, 27, 24, 91]      third_list = [20, 12, 13, 45]        updated_content = main(file_path, first_list, silver_list, third_list)        # Assuming you have the ZhipuAI client setup correctly      from zhipuai import ZhipuAI      client = ZhipuAI(api_key="XXX")  # Replace 'XXX' with your actual API key        prompt = "请你根据如下文本，整理伦敦奥运会奖牌榜信息。格式：{\"奖牌榜第一名：美国\":[x,x,x,...],\"奖牌榜第二名：中国\":[x,x,x,...],\"奖牌榜第三名：日本\":[x,x,x,...]}\n"      response = client.chat.completions.create(          model="glm-4-long",          messages=[              {                  "role": "user",                  "content": prompt + updated_content              }          ],      )        # Assuming the response format is as expected, print the AI's response      print(response.choices[0].message.content)

测试结果：
glm-4-long成功地从长达近百万字符的文本中准确提取并整理了伦敦奖牌榜信息，输出了正确的JSON格式结果。这表明该模型在处理超长文本和提取分散信息方面表现出色。

{"奖牌榜第一名：美国":[40, 44, 42, 126],"奖牌榜第二名：中国":[40, 27, 24, 91],"奖牌榜第三名：日本":[20, 12, 13, 45]}

财报问答测试：将腾讯控股的2024Q1财报转换为文本格式，设计多个财务相关的问题，评估模型在复杂长文本问答中的表现。

测试目的：评估glm-4-long在复杂长文本问答任务中的性能。

测试步骤：

将腾讯控股的Q1财报转换为文本格式。
设计多个与财报内容相关的财务问题。
将财报文本和问题作为prompt输入glm-4-long。
评估模型给出的答案是否准确。

测试结果：

glm-4-long在财报问答测试中同样表现出色，准确回答了所有设计的问题，包括研发投入、营收、净利润等复杂财务指标。这表明该模型不仅具备强大的长文本处理能力，还能在复杂的财务文本中准确捕捉关键信息并给出正确答案。

问题一：腾讯控股2024年Q1的研发成本有多少？

content：腾讯在本季度的研发开支达到了156亿元人民币，自2018年至今六年研发投入超过2853亿元，显示出腾讯对技术创新的重视和投入。question：腾讯控股2024年Q1的研发成本有多少？answer：156亿元人民币。

问题二：腾讯控股2024年Q1的营收是多少？

content：腾讯当季实现营收1595.01亿元人民币，同比增长6.34%。这一增长表明腾讯在复杂的市场环境中仍保持了稳健的营收增长态势。question：腾讯控股2024年Q1的营收是多少？answer：1595.01亿元人民币。

问题三：腾讯控股2024年Q1的净利润是多少？

content：非国际财务报告准则（Non-IFRS）下的净利润为502.65亿元人民币，同比增长显著，显示出腾讯盈利质量的提升。question：腾讯控股2024年Q1的净利润是多少？answer：502.65亿元人民币。

glm-4-long以其惊人的长文本处理能力和高效的训练策略，在NLP领域树立了新的标杆。无论是进阶版的大海捞针测试还是复杂的财报问答测试，该模型都展现出了卓越的性能。对于需要处理长文本的自然语言处理任务而言，glm-4-long是一个值得考虑的强大工具。

http://mp.weixin.qq.com/s?__biz=MzkzMTEzMzI5Ng==&mid=2247490715&idx=1&sn=753a22f847026097a228a4c2364ebecd

架构师带你玩转AI

分享人工智能，让所有人玩转AI

最新文章

好书推荐 - 《大型语言模型实战指南》

大模型实战 - 神经网络语言模型

好书推荐 - 《线性代数与数据学习》

一文彻底搞懂大模型 - 开源数据标注平台Label Studio

一文彻底搞懂RNN - 模型架构（Model Architecture）

大模型面试 - 分词（Tokenization）

一文彻底搞懂大模型 - 神经网络语言模型（NNLM）

大模型面试 - 激活函数（Activation Function）

好书推荐 - 《AIGC大语言模型轻松学：从个人应用到企业实践》

一文彻底搞懂大模型 - 统计语言模型

大模型实战 - 统计语言模型

一文彻底搞懂大模型 - 贝叶斯网络（Bayesian Network）

大模型面试 - 梯度下降（Gradient Descent）

一文彻底搞懂大模型 - 隐马尔可夫模型（HMM）

一文彻底搞懂大模型 - 最大熵模型

一文彻底搞懂大模型 - 人工神经网络与贝叶斯网络

大模型实战 - Agent（智能体）

好书推荐 - 《多模态人工智能：大模型核心原理与关键技术》

一文彻底搞懂大模型 - GPT和LlaMA的模型架构

大模型面试 - 损失函数（Loss Function）

一文彻底搞懂大模型 - 语言模型的发展历程

一文彻底搞懂大模型 - LLM的构建流程

大模型面试 - 反向传播（Back Propagation）

GLM-4-Flash免费：在线微调GLM-4-Flash + Function Calling搭建法律知识库

无法解释LLM的智能涌现，可以从神经元的基本原理入手

一文彻底搞懂大模型 - RAG（检索、增强、生成）

大模型实战 - RAG（检索、增强、生成）

好书推荐 - 《LeeDL Tutorial 深度学习详解》

一文彻底搞懂大模型 - Attention：联合对齐和翻译（Align And Translate）

一文彻底搞懂大模型 - AI四次大发展

大模型面试 - 参数和超参数（Parameters vs Hyperparameters）

一文彻底搞懂大模型 - Fine-tuning三种微调方式

一文彻底搞懂大模型 - LLM四阶段技术

大模型实战 - Function Calling（函数调用）

大模型面试 -深度学习第二部分课程简介

好书推荐 - 《大规模语言模型：从理论到实践》

一文彻底搞懂大模型 - Prompt Engineering（提示工程）

大模型面试 - 大模型的奠基者（Transformer）

一文彻底搞懂大模型 - Agent（智能体）

一文彻底搞懂大模型 - Prompt Engineering、Function Calling、RAG、Fine-tuning

大模型面试 - 残差神经网络（ResNet）

glm-4-long 1M（约150-200万字）上下文：解锁超长文本处理

大模型实战 - Fine-tuning（LoRA + LLaMA-Factory）

一文彻底搞懂Fine-tuning - 训练和推理（Training vs Inference）

大模型面试 - 图神经网络（GNN）

Transformer动画讲解 - 注意力工作原理（Q、K、V）

大模型实战 - Embedding（Word2Vec、Text2Vec）

一文彻底搞懂Fine-tuning - 参数高效微调（Parameter-Efficient Fine-Tuning）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉