前端大模型入门（一）：用 js+langchain 构建基于 LLM 的应用

科技 2024-11-15 17:00 浙江

阿里妹导读

本文将介绍LLM的HTTP API流式调用的机制，并深入探讨前端如何处理流式响应，以实现实时的、渐进式的结果呈现。

作者｜想飞的雪糕

利用大模型开发应用时，我们有时候要第一时间给出用户响应，也就是使用流式调用的方式。这时候前端处理响应，就需要特殊的处理：利用处理可读流的方式从响应中读取数据。

随着大语言模型（LLM）在各种应用中的广泛使用，如何高效地从服务器获取模型生成的长文本响应成为一个重要问题。传统的HTTP请求模式通常等待服务器生成完整的响应内容再返回给客户端。然而，流式调用（streaming）通过分段传输部分响应，能提高实时性和用户体验。在此场景中，HTTP流式调用被广泛应用，尤其是在与LLM（如通义千问等）进行交互时。

本文将介绍LLM的HTTP API流式调用的机制，并深入探讨前端如何处理流式响应，以实现实时的、渐进式的结果呈现。

一、什么是HTTP API流式调用？

HTTP API流式调用（HTTP Streaming）是一种传输方式，服务器不会等待所有的数据生成完毕再返回给客户端，而是将响应数据逐步分段发送。当大语言模型生成内容时，服务器可以通过流式传输，将文本按块传递给前端，前端可以立即呈现这些部分内容，无需等待完整响应。

流式响应的基本流程：

客户端请求：前端通过HTTP请求向服务器发出调用，通常是POST请求，附带需要生成内容的提示（prompt），以及相关的参数。
服务器处理并分段响应：服务器开始处理请求，但不等待处理结束，先将部分生成的文本作为响应的一个数据块（chunk）发送给客户端。
客户端逐步接收并处理数据块：客户端持续监听流式响应，接收每个数据块并实时处理或呈现。
连接关闭：服务器在生成完毕后关闭连接，客户端停止接收数据。

这种方式特别适合用于大语言模型的文本生成任务，因为大规模模型生成的内容可能会很长，逐步输出可以改善用户的等待体验。

二、如何实现LLM的HTTP API流式调用？

以一个调用LLM的流式HTTP API为例，下面是一个使用fetch来发起流式调用的典型前端实现流程。国内的各个大模型，调用方式差不多，参数也类似，甚至还会有openai兼容的openapi接口。


const fetchStreamData = async (prompt) => {     const response = await fetch('https://api.openai.com/v1/completions', {       method: 'POST',    headers: {         'Content-Type': 'application/json',      'Authorization': `Bearer YOUR_API_KEY`    },    body: JSON.stringify({         model: 'gpt-4',      prompt: prompt,      stream: true // 启用流式响应    })  });
  // 检查响应状态  if (!response.ok) {       throw new Error('Network response was not ok');  }
  // 获取响应的可读流并处理流数据  const reader = response.body.getReader();  const decoder = new TextDecoder('utf-8');  let done = false;
  while (!done) {       // 读取流中的下一个数据块    const {    value, done: readerDone } = await reader.read();    done = readerDone;
    // 将数据块解码为字符串    const chunk = decoder.decode(value, {    stream: true });    console.log(chunk);  // 处理或显示每一块数据    // ***** 这需要注意，各个大模型的分块数据结构可能不一样，甚至会有可能出现部分数据的情况，要单独兼容和处理哦    // 以及有些模型内容的路径不一样，一次性响应在content，但是流式在delta字段下  }};

1. 请求设置：

fetch函数用于发起POST请求，stream: true选项通知服务器启用流式传输。
请求体中包含模型ID和提示词prompt，以及其他必要参数（如API密钥）。

2. 读取流数据：

使用response.body.getReader()获取一个流的阅读器（Reader），该阅读器允许我们按数据块逐步读取响应。
TextDecoder将字节数据解码为文本格式，确保能够正确处理流传输中的文本数据。

3. 逐块处理数据：

通过reader.read()逐步读取每个数据块，value包含读取到的字节数据，done表示流是否已结束。
chunk是解码后的文本数据，每次接收到新的数据块时可以实时处理或显示。

三、前端如何处理流式响应？

当后端返回流式响应时，前端可以逐步接收并更新UI，提供更好的用户交互体验。以下是前端处理流式响应的关键步骤。

1. 逐步更新界面

每当接收到一个新的数据块，前端可以立即将其更新到UI上，而不必等待完整的响应。这种实时更新的机制对于聊天机器人、搜索建议等场景尤为重要。例如：


const chatBox = document.getElementById('chat-box');
const updateChat = (text) => {     // 将新数据块追加到界面上  chatBox.innerHTML += `<p>${     text}</p>`;};
// 在逐块接收时更新while (!done) {     const {    value, done: readerDone } = await reader.read();  const chunk = decoder.decode(value, {    stream: true });  updateChat(chunk);  // 实时更新聊天框}

通过这种方式，用户能够看到模型生成内容的部分结果，即使整个请求尚未完成，提升了用户体验。

2. 处理中断或错误

在流式调用中，网络连接可能会中断，或者服务器可能会返回错误。前端应该做好错误处理，例如：


if (!response.ok) {     console.error('Error with the request');  return;}
reader.read().then(processStream).catch(error => {     console.error('Error while reading stream:', error);});

在中断时，前端可以选择显示错误消息，或尝试重新发起请求以重新建立连接。

3. 流数据的拼接与处理

由于流传输的数据是分块发送的，前端可能需要将这些分段数据拼接起来，形成完整的响应。例如：


let fullResponse = '';
while (!done) {     const {    value, done: readerDone } = await reader.read();  const chunk = decoder.decode(value, {    stream: true });  fullResponse += chunk;  // 拼接完整响应}

4. 自动滚动和用户交互优化

对于聊天机器人或类似应用，前端可以设置自动滚动，使得用户在流式数据逐步加载时能够始终看到最新的内容。


const scrollToBottom = () => {     chatBox.scrollTop = chatBox.scrollHeight;};
updateChat(chunk);scrollToBottom();  // 更新后自动滚动

四、流式调用的优势

提升用户体验：通过流式传输，用户能够实时看到部分生成的内容，而不需要等待整个模型生成完毕，从而减少了感知延迟。
减少服务器压力：在某些场景下，流式调用可以减少服务器压力，因为服务器可以按需逐步处理和发送数据，而不需要一次性生成和发送大量数据。
增强交互性：用户能够根据逐步收到的内容进行进一步操作，如在对话中实时反馈等。

五、总结

HTTP API流式调用为大语言模型的响应提供了更高效和实时的交互方式。通过流式调用，前端可以逐步接收模型生成的部分数据，并即时呈现，从而提升用户体验。前端在实现流式调用时，需要处理数据分块的拼接、实时更新界面和处理可能的中断错误。通过这种方式，可以在交互密集的应用场景（如聊天机器人、自动化助手等）中大幅改善用户的使用体验。

http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247542296&idx=1&sn=0564a4ec466fc194d7e91f7e3cb3465c

阿里云开发者

阿里巴巴官方技术号，关于阿里的技术创新均呈现于此。

最新文章

阿里重磅开源 Fluss: Flink Unified Streaming Storage

我的程序突然罢工了｜深入探究HSF调用异常，从死锁到活锁的全面分析与解决

通过文本生成个性化语音会定制在你的“心趴”上吗？

前端大模型入门（三）：编码(Tokenizer)和嵌入(Embedding)解析

写了BUG还想跑?---闲鱼异常日志问题自动追踪-定位-分发机制

官宣开源｜阿里云与清华大学共建AI大模型推理项目Mooncake

一文了解应用网关的演进历程和分类

性能提升利器｜PolarDB- X 超详细列存查询技术解读

AI编码，十倍提速，通义灵码引领研发新范式

就3步，用通义灵码写一个数字华容道小游戏

作为开发者，我如何提高任务型大模型应用的响应性能

DAS自治服务：轻松实现数据库SQL优化

10 倍性能提升， GraalVM 应用可观测实践

分布式读写锁的奥义：上古世代 ZooKeeper 的进击

喜报｜浙江省科技进步奖一等奖！阿里云云原生技术实现新突破

使用YOLOv8完成对图像的目标检测任务（从数据准备到训练测试部署的完整流程）

【由浅到深】从神经网络原理、Transformer模型演进、到代码工程实现

一文彻底搞定Redis与MySQL的数据同步

阿里CEO吴泳铭-2024互联网大会发言：AI的最大价值是推动生产力变革

为什么大模型连"Strawberry"的"r"都数不对？

突破T-SQL限制：利用CLR集成扩展RDS SQL Server的功能边界

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理

构建理想容器镜像——以CSI为例

开源新发布｜PolarDB-X v2.4.1 重点增强企业级运维能力

为Go应用无侵入地添加任意代码

前端大模型入门（二）：掌握Langchain的核心Runnable接口

“无”中生有：基于知识增强的RAG优化实践

如何为应用提速？高性能数据库Tair构建缓存

前端大模型入门（一）：用 js+langchain 构建基于 LLM 的应用

什么才是架构师的真内核？

探索JavaScript原型链：深入理解与实战应用

万字干货｜复杂表格多Agent方案：从LLM洞察、系统性思考到实践经验总结

GraphRAG：基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践

【提效】docker镜像构建优化-提速10倍

AI经营｜多Agent择优生成商品标题

通义千问Qwen2.5-Coder 全系列来咯！强大、多样、实用！

如何才能在Java中优雅的操纵时间？

一文详谈领域驱动设计实践

白话文讲解大模型｜ Attention is all you need

你的object可能没别人的快/小

基于开源框架Spring AI Alibaba快速构建Java应用

Apache Flink 的过去、现在及未来

再也不用心惊胆战地使用FastJSON了——序列化篇

终于不用为写文档摘要发愁了！AI总结助手帮你实现

告别头文件，编译效率提升 42%！C++ Modules 实战解析 | 干货推荐

多模态大模型微调实践！PAI+LLaMA Factory搭建AI导游

探索LLM推理全阶段的JSON格式输出限制方法

10分钟构建能主动提问的智能导购助手

“四两拨千斤” —— 1.2MB 数据如何吃掉 10GB 内存

关于单次亿级图片素材调度、处理及使用的工程实践总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉