字节豆包如何连接AI终端

财富 2024-12-20 20:46 广东

股票投资，

及时获取一线资讯对您来说至关重要。

加入星球，您能够第一时间获取

最新的市场动态、政策解读、机构调研纪要，

这些宝贵的资讯将帮助您做出更明智的投资决策。

星球已收录10W+机构投研资料。

要点

1、豆包的API相关内容

豆包pro 4K：响应速度快，但上下文本检索能力较弱，回答简短，效果相对较差，参数少，价格最便宜。输入价格为每1000个token 0.0003，输出价格为每1000个token 0.0006。

豆包pro 32K：性价比最高，性能满足需求且价格适中。输入价格为每1000个token 0.0008，输出价格为每1000个token 0.002。

角色模型：如做角色扮演的character模型，以及text only、当前功能等小模型，价格与text only的模型一致，输入价格为每1000个token 0.0008，输出价格为每1000个token 0.002。

带有识图能力的模型：以32K为例，输出价格增长，如带有微信版本的pro 32K，输出价格从0.002增长到0.009，图片输入价格为每1000个token 0.003。

最高端的256K模型：结合上文最长，效果最好，纯文字输出价格为每1000个token 0.009，输入价格为每1000个token 0.0005。

token计算及概念：token是计算价格的单位，通过一个token计算器，一段132字的话算下来是26个token，转化比例大概是60%多，即150字左右可转换成100个token。正常人说话速度在80到160字之间，150字左右相当于100个token，十分钟即为1000个token。以性价比最高的pro 32K模型为例，说十分钟输出收费2厘钱，100分钟2分钱。

实际效果对比：选取了light 4K、pro 32K、pro 128K三个模型进行对比。light 4K响应速度快，但内容像目录，不符合小说文体；pro 32K每一章有一定故事，但作为章节内容不够；pro 128K效果较好，直接写完整个故事。在分析等方面，128K耗时虽长，但token数总量反而少一些，且在创作或回答逻辑问题时，差距较为明显。对于长文本处理，4K模型可能超出上下文限制，需清除后重新申请。

2、扣子（cos）的API相关内容

设置智能体：可以设置角色，如西游记的孙悟空，AI会按照角色给出回答。还可以创建新的人物性格，如模仿诗人李白，可自动优化并产生对应技能。此外，还有像商店一样的别人帮编好的功能，如写作、抽卡器、灵魂对话器等，目前这些功能不收费。

扣子的收费标准：按调用次数和模型的token消耗收费。调用一次扣子为0.002元，还可配备知识库，按时间收费，每GB1个月1元。使用模型的费用方面，如视觉理解模型，输入价格为每1000个token 0.003，输出价格为每1000个token 0.009；通用模型32k pro，输入价格为每1000个token 0.0008，输出价格为每1000个token 0.002；light版本效果稍差，价格相对较低。角色扮演跟工具调用与pro价格相同。

扣子的调用方式：在电脑上用程序调用，需添加必要的库和token，输入问题后API会给出返回内容。如设置为孙悟空后，问“你是谁”，会得到“俺老孙挺好”的回答。创建智能体并优化后，可设置人物逻辑。

3、硬件拆解及与API的连接

核心构造：最核心的是一块ESP32的板子，板子背后的芯片包含wifi、蓝牙及处理功能。板子上有喇叭、咪头、麦克风、电池等，还有可接入各种功能接口的白色部分，通过电机可实现玩具的扭动效果。

组成部分：接有摄像头，通过视频线连接到主板，主板可拍摄画面、录制或发送图片给AI，同时有麦克风用于收音。眼镜中有一个SOC的骁龙AR一芯片，配备32G存储空间和2G运行内存，还有单独的wifi模块、音频处理芯片和防电涌安全芯片。

电池情况：眼镜中的电池受体积限制，而玩具中的电池可做大，但该玩具未使用大电池，可能考虑安全性或成本问题。

硬件与API的连接：

AI眼镜的连接方式：通过在手机上写一个APP，眼镜与手机蓝牙配对，将数据交给APP，APP再联系服务器。

ESP32板子的连接方式：用老式USB线将板子接到电脑USB接口，电脑接口会多出一个com 14接口。打开阿迪亚诺的IDE软件，选中ESP32板子类型，该软件使用C++编程语言。连接过程中需先安装必要的库，定义变量，告诉板子请求的网址和内容。语音需先转成文字再输给大模型，大模型处理后再语音合成并播放。板子处理能力有限，简单的唤醒词可本地离线处理，与大语言模型对话需交给云端处理。设置好API和程序后，将程序烧录进电路板，使其成为驱动，再放回硬件中。

硬件的可扩展性：ESP32板子可扩展性强，如加显示器、红外发射器、湿度检测器、声音检测等，可控制智能家居、读取环境数据、外接操纵机械设备等。还可接彩色屏幕、机器人、摄像头等。

Q&A

Q：微信light和pro版本有什么区别？

A：微信有light和pro两个版本，同样是pro 32K时，前后文本长度参量相关数据有所不同，输出从0.002增长大概四倍多，若带有识图能力会涨到0.009接近一分钱，图片输入时是0.003。token数计算方面，高质量图片会压缩到最多1312个token（图片分辨率除以784，若结果大于1312则继续压缩到1312再上传处理，若小于则按较小值计算），低质量图片最高256个token（算法同样是除以784）。价格上，如1080P图传上去是1000个token，处理一张是三厘钱，十张三分钱；256K的纯文字输出是0.009，比32K的贵三倍，输入差别不大。

Q：不同模型在创作科幻小说时效果如何？

A：选取了light 4K、pro 32K、pro 128三个模型进行对比，4K的速度快，12秒写完但内容更像目录；32K每章有一点故事但作为章节内容不大够；128K能直接把整个故事写完。耗时方面，4K最快12秒，32K是25秒，128K耗时更长但token数总量反而少一些。在处理长文本（接近2000个token）时，4K会超出模型上下文限制，在创作或回答逻辑问题时不同模型差距比较明显。

Q：不同版本API在识别图片内容时效果如何？

A：以识别冰箱里有什么东西为例，light版本存在识别不准确的情况，如把没看到的认成有，还可能瞎编一些内容，且在分辨率过低时不会做上下层区分；另一个版本能分层介绍，但在分辨率低时也会出现识别不准确的情况，如把不同的都识别成红色西红柿。

Q：豆包的light和pro识图API之间有何区别？

A：调用数量上，light调用了五千多个，pro调用了6000个，但识别水平不一样；在电脑上调用程序相对容易，比如用python，调用豆包API时输入prompt，会调用选好的模型返回对应内容，实际程序调用机制比较复杂；且如果用于智能终端或玩具，其变化不够多样化。

Q：扣子是什么，有什么作用？

A：扣子可以用于创建智能体，能为AI设置角色，使其按照角色给出回答，例如可以将角色设置为西游记的孙悟空，它会按照该角色进行回答。

Q：扣子的收费标准是怎样的？

A：扣子收费根据调用次数和模型的token消耗来计算。调用一次扣子收费0.002元；若配置知识库，则按时间收费，每GB每月1元；不同模型收费不同，如视觉理解pro版输入1000个token是0.003元，输出是0.009元，通用模型32k pro输入1000个token是0.0008元，输出是0.002元；light版本效果稍差，角色扮演和工具调用与32K pro价格一样；此外还有其他家的模型可供选择。

Q：如何调用扣子？

A：在电脑上演示时，需要把相关库加进来，对应token请求，然后输入问题；在智能终端上不会用PC上的程序方式调用；若将角色设置为孙悟空，打招呼时它会以角色身份回应，有了cos加成后，字节提供的API回答不再单调。

Q：如何创建智能体？

A：可以创建智能体，如选test创建在个人空间，还可以自定义人物性格，比如让其模仿诗人李白，可让其自动优化，优化后会有对应的技能，直接替换即可设置好人物逻辑。

Q：除了自己创建外，还有哪些智能体相关功能？

A：还有像商店一样别人编好的功能，如写作、抽卡器、灵魂对话器等，调用起来比较方便，且目前这些功能都是不收费的。

Q：硬件方面与软件API有何关联，展示的玩具是怎样的？

A：软件API是根基，构成了相关内容，要将内容输出出去；展示的玩具是一个可以对话的玩具，按按键可以跟它说话，它会动并使用AI回答，拆解后其内部构造比较简单。

Q：在ESP32板子上开发程序时，具体的操作步骤是怎样的？

A：首先打开阿迪亚诺的IDE软件，选中板子类型（如ESP32），安装好板子相关程序后选中板子名字。它使用类似C++的编程语言，需先安装必要的库，定义变量，若联网要指定请求的网址等。假设API和程序设置好后，将板子插到电脑上上传，会将编写的内容编成电路板可识别的语言烧录进去，使其成为驱动，再放回到相应硬件中。

Q：在与AI终端连接实现语音交互时，语音处理的流程是怎样的？

A：需要先将语音通过语音转文字功能转成文字（如ChatGPT的whisper、微软及字节等都有相关API或语音大模型可实现），再将文字输给大模型，大模型返回结果后再通过语音合成将文字转成声音播放出来。

Q：能否在板子上直接加载识别声音的模块，而不将声音传到网上处理？

A：可以，但这种电路板处理能力有限，能识别的命令数量有限，大概可以识别几百个不同的命令，如开灯、关灯等控制指令。而与大语言模型对话时，语言可能性无限，这种情况必须交给云端处理。不过像“开始播放音乐”“嘿小爱”等简单唤醒词，在本地离线情况下可以处理。

Q：ESP32板子除了声音对话功能外，还有哪些可扩展性？

A：可以添加显示器（能显示基础RGB内容）、红外发射器（可发射红外信号控制智能家居）、湿度检测器、声音检测器等。可以读取气温、湿度、分贝等数据，还能外接操纵其他机械设备。此外还可以接相机进行读取，也可作为单纯语音助手，往AI方向发展除语音外主要应用是接摄像头等。

加微信领取星球优惠券

股市调研

投资必备利器，每日更新上市公司、产业专家调研纪要。

最新文章

微软800亿美元AI算力投资解读

小米线下渠道经理交流

大宗商品对话：原油走向何方?

数据中心配电系统及HVDC行业专家交流

固态电池设备专家交流

潮玩产品专家交流

AI全球投资机会解读

电子烟专家交流

TCE双抗行业专家

1月光伏基本面更新

黄金珠宝区域加盟商交流纪要

“送礼物”功能赋能微信小店，多角度解读微信电商产业链投资机会

特斯拉机器人专家交流纪要

算力调度专家交流纪要

造车新势力经销商交流纪要

国内科技大厂AI产品与算力布局

海上风电用海管理新政解读

重卡12月销量解读及25年行业展望

2025全球AI算力展望

布鲁可专家交流纪要

星球介绍

卡游专家交流纪要

12月百强房企销售数据解读

纪要星球优惠

国内工商业储能发展展望

低空经济2025年展望

股市调研星球介绍

DeepSeek表现对算力需求到底有无影响

微信小店专家交流纪要

AI产业政策解读与投资机会梳理

AI专家交流纪要

国产算力的 iPhone 时刻

白酒渠道专家交流纪要

英伟达GB300升级及国产AI算力最新机会

小米AI加速布局，如何看产业链机会？

智驾升级的节奏和产业链调研反馈

培育钻产业链专家交流纪要

国内外AI动态及观点汇报

日系IP经销商专家交流纪要

积木行业专家交流纪要

微信小店专家交流纪要

AI算力服务器电源专家交流纪要

国内外AI进展及AI端侧投资机会梳理

对话大咖：国内量子计算发展到哪儿了？

电商行业专家交流

豆包大模型解读及产业展望

微信小店送礼功能解读及发展展望

字节豆包如何连接AI终端

AI眼镜变化及SOC后续关注重点

种子专家交流纪要

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉