首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
字节豆包如何连接AI终端
财富
2024-12-20 20:46
广东
股票投资,
及时获取一线资讯对您来说至关重要。
加入星球,
您能够第一时间获取
最新的市场动态
、
政策解读
、机构调研纪要
,
这些宝贵的资讯将帮助您做出更明智的投资决策。
星球已收录10W+机构投研资料。
要点
1、豆包的API相关内容
豆包pro 4K:响应速度快,但上下文本检索能力较弱,回答简短,效果相对较差,参数少,价格最便宜。输入价格为每1000个token 0.0003,输出价格为每1000个token 0.0006。
豆包pro 32K:性价比最高,性能满足需求且价格适中。输入价格为每1000个token 0.0008,输出价格为每1000个token 0.002。
角色模型:如做角色扮演的character模型,以及text only、当前功能等小模型,价格与text only的模型一致,输入价格为每1000个token 0.0008,输出价格为每1000个token 0.002。
带有识图能力的模型:以32K为例,输出价格增长,如带有微信版本的pro 32K,输出价格从0.002增长到0.009,图片输入价格为每1000个token 0.003。
最高端的256K模型:结合上文最长,效果最好,纯文字输出价格为每1000个token 0.009,输入价格为每1000个token 0.0005。
token计算及概念:token是计算价格的单位,通过一个token计算器,一段132字的话算下来是26个token,转化比例大概是60%多,即150字左右可转换成100个token。正常人说话速度在80到160字之间,150字左右相当于100个token,十分钟即为1000个token。以性价比最高的pro 32K模型为例,说十分钟输出收费2厘钱,100分钟2分钱。
实际效果对比:选取了light 4K、pro 32K、pro 128K三个模型进行对比。light 4K响应速度快,但内容像目录,不符合小说文体;pro 32K每一章有一定故事,但作为章节内容不够;pro 128K效果较好,直接写完整个故事。在分析等方面,128K耗时虽长,但token数总量反而少一些,且在创作或回答逻辑问题时,差距较为明显。对于长文本处理,4K模型可能超出上下文限制,需清除后重新申请。
2、扣子(cos)的API相关内容
设置智能体:可以设置角色,如西游记的孙悟空,AI会按照角色给出回答。还可以创建新的人物性格,如模仿诗人李白,可自动优化并产生对应技能。此外,还有像商店一样的别人帮编好的功能,如写作、抽卡器、灵魂对话器等,目前这些功能不收费。
扣子的收费标准:按调用次数和模型的token消耗收费。调用一次扣子为0.002元,还可配备知识库,按时间收费,每GB1个月1元。使用模型的费用方面,如视觉理解模型,输入价格为每1000个token 0.003,输出价格为每1000个token 0.009;通用模型32k pro,输入价格为每1000个token 0.0008,输出价格为每1000个token 0.002;light版本效果稍差,价格相对较低。角色扮演跟工具调用与pro价格相同。
扣子的调用方式:在电脑上用程序调用,需添加必要的库和token,输入问题后API会给出返回内容。如设置为孙悟空后,问“你是谁”,会得到“俺老孙挺好”的回答。创建智能体并优化后,可设置人物逻辑。
3、硬件拆解及与API的连接
核心构造:最核心的是一块ESP32的板子,板子背后的芯片包含wifi、蓝牙及处理功能。板子上有喇叭、咪头、麦克风、电池等,还有可接入各种功能接口的白色部分,通过电机可实现玩具的扭动效果。
组成部分:接有摄像头,通过视频线连接到主板,主板可拍摄画面、录制或发送图片给AI,同时有麦克风用于收音。眼镜中有一个SOC的骁龙AR一芯片,配备32G存储空间和2G运行内存,还有单独的wifi模块、音频处理芯片和防电涌安全芯片。
电池情况:眼镜中的电池受体积限制,而玩具中的电池可做大,但该玩具未使用大电池,可能考虑安全性或成本问题。
硬件与API的连接:
AI眼镜的连接方式:通过在手机上写一个APP,眼镜与手机蓝牙配对,将数据交给APP,APP再联系服务器。
ESP32板子的连接方式:用老式USB线将板子接到电脑USB接口,电脑接口会多出一个com 14接口。打开阿迪亚诺的IDE软件,选中ESP32板子类型,该软件使用C++编程语言。连接过程中需先安装必要的库,定义变量,告诉板子请求的网址和内容。语音需先转成文字再输给大模型,大模型处理后再语音合成并播放。板子处理能力有限,简单的唤醒词可本地离线处理,与大语言模型对话需交给云端处理。设置好API和程序后,将程序烧录进电路板,使其成为驱动,再放回硬件中。
硬件的可扩展性:ESP32板子可扩展性强,如加显示器、红外发射器、湿度检测器、声音检测等,可控制智能家居、读取环境数据、外接操纵机械设备等。还可接彩色屏幕、机器人、摄像头等。
Q&A
Q:微信light和pro版本有什么区别?
A:微信有light和pro两个版本,同样是pro 32K时,前后文本长度参量相关数据有所不同,输出从0.002增长大概四倍多,若带有识图能力会涨到0.009接近一分钱,图片输入时是0.003。token数计算方面,高质量图片会压缩到最多1312个token(图片分辨率除以784,若结果大于1312则继续压缩到1312再上传处理,若小于则按较小值计算),低质量图片最高256个token(算法同样是除以784)。价格上,如1080P图传上去是1000个token,处理一张是三厘钱,十张三分钱;256K的纯文字输出是0.009,比32K的贵三倍,输入差别不大。
Q:不同模型在创作科幻小说时效果如何?
A:选取了light 4K、pro 32K、pro 128三个模型进行对比,4K的速度快,12秒写完但内容更像目录;32K每章有一点故事但作为章节内容不大够;128K能直接把整个故事写完。耗时方面,4K最快12秒,32K是25秒,128K耗时更长但token数总量反而少一些。在处理长文本(接近2000个token)时,4K会超出模型上下文限制,在创作或回答逻辑问题时不同模型差距比较明显。
Q:不同版本API在识别图片内容时效果如何?
A:以识别冰箱里有什么东西为例,light版本存在识别不准确的情况,如把没看到的认成有,还可能瞎编一些内容,且在分辨率过低时不会做上下层区分;另一个版本能分层介绍,但在分辨率低时也会出现识别不准确的情况,如把不同的都识别成红色西红柿。
Q:豆包的light和pro识图API之间有何区别?
A:调用数量上,light调用了五千多个,pro调用了6000个,但识别水平不一样;在电脑上调用程序相对容易,比如用python,调用豆包API时输入prompt,会调用选好的模型返回对应内容,实际程序调用机制比较复杂;且如果用于智能终端或玩具,其变化不够多样化。
Q:扣子是什么,有什么作用?
A:扣子可以用于创建智能体,能为AI设置角色,使其按照角色给出回答,例如可以将角色设置为西游记的孙悟空,它会按照该角色进行回答。
Q:扣子的收费标准是怎样的?
A:扣子收费根据调用次数和模型的token消耗来计算。调用一次扣子收费0.002元;若配置知识库,则按时间收费,每GB每月1元;不同模型收费不同,如视觉理解pro版输入1000个token是0.003元,输出是0.009元,通用模型32k pro输入1000个token是0.0008元,输出是0.002元;light版本效果稍差,角色扮演和工具调用与32K pro价格一样;此外还有其他家的模型可供选择。
Q:如何调用扣子?
A:在电脑上演示时,需要把相关库加进来,对应token请求,然后输入问题;在智能终端上不会用PC上的程序方式调用;若将角色设置为孙悟空,打招呼时它会以角色身份回应,有了cos加成后,字节提供的API回答不再单调。
Q:如何创建智能体?
A:可以创建智能体,如选test创建在个人空间,还可以自定义人物性格,比如让其模仿诗人李白,可让其自动优化,优化后会有对应的技能,直接替换即可设置好人物逻辑。
Q:除了自己创建外,还有哪些智能体相关功能?
A:还有像商店一样别人编好的功能,如写作、抽卡器、灵魂对话器等,调用起来比较方便,且目前这些功能都是不收费的。
Q:硬件方面与软件API有何关联,展示的玩具是怎样的?
A:软件API是根基,构成了相关内容,要将内容输出出去;展示的玩具是一个可以对话的玩具,按按键可以跟它说话,它会动并使用AI回答,拆解后其内部构造比较简单。
Q:在ESP32板子上开发程序时,具体的操作步骤是怎样的?
A:首先打开阿迪亚诺的IDE软件,选中板子类型(如ESP32),安装好板子相关程序后选中板子名字。它使用类似C++的编程语言,需先安装必要的库,定义变量,若联网要指定请求的网址等。假设API和程序设置好后,将板子插到电脑上上传,会将编写的内容编成电路板可识别的语言烧录进去,使其成为驱动,再放回到相应硬件中。
Q:在与AI终端连接实现语音交互时,语音处理的流程是怎样的?
A:需要先将语音通过语音转文字功能转成文字(如ChatGPT的whisper、微软及字节等都有相关API或语音大模型可实现),再将文字输给大模型,大模型返回结果后再通过语音合成将文字转成声音播放出来。
Q:能否在板子上直接加载识别声音的模块,而不将声音传到网上处理?
A:可以,但这种电路板处理能力有限,能识别的命令数量有限,大概可以识别几百个不同的命令,如开灯、关灯等控制指令。而与大语言模型对话时,语言可能性无限,这种情况必须交给云端处理。不过像“开始播放音乐”“嘿小爱”等简单唤醒词,在本地离线情况下可以处理。
Q:ESP32板子除了声音对话功能外,还有哪些可扩展性?
A:可以添加显示器(能显示基础RGB内容)、红外发射器(可发射红外信号控制智能家居)、湿度检测器、声音检测器等。可以读取气温、湿度、分贝等数据,还能外接操纵其他机械设备。此外还可以接相机进行读取,也可作为单纯语音助手,往AI方向发展除语音外主要应用是接摄像头等。
加微信领取星球优惠券
股市调研
投资必备利器,每日更新上市公司、产业专家调研纪要。
最新文章
微软800亿美元AI算力投资解读
小米线下渠道经理交流
大宗商品对话:原油走向何方?
数据中心配电系统及HVDC行业专家交流
固态电池设备专家交流
潮玩产品专家交流
AI全球投资机会解读
电子烟专家交流
TCE双抗行业专家
1月光伏基本面更新
黄金珠宝区域加盟商交流纪要
“送礼物”功能赋能微信小店,多角度解读微信电商产业链投资机会
特斯拉机器人专家交流纪要
算力调度专家交流纪要
造车新势力经销商交流纪要
国内科技大厂AI产品与算力布局
海上风电用海管理新政解读
重卡12月销量解读及25年行业展望
2025全球AI算力展望
布鲁可专家交流纪要
星球介绍
卡游专家交流纪要
12月百强房企销售数据解读
纪要星球优惠
国内工商业储能发展展望
低空经济2025年展望
股市调研星球介绍
DeepSeek表现对算力需求到底有无影响
微信小店专家交流纪要
AI产业政策解读与投资机会梳理
AI专家交流纪要
国产算力的 iPhone 时刻
白酒渠道专家交流纪要
英伟达GB300升级及国产AI算力最新机会
小米AI加速布局,如何看产业链机会?
智驾升级的节奏和产业链调研反馈
培育钻产业链专家交流纪要
国内外AI动态及观点汇报
日系IP经销商专家交流纪要
积木行业专家交流纪要
微信小店专家交流纪要
AI算力服务器电源专家交流纪要
国内外AI进展及AI端侧投资机会梳理
对话大咖:国内量子计算发展到哪儿了?
电商行业专家交流
豆包大模型解读及产业展望
微信小店送礼功能解读及发展展望
字节豆包如何连接AI终端
AI眼镜变化及SOC后续关注重点
种子专家交流纪要
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉