字节豆包如何连接AI终端

财富   2024-12-20 20:46   广东  
股票投资,
及时获取一线资讯对您来说至关重要。
加入星球,您能够第一时间获取
最新的市场动态政策解读、机构调研纪要
这些宝贵的资讯将帮助您做出更明智的投资决策。
星球已收录10W+机构投研资料。

要点
1、豆包的API相关内容
豆包pro 4K:响应速度快,但上下文本检索能力较弱,回答简短,效果相对较差,参数少,价格最便宜。输入价格为每1000个token 0.0003,输出价格为每1000个token 0.0006。
豆包pro 32K:性价比最高,性能满足需求且价格适中。输入价格为每1000个token 0.0008,输出价格为每1000个token 0.002。
角色模型:如做角色扮演的character模型,以及text only、当前功能等小模型,价格与text only的模型一致,输入价格为每1000个token 0.0008,输出价格为每1000个token 0.002。
带有识图能力的模型:以32K为例,输出价格增长,如带有微信版本的pro 32K,输出价格从0.002增长到0.009,图片输入价格为每1000个token 0.003。
最高端的256K模型:结合上文最长,效果最好,纯文字输出价格为每1000个token 0.009,输入价格为每1000个token 0.0005。
token计算及概念:token是计算价格的单位,通过一个token计算器,一段132字的话算下来是26个token,转化比例大概是60%多,即150字左右可转换成100个token。正常人说话速度在80到160字之间,150字左右相当于100个token,十分钟即为1000个token。以性价比最高的pro 32K模型为例,说十分钟输出收费2厘钱,100分钟2分钱。
实际效果对比:选取了light 4K、pro 32K、pro 128K三个模型进行对比。light 4K响应速度快,但内容像目录,不符合小说文体;pro 32K每一章有一定故事,但作为章节内容不够;pro 128K效果较好,直接写完整个故事。在分析等方面,128K耗时虽长,但token数总量反而少一些,且在创作或回答逻辑问题时,差距较为明显。对于长文本处理,4K模型可能超出上下文限制,需清除后重新申请。
2、扣子(cos)的API相关内容
设置智能体:可以设置角色,如西游记的孙悟空,AI会按照角色给出回答。还可以创建新的人物性格,如模仿诗人李白,可自动优化并产生对应技能。此外,还有像商店一样的别人帮编好的功能,如写作、抽卡器、灵魂对话器等,目前这些功能不收费。
扣子的收费标准:按调用次数和模型的token消耗收费。调用一次扣子为0.002元,还可配备知识库,按时间收费,每GB1个月1元。使用模型的费用方面,如视觉理解模型,输入价格为每1000个token 0.003,输出价格为每1000个token 0.009;通用模型32k pro,输入价格为每1000个token 0.0008,输出价格为每1000个token 0.002;light版本效果稍差,价格相对较低。角色扮演跟工具调用与pro价格相同。
扣子的调用方式:在电脑上用程序调用,需添加必要的库和token,输入问题后API会给出返回内容。如设置为孙悟空后,问“你是谁”,会得到“俺老孙挺好”的回答。创建智能体并优化后,可设置人物逻辑。
3、硬件拆解及与API的连接
核心构造:最核心的是一块ESP32的板子,板子背后的芯片包含wifi、蓝牙及处理功能。板子上有喇叭、咪头、麦克风、电池等,还有可接入各种功能接口的白色部分,通过电机可实现玩具的扭动效果。
组成部分:接有摄像头,通过视频线连接到主板,主板可拍摄画面、录制或发送图片给AI,同时有麦克风用于收音。眼镜中有一个SOC的骁龙AR一芯片,配备32G存储空间和2G运行内存,还有单独的wifi模块、音频处理芯片和防电涌安全芯片。
电池情况:眼镜中的电池受体积限制,而玩具中的电池可做大,但该玩具未使用大电池,可能考虑安全性或成本问题。
硬件与API的连接:
AI眼镜的连接方式:通过在手机上写一个APP,眼镜与手机蓝牙配对,将数据交给APP,APP再联系服务器。
ESP32板子的连接方式:用老式USB线将板子接到电脑USB接口,电脑接口会多出一个com 14接口。打开阿迪亚诺的IDE软件,选中ESP32板子类型,该软件使用C++编程语言。连接过程中需先安装必要的库,定义变量,告诉板子请求的网址和内容。语音需先转成文字再输给大模型,大模型处理后再语音合成并播放。板子处理能力有限,简单的唤醒词可本地离线处理,与大语言模型对话需交给云端处理。设置好API和程序后,将程序烧录进电路板,使其成为驱动,再放回硬件中。
硬件的可扩展性:ESP32板子可扩展性强,如加显示器、红外发射器、湿度检测器、声音检测等,可控制智能家居、读取环境数据、外接操纵机械设备等。还可接彩色屏幕、机器人、摄像头等。
Q&A
Q:微信light和pro版本有什么区别?
A:微信有light和pro两个版本,同样是pro 32K时,前后文本长度参量相关数据有所不同,输出从0.002增长大概四倍多,若带有识图能力会涨到0.009接近一分钱,图片输入时是0.003。token数计算方面,高质量图片会压缩到最多1312个token(图片分辨率除以784,若结果大于1312则继续压缩到1312再上传处理,若小于则按较小值计算),低质量图片最高256个token(算法同样是除以784)。价格上,如1080P图传上去是1000个token,处理一张是三厘钱,十张三分钱;256K的纯文字输出是0.009,比32K的贵三倍,输入差别不大。
Q:不同模型在创作科幻小说时效果如何?
A:选取了light 4K、pro 32K、pro 128三个模型进行对比,4K的速度快,12秒写完但内容更像目录;32K每章有一点故事但作为章节内容不大够;128K能直接把整个故事写完。耗时方面,4K最快12秒,32K是25秒,128K耗时更长但token数总量反而少一些。在处理长文本(接近2000个token)时,4K会超出模型上下文限制,在创作或回答逻辑问题时不同模型差距比较明显。
Q:不同版本API在识别图片内容时效果如何?
A:以识别冰箱里有什么东西为例,light版本存在识别不准确的情况,如把没看到的认成有,还可能瞎编一些内容,且在分辨率过低时不会做上下层区分;另一个版本能分层介绍,但在分辨率低时也会出现识别不准确的情况,如把不同的都识别成红色西红柿。
Q:豆包的light和pro识图API之间有何区别?
A:调用数量上,light调用了五千多个,pro调用了6000个,但识别水平不一样;在电脑上调用程序相对容易,比如用python,调用豆包API时输入prompt,会调用选好的模型返回对应内容,实际程序调用机制比较复杂;且如果用于智能终端或玩具,其变化不够多样化。
Q:扣子是什么,有什么作用?
A:扣子可以用于创建智能体,能为AI设置角色,使其按照角色给出回答,例如可以将角色设置为西游记的孙悟空,它会按照该角色进行回答。
Q:扣子的收费标准是怎样的?
A:扣子收费根据调用次数和模型的token消耗来计算。调用一次扣子收费0.002元;若配置知识库,则按时间收费,每GB每月1元;不同模型收费不同,如视觉理解pro版输入1000个token是0.003元,输出是0.009元,通用模型32k pro输入1000个token是0.0008元,输出是0.002元;light版本效果稍差,角色扮演和工具调用与32K pro价格一样;此外还有其他家的模型可供选择。
Q:如何调用扣子?
A:在电脑上演示时,需要把相关库加进来,对应token请求,然后输入问题;在智能终端上不会用PC上的程序方式调用;若将角色设置为孙悟空,打招呼时它会以角色身份回应,有了cos加成后,字节提供的API回答不再单调。
Q:如何创建智能体?
A:可以创建智能体,如选test创建在个人空间,还可以自定义人物性格,比如让其模仿诗人李白,可让其自动优化,优化后会有对应的技能,直接替换即可设置好人物逻辑。
Q:除了自己创建外,还有哪些智能体相关功能?
A:还有像商店一样别人编好的功能,如写作、抽卡器、灵魂对话器等,调用起来比较方便,且目前这些功能都是不收费的。
Q:硬件方面与软件API有何关联,展示的玩具是怎样的?
A:软件API是根基,构成了相关内容,要将内容输出出去;展示的玩具是一个可以对话的玩具,按按键可以跟它说话,它会动并使用AI回答,拆解后其内部构造比较简单。
Q:在ESP32板子上开发程序时,具体的操作步骤是怎样的?
A:首先打开阿迪亚诺的IDE软件,选中板子类型(如ESP32),安装好板子相关程序后选中板子名字。它使用类似C++的编程语言,需先安装必要的库,定义变量,若联网要指定请求的网址等。假设API和程序设置好后,将板子插到电脑上上传,会将编写的内容编成电路板可识别的语言烧录进去,使其成为驱动,再放回到相应硬件中。
Q:在与AI终端连接实现语音交互时,语音处理的流程是怎样的?
A:需要先将语音通过语音转文字功能转成文字(如ChatGPT的whisper、微软及字节等都有相关API或语音大模型可实现),再将文字输给大模型,大模型返回结果后再通过语音合成将文字转成声音播放出来。
Q:能否在板子上直接加载识别声音的模块,而不将声音传到网上处理?
A:可以,但这种电路板处理能力有限,能识别的命令数量有限,大概可以识别几百个不同的命令,如开灯、关灯等控制指令。而与大语言模型对话时,语言可能性无限,这种情况必须交给云端处理。不过像“开始播放音乐”“嘿小爱”等简单唤醒词,在本地离线情况下可以处理。
Q:ESP32板子除了声音对话功能外,还有哪些可扩展性?
A:可以添加显示器(能显示基础RGB内容)、红外发射器(可发射红外信号控制智能家居)、湿度检测器、声音检测器等。可以读取气温、湿度、分贝等数据,还能外接操纵其他机械设备。此外还可以接相机进行读取,也可作为单纯语音助手,往AI方向发展除语音外主要应用是接摄像头等。

加微信领取星球优惠券

股市调研
投资必备利器,每日更新上市公司、产业专家调研纪要。
 最新文章