二进制通信协议序列化解析

科技 2024-12-20 11:03 上海

通信协议可以理解两个节点之间为了协同工作实现信息交换，协商一定的规则和约定，例如规定字节序，各个字段类型，使用什么压缩算法或加密算法等。常见的有tcp，udo，http，sip等常见协议。协议有流程规范和编码规范。流程如呼叫流程等信令流程，编码规范规定所有信令和数据如何打包/解包。

编码规范就是我们通常所说的编解码，序列化。不光是用在通信工作上，在存储工作上我们也经常用到。如我们经常想把内存中对象存放到磁盘上，就需要对对象进行数据序列化工作。

本文采用先循序渐进，先举一个例子，然后不断提出问题-解决完善，这样一个迭代进化的方式，介绍一个协议逐步进化和完善，最后总结。看完之后，大家以后在工作就很容易制定和选择自己的编码协议。

一、紧凑模式

本文例子是A和B通信，获取或设置基本资料，一般开发人员第一步就是定义一个协议结构:

struct userbase
{
    unsigned short cmd;//1-get, 2-set, 定义一个short，为了扩展更多命令(理想那么丰满)
    unsigned char gender; //1 – man , 2-woman, 3 - ??
    char name[8]; //当然这里可以定义为 string name；或len + value 组合，为了叙述方便，就使用简单定长数据
}

在这种方式下，A基本不用编码，直接从内存copy出来，再把cmd做一下网络字节序变换，发送给B。B也能解析，一切都很和谐愉快。

这时候编码结果可以用图表示为(1格一个字节)

这种编码方式，我称之为紧凑模式，意思是除了数据本身外，没有一点额外冗余信息，可以看成是Raw Data。在dos年代，这种使用方式非常普遍，那时候可是内存和网络都是按K计算，cpu还没有到1G。如果添加额外信息，不光耗费捉襟见肘的cpu，连内存和带宽都伤不起。

二、可扩展性

有一天，A在基本资料里面加一个生日字段，然后告诉B

struct userbase
{
    unsigned short cmd;
    unsigned char gender;
    unsigned int birthday;
    char name[8];
}

这是B就犯愁了，收到A的数据包，不知道第3个字段到底是旧协议中的name字段，还是新协议中birthday。这是后A，和B终于从教训中认识到一个协议重要特性——兼容性和可扩展性。

于是乎，A和B决定废掉旧的协议，从新开始，制定一个以后每个版本兼容的协议。方法很简单，就是加一个version字段。

struct userbase
{
    unsigned short version;
    unsigned short cmd;
    unsigned char gender;
    unsigned int birthday;
    char name[8];
}

这样，A和B就松一口气，以后就可以很方便的扩展。增加字段也很方便。这种方法即使在现在，应该还有不少人使用。

三、更好的可扩展性

过了一段较长时间，A和B发现又有新的问题，就是没增加一个字段就改变一下版本号，这还不是重点，重点是这样代码维护起来相当麻烦，每个版本一个case分支，到了最好，代码里面case 几十个分支，看起来丑陋而且维护起来成本高。

A 和 B仔细思考了一下，觉得光靠一个version维护整个协议，不够细，于是觉得为每个字段增加一个额外信息——tag,虽然增加内存和带宽，但是现在已经不像当年那样，可以容许这些冗余，换取易用性。

struct userbase
{
    unsigned short version;
    unsigned short cmd;
    unsigned char gender;
    unsigned int birthday;
    char name[8];
}

制定完这些协议后，A和B很得意，觉得这个协议不错，可以自由的增加和减少字段。随便扩展。

现实总是很残酷的，不久就有新的需求，name使用8个字节不够，最大长度可能会达到100个字节，A和B就愁怀了，总不能即使叫“steven”的人，每次都按照100个字节打包，虽然不差钱，也不能这样浪费。

于是A和B寻找各方资料，找到了ANS.1编码规范，好东西啊.. ASN.1是一种ISO/ITU-T 标准。其中一种编码BER（Basic Encoding Rules）简单好用，它使用三元组编码，简称TLV编码。

每个字段编码后内存组织如下：

字段可以是结构，即可以嵌套：

A和B使用TLV打包协议后，数据内存组织大概如下:

TLV具备了很好可扩展性，很简单易学。同时也具备了缺点，因为其增加了2个额外的冗余信息，tag 和len，特别是如果协议大部分是基本数据类型int ,short, byte. 会浪费几倍存储空间。另外Value具体是什么含义，需要通信双方事先得到描述文档，即TLV不具备结构化和自解释特性。

往期相关文章：TLV格式数据详解

四、自解释性

当A和B采用TLV协议后，似乎问题都解决了。但是还是觉得不是很完美，决定增加自解释特性，这样抓包就能知道各个字段类型，不用看协议描述文档。这种改进的类型就是 TT[L]V（tag，type，length，value），其中L在type是定长的基本数据类型如int,short, long, byte时候，因为其长度是已知的，所以L不需要。

于是定义了一些type值如下

按照ttlv序列化后，内存组织如下:

改完后，A和B发现，的确带来很多好处，不光可以随心所以的增删字段，还可以修改数据类型，例如把cmd改成int cmd；可以无缝兼容。真是太给力了。

五、跨语言特性

有一天来了一个新的同事C，他写一个新的服务，需要和A通信，但是C是用java或PHP的语言，没有无符号类型，导致负数解析失败。为了解决这个问题，A重新规划一下协议类型，做了有些剥离语言特性，定义一些共性。对使用类型做了强制性约束。虽然带来了约束，但是带来通用型和简洁性，和跨语言性，大家表示都很赞同，于是有了一个类型(type)规范。

六、代码自动化——IDL语言的产生

但是A和B发现了新的烦恼，就是每搞一套新的协议，都要从头编解码，调试，虽然TLV很简单，但是写编解码是一个毫无技术含量的枯燥体力活，一个非常明显的问题是，由于大量copy/past,不管是对新手还是老手，非常容易犯错，一犯错，定位排错非常耗时。于是A想到使用工具自动生成代码。

IDL（Interface Description Language），它是一种描述语言，也是一个中间语言，IDL一个使命就是规范和约束，就像前面提到，规范使用类型，提供跨语言特性。通过工具分析idl文件，生成各种语言代码

Gencpp.exe sample.idl 输出 sample.cpp sample.h
Genphp.exe sample.idl 输出 sample.php
Genjava.exe sample.idl 输出 sample.java

是不是简单高效！

七、总结

大家看到这里，是不是觉得很面熟。是的，协议讲到最后，其实就是和facebook的thrift和google protocol buffer协议大同小异了。包括公司无线使用的jce协议。咋一看这些协议的idl文件，发现几乎是一样的。只是有些细小差异化。

往期相关文章：一种更轻量的数据格式——protobuf

这些协议在一些细节上增加了一些特性：

1.压缩，这里压缩不是指gzip之类通用压缩，是指针对整数压缩，如int类型，很多情况下值是小于127（值为0的情况特别多），就不需要占用4个字节，所以这些协议做了一些细化处理，把int类型按照情况，只使用1/2/3/4字节，实际上还是一种ttlv协议。

2.reuire/option 特性: 这个特性有两个作用，1、还是压缩，有时候一个协议很多字段，有些字段可以带上也可以不带上，不赋值的时候不是也要带一个缺省值打包，这样很浪费，如果字段是option特性，没有赋值的话，就不用打包。2、有点逻辑上约束功能，规定哪些字段必须有，加强校验。

序列化是通信协议的基础，不管是信令通道还是数据通道，还是rpc，都需要使用到。在设计协议早期就考虑到扩展性和跨语言特性。会为以后省去不少麻烦。

本篇主要介绍二进制通信协议序列化，没有讲文本协议。从某种意义来讲，文本协议天生具有兼容和可扩展性。不像二进制需要考虑那么多问题。文本协议易于调试（如抓包就是可见字符，telnet即可调试，数据包可以手工生成不借助特殊工具），简单易学是其最强大的优势。

二进制协议优势就是性能和安全性。但是调试麻烦。

两者各有千秋，按需选择。(stevenrao)

作者：stevenrao

原文：http://blog.chinaunix.net/uid-27105712-id-3266286.html

Qt教程

致力于Qt教程，Qt技术交流，研发

最新文章

尊严只在剑锋之上，真理只在大炮射程之内

一文了解智能机器人的灵魂ROS 2

MQTT 和 Modbus 协议对比

C++中sizeof和strlen的区别

使用 VS Code 搭建嵌入式开发 IDE，这回方便了

到底什么是上下文切换？

大疆员工爆料：大疆是可以二进宫的，但有两个条件：第一，之前被裁的不行；第二，背调不过的不行。

OpenAI 史上最长宕机：自研 K8s 成“拦路虎”，导致数小时无法修复

嵌入式工程师：从初阶到高阶路上的那些陷阱

Linux迎来重要转折点！Rust驱动将全面进军内核核心，项目负责人称Rust现在处于有利地位

美国考虑禁售TP-Link路由器

什么时候你意识到做技术永无出路？

使用VS Code解锁超方便的嵌入式IDE

嵌入式软件设计，注意这两点，可以降低bug出现的概率。

嵌入式软件使用状态机架构，一般有什么优点？

二进制通信协议序列化解析

上海房价风云：透视波动背后的真相与未来三年犀利走向

美国千万悬赏追捕：成都技术大咖深陷“黑客风暴”谜团

善用智能指针：一个合格C++程序员的技术分析与代码实践

这些C++技术你用过哪些？少于四种的就别凑热闹了

嵌入式软件中函数指针的几个高级应用场景

基于状态机的通信接收模块

生意之道：“大自然的搬运工”与“二道贩子”的智慧

C++中使用()和{}创建对象的差异与代码举例

一文解惑TCP连接重置

spdlog——高性能C++日志库

两个进程访问同一内存地址0x10086会发生什么？

TCP异常快速诊断：端口复用的成因、特征与处理

TCP精细讲解：四次挥手与连接断开

TCP的核心组件（上）：说说TCP序列号的运动规律

性能调优：三种情况下的重复ACK分析与处置建议

通过时序图视角，看透TCP类业务故障

嵌入式软件开发，这些建议很实用

没日没夜创业“卷”了20个月、胖了30斤，AI大牛：还是重回Google香！

C++ 之父 2024 炉边谈话：现代 C++ 设计哲学、技术变革与安全争议

推荐一个基于C++的轻量级的高性能深度学习框架

稳定的代码及其无bug保障策略

不合理嵌套的理解与避免策略

判断两个单链表是否相交及其算法思路（以C++为例）

新同事才来5天就被开除了，其实，他被开除是意料之中，因为他每天按时下班，犯了公司的大忌！

Qt Group与瑞芯微携手发布“一芯四屏数字座舱”创新解决方案

写时复制（Copy-On-Write, COW）原理及实现示例

C++ 为什么需要内存对齐？

如何用 C 语言设计一种垃圾内存回收机制

C++协变与逆变详解及代码示例

C++中的BSON生成与解析技术讲解及代码示例

2024中国大学毕业生薪酬排行榜Top200

从J-link RTT的移植到精通，让嵌入式调试飞起来！

Qt帮助文档的使用

Qt项目集成Tsmaster库实现CAN消息发送指南

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉