RPC通信协议

发表于 2020-08-30 更新于 2022-09-09 分类于 rpc 阅读次数： 34 Waline： 0 本文字数： 2.4k 阅读时长 ≈ 2 分钟

　协议大家平时都会遇到，只是没有特别注意。
　像平时大家阅读文章的时候都是从上到下、从左往右按行阅读，这可以看做一种阅读(通信)协议。 ( 备注: 古人在竹简上写的文字则是从上到下、从右往左按列阅读。)
　阅读作文时第一行是标题，段首要空两格的是一个自然段。遇到一个句号是一句话。
这个就是一种阅读时的通信协议

在计算机远程方法调用时，传输的都是二进制的01，调用方(写数据)和被调用方(读数据)怎么约定通信协议的？

(1) 协议是什么

协议的作用就类似于文字中的符号，作为应用拆解请求消息的边界，保证二进制数据经过网络传输后，还能被正确地还原语义。

那么，服务端收到二进制数据后怎么根据协议解析出数据呢？

假如让你设计，你怎么设计一个协议

(1.1) 协议和序列化的区别

序列化后的二进制数据是协议的子集

RPC其实是把拦截到的方法参数，转成可以在网络中传输的二进制，并保证在服务提供方能正确地还原出语义，最终实现像调用本地一样地调用远程的目的。

那么客户端、服务端如何在二进制流里区分出想要的数据？

(2) 传输协议的作用(职责)

首先要有协议长度，比如用int类型表示，放在二进制数据的前4个字节
需要标识是什么协议
协议可能会有多个版本，需要表示协议版本，用byte类型表示
需要消息Id，用来标识唯一，调用方根据消息Id来区分同一个方法的不同请求，用int类型标识，占4字节
需要消息类型，用来标识是调用、响应、异常，用byte类型标识，占1字节
需要序列化方式用byte类型，占用1字节
还需要预留协议扩展字段，不定长，约定协议扩展字段的前2个字节标识扩展字段的长度
协议头长度，除协议体的部分的长度，用2字节表示
剩下的是协议体内容，存放序列化后的二进制数据 (协议体的长度可以根据协议长度-协议头长度获得)

问题一：如何规定远程调用的语法？

客户端如何告诉服务端，我是一个加法，而另一个是乘法。是用字符串“add”传给你，还是传给你一个整数，比如 1 表示加法，2 表示乘法？ (方法描述)
服务端该如何告诉客户端，这个加法，目前只能加整数，不能加小数，不能加字符串； (类型描述)
而另一个加法“add1”，它能实现小数和整数的混合加法。 (类型区分)
返回值是什么？正确的时候返回什么，错误的时候又返回什么？ (返回值描述)

问题二：如果传递参数？

是先传两个整数，后传一个操作符“add”，还是先传操作符，再传两个整数？
如果都是 UDP，想要实现一个逆波兰表达式，放在一个报文里面还好，如果是 TCP，是一个流，在这个流里面，如何将两次调用进行分界？什么时候是头，什么时候是尾？
把这次的参数和上次的参数混了起来，TCP 一端发送出去的数据，另外一端不一定能一下子全部读取出来。所以，怎么才算读完呢？

问题三：如何表示数据？

1、如果是变长的类型，是一个结构体，甚至是一个类，应该怎么处理呢？
2、如果是 int，不同的平台上长度也不同，该怎么处理呢？
3、在网络上传输超过一个 Byte 的类型，还有大端 Big Endian 和小端 Little Endian 的问题。假设我们要在 32 位四个 Byte 的一个空间存放整数 1，很显然只要一个 Byte 放 1，其他三个 Byte 放 0 就可以了。那问题是，最后一个 Byte 放 1 呢，还是第一个 Byte 放 1 呢？或者说 1 作为最低位，应该是放在 32 位的最后一个位置呢，还是放在第一个位置呢？最低位放在最后一个位置，叫作 Little Endian，最低位放在第一个位置，叫作 Big Endian。
TCP/IP 协议栈是按照 Big Endian 来设计的，而 X86 机器多按照 Little Endian 来设计的，因而发出去的时候需要做一个转换。

问题四：如何知道一个服务端都实现了哪些远程调用？

从哪个端口可以访问这个远程调用？
假设服务端实现了多个远程调用，每个可能实现在不同的进程中，监听的端口也不一样，而且由于服务端都是自己实现的，不可能使用一个大家都公认的端口，而且有可能多个进程部署在一台机器上，大家需要抢占端口，为了防止冲突，往往使用随机端口，那客户端如何找到这些监听的端口呢？

问题五：发生了错误、重传、丢包、性能等问题怎么办？

本地调用没有这个问题，但是一旦到网络上，这些问题都需要处理，因为网络是不可靠的，虽然在同一个连接中，我们还可通过 TCP 协议保证丢包、重传的问题，但是如果服务器崩溃了又重启，当前连接断开了，TCP 就保证不了了，需要应用自己进行重新调用，重新传输会不会同样的操作做两遍，远程调用性能会不会受影响呢？

协议体里面的内容都是经过序列化出来的，也就是说你要获取到你参数的值，就必须把整个协议体里面的数据经过反序列化出来。但在某些场景下，这样做的代价有点高啊！

(3) 协议核心要素

XID 唯一标识一对请求和回复。请求为 0，回复为 1。
RPC 有版本号，两端要匹配 RPC 协议的版本号。如果不匹配，就会返回 Deny，原因就是 RPC_MISMATCH。
程序有编号。如果服务端找不到这个程序，就会返回 PROG_UNAVAIL。
程序有版本号。如果程序的版本号不匹配，就会返回 PROG_MISMATCH。
一个程序可以有多个方法，方法也有编号，如果找不到方法，就会返回 PROC_UNAVAIL。
调用需要认证鉴权，如果不通过，则 Deny。
参数列表，如果参数无法解析，则返回 GABAGE_ARGS。

协议长度 RPC每次发请求发的大小都是不固定的，所以我们的协议必须能让接收方正确地读出不定长的内容。
序列化方式
协议标示
消息 ID
消息类型

断句，双工通信，配合专用的序列化方法，可以实现一套高性能的网络通信协议。

参考资料

[1] 趣谈网络协议 - 第32讲 | RPC协议综述：远在天边，近在眼前
[2] RPC 实战与核心原理 - 02 | 协议：怎么设计可扩展且向后兼容的协议？
[3] 消息队列高手课 - 13 | 传输协议：应用程序之间对话的语言