【文章仅供非商业用途或交流学习使用】
内存中的数据对象只有转换为二进制流才可以进行数据持久化和网络传输。将流数据对象转换为二进制流的过程就叫做对象的序列化。反之,将二进制流恢复为数据对象的过程称为反序列化。序列化需要保留充分的信息以恢复数据对象,但是为了节约存储空间和网络带宽,序列化后的二进制流又要尽可能小。序列化常见的使用场景是RPC框架的数据传输。常见的序列化方式有三种:
1 Java原生序列化
Java类通过实现Serializable接口来实现该类对象的序列化,这个接口非常特殊,没有任何方法,只起标识作用。Java序列化保留了对象类的元数据(类、成员变量、继承类信息),以及对象数据等,兼容性最好,但不支持跨语言,而且性能一般。
实现Serializable接口的类建议设置serialVersionUID字段值,如果不设置,那么每次运行时,编译器会根据类的内部实现,包括类名、接口名、方法和属性等自动生成serialVersionUID。如果类的源代码有修改,那么重新编译后serialVersionUID的取值可能会发生变化。因此实现Serializable接口的类一定要显式地定义serialVersionUID属性值。修改类时需要根据兼容性决定是否修改serialVersionUID值:
如果是兼容升级,请不要修改serialVersionUID字段,避免反序列化失败;
如果是不兼容升级,需要修改serialVersionUID值,避免反序列化混乱。
使用Java原生序列化需要注意,Java反序列化时不会调用类的无参构造方法,而是调用native方法将成员变量赋值为对应类型的初始值。基于性能及兼容性考虑,不推荐使用Java原生序列化。
2 Hessian序列化
Hessian序列化是一种支持动态类型、跨语言、基于对象传输的网络协议。Java对象序列化的二进制流可以被其它语言反序列化。
Hessian协议具有如下特性:
自描述序列化类型。不依赖外部描述文件或接口定义,用一个字节表示常用基础类型,极大缩短二进制流。
语言无关,支持脚本语言。
协议简单,比Java原生序列化效率高。
相比Hessian 1.0版本,2.0版本中增加了压缩编码,其序列化二进制流大小是Java序列化的50%,序列化耗时是Java序列化的30%,反序列化耗时是Java反序列化的20%。
Hessian会把复杂对象所有属性存储在一个Map中进行序列化。所以在父类、子类存在同名成员变量的情况下, Hessian序列化时,先序列化子类,然后序列化父类,因此反序列化结果会导致子类同名成员变量被父类的值覆盖。
3 JSON序列化
JSON是一种轻量级的数据交换格式。JSON序列化就是将数据对象转换为JSON字符串。在序列化过程中抛弃了类型信息,所以反序列化时只有提供类型信息才能准确地反序列化。相比前两种方式,JSON可读性比较好,方便调试。