这是一系列文章的开始,工作了这么久,发现很多人对http和web有不少的误解。大家都在希望web交互的更快,使用webGL来充实内容,使用各类hybrid框架来实现一统所有平台的意愿,却很少有人去深刻理解http的诞生、成长。
从90年代开始,http作为web的附庸而逐渐成长,这么多年过去了,http的应用领域已经不仅仅局限在web,各种http的变体充斥在各个角落。在这个技术快速迭代的年代,就越需要理解技术的本质。每个技术从业者应该多问以下问题:
- 我用的技术会死去吗
- 更好的技术是什么
放在web领域,也应该问下自己:
- web和http会死去吗
- 他们的替代品将是什么
介绍
在1999年的RFC 2616是这样描述http的设计目的:
HTTP has been in use by the World-Wide Web global information initiative since 1990.
http从诞生之初,就已经与万维网有不可割舍的血缘关系。因为当时万维网的特性,形成了我们耳熟能详的特性
- 请求简单
- 传输数据灵活
- 无连接
- 无状态
近二十年来,HTTP/1.1标准的内涵不挺的外延,甚至需要6个RFC来描述整个HTTP协议,他们是:
- 消息-"Message Syntax and Routing" (RFC 7230)
- 语义-"Semantics and Content" [RFC7231]
- 条件请求-"Conditional Requests" [RFC7232]
- 范围请求-"Range Requests" [RFC7233]
- 缓存-"Caching" [RFC7234]
- 认证-"Authentication" [RFC7235]
http 2.0
已经蓬勃兴起, google的QUIC
(笑称http 3.0)也在实验阶段,他们可能在安全、传输等方面有较大的优化,但是他们并没有给http赋予新的内涵:
HTTP is a generic interface protocol for information systems. It is designed to hide the details of how a service is implemented by presenting a uniform interface to clients that is independent of the types of resources provided. RFC7230
HTTP是一种通用的信息传递协议。对http来讲,Web世界将只是很少的一部分。
从RFC7230开始
先从几个问题开始:
什么决定了服务端和客户端
为什么必须要使用空行隔开
header
和body
URI是什么?
实际上,这篇RFC解决了七十多个问题,每一个问题都可以写一篇较长的文章来讲,这里分析一下这三个问题:
message格式决定服务端和客户端
标准规定,如果端
发出的是 response
格式的消息,那么就属于server
,反之,就是client
。
仅仅使用数据格式来决定端
的地位, 为什么不用tcp特性来决定服务端还是客户端问题?
google
使用的QUIC
是基于UDP
实现的HTTP标准(有一定差异)。这就没有办法来通过请求行为来判断是服务端还是客户端,更重要的是,在web世界,各种代理、网关等充斥在各个角落,客户端和服务端的角色经常发生变化,因此,使用格式
来决定地位
是一个相对不错的解决方案。
这也就是request
和 response
消息头不一样的绝对原因(讲道理,可以设计的一样)。
思考HTTP的时候,希望可以脱离那句话来想象:
HTTP是基于TCP的应用层协议
自定义消息头
常见的请求如下:
GET / HTTP/1.0
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5)
Accept: */*
body
常见回复如下:
HTTP/1.0 200 OK
Content-Type: text/plain
Content-Length: 137582
Expires: Thu, 05 Dec 1997 16:00:00 GMT
Last-Modified: Wed, 5 August 1996 15:55:28 GMT
Server: Apache 0.84
<html>
<body>Hello World</body>
</html>
header
和body
中间存在一个empty line
。这是因为,标准允许服务端或者客户端自定义消息头,为了区分header
和body
,标准通过设置空行来进行区分。在某些需求下,你可以将内容写在header
区域,防止body
内内容被防火墙或者杀毒软件干掉。
为什么不设置固定的header
或者body
?
http在设计之初,就用于传输各种多媒体信息
,因此从一开始,header
和body
的内容就没办法进行固定。从目前来看,HTTP承载最多的也是各种信息资源的传递。所以,在这个角度:
http传输某种资源不会是最优的方案,但是一定可以传输任意资源
HTTP灵魂: 资源定位
HTTP发明者Tim Berners-Lee
有句名言:
Web users ultimately want to get at data quickly and easily. They don't care as much about attractive sites and pretty design.
对于创始人来说:更快的获取数据是web的唯一使命。
使用URI来描述资源,就是能够简化获取资源的步骤。
那么,URI的结构是什么?URI将永远不变吗?