1. HTTP协议简介
HTTP全称超文本传输协议(HTTP,HyperText Transfer Protocol),是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。
HTTP是应用层网络协议,在最上层,HTTP通常承载与TCP/IP协议之上,有时也承载于TLS或SSL协议层之上,这就成了我们常说的HTTPS。
HTTP是一个应用层协议,由请求和响应构成,是一个标准的客户端服务器模型。HTTP是一个无状态的协议。
HTTP默认的端口号为80,HTTPS的端口号为443。
HTTP是基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等),简单的说,HTTP会把数据以流的形式传给TCP层,TCP把数据切成一小段一小段的数据块,有次序的传递给IP层(服务器IP地址就在此处),IP层可以按照顺序一块块接收数据组合起来就到后端服务器了。
2. HTTP协议工作流程
1. 用户在浏览器中输入一个url,或者点击一个网址或者用请求工具发送一次请求
2. 浏览器根据URL中的域名,通过DNS解析出目标网页的IP地址;然后将上面结合本机自己的信息,封装成一个http请求数据包
DNS服务器解析域名,先在本地缓存中查找域名对应IP,没找到之后再DNS服务器上找
3. 在HTTP开始工作前,客户端首先会通过TCP/IP协议来和服务端建立链接(TCP三次握手)
4. 建立连接后,客户机发送一个请求给服务器,请求方式的格式为:统一资源标识符(URL)、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和内容。
5. 服务器接到请求后,给予相应的响应信息,其格式为一个状态行,包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和内容。
6. 一般情况下,一旦Web服务器向浏览器发送了请求数据,它就要关闭TCP连接,然后如果浏览器或者服务器在其头信息加入了这行代码:Connection:keep-alive,TCP连接在发送后将仍然保持打开状态,于是,浏览器可以继续通过相同的连接发送请求。保持连接节省了为每个请求建立新连接所需的时间,还节约了网络带宽。
详细过程:
3. HTTP 请求报文
由3大部分组成:请求行、请求头、请求体,响应同样的3大部分。如下图:
请求行 - 通用信息头 - 请求头 - 实体头 - 报文主体
状态行 - 通用信息头 - 响应头 - 实体头 - 报文主体
以下示例:
响应行
(HTTP/1.1)表明HTTP版本为1.1版本,状态码为200,状态消息为(ok)
响应头
Date:生成响应的日期和时间;
Content-Type:指定了MIME类型的HTML(text/html),编码类型是ISO-8859-1
响应体
以上是请求和响应的报文结构。
HTTP另外一个重点在于请求头的一些字段,和一些响应吗代表的状态
1xx 代表information 信息属性状态码
2xx 代表success ,具体如下
200: ( OK 客户端发过来的数据被正常处理 )
204: ( Not Content 正常响应,没有实体 )
206: ( Partial Content 范围请求,返回部分数据,响应报文中由Content-Range指定实体内容 )
3xx 代表重定向,具体如下:
301: (Moved Permanently) 永久重定向
302: (Found) 临时重定向,规范要求,方法名不变,但是都会改变
303: (See Other) 和302类似,但必须用GET方法
304: (Not Modified) 状态未改变, 配合(If-Match、If-Modified-Since、If-None_Match、If-Range、If-Unmodified-Since)
307: (Temporary Redirect) 临时重定向,不该改变请求方法
4xx: 代表客户端错误,具体如下:
400:(Bad Request) 请求报文语法错误
401 :(unauthorized) 需要认证
403:(Forbidden) 服务器拒绝访问对应的资源
404:(Not Found) 服务器上无法找到资源
5xx:服务端错误,具体:
500:(Internal Server Error)服务器故障
503:(Service Unavailable) 服务器处于超负载或正在停机维护
首部字段列表
1. 通用首部字段:
Cache-Control : 控制缓存行为。
Connection : 连接的管理。
Date : 报文日期。
Pragma:报文指令。
Trailer:报文尾部的首部。
Trasfer-Encoding:制定报文主题的传输编码方式。
Upgrade:升级为其他协议。
Via:代理服务信息。
Warning:错误通知。
2.请求首部字段
Accept:用户代理可以处理的媒体类型。
Accept-Charset:优先的字符集。
Accept-Encoding:优先的编码。
Accept-Langulage:优先的语言。
Authorization:Web认证信息。
Expect:期待服务器的特定行为。
From:用户的电子邮箱地址。
Host:请求资源所在的服务器。
if-Match:比较实体标记。
if-Modified-Since:比较资源的更新时间
If-Range:资源未更新时发送实体Byte的范围请求。
Max-Forwards:最大传输跳数。
Proxy-Authorization:代理服务器需要客户端认证。
Range:实体字节范围请求。
Referer:请求中的URI的原始获取方。
TE:传输编码的优先级。
User-Agent:HTTP客户端程序的信息。
3 响应首部字段
Accept-Ranges:是否接受字节范围。
Age:资源的创建时间。
ETag:资源的匹配信息。
Location:客户端重定向至指定的URI。
Proxy-Authenticate:代理服务器对客户端的认证信息。
Retry-After:再次发送请求的时机。
Server:服务器的信息。
Vary:代理服务器缓存的管理信息。
www-Authenticate:服务器对客户端的认证。
4. 实体首部字段
Allow:资源可支持的HTTP方法。
Content-Encoding : 实体的编码方式。
Content-Language : 实体的自然语言。
Content-length : 实体的内容大小。
Content-location: 替代对应资源的url。
Content-MD5 : 实体的报文摘要。
Conten-range : 实体主体的位置范围。
Content-Type : 实主体的媒体类型。
Expires : 实体过期时间。
Last-Modified :资源的最后修改时间。