1.1理解tcp基础
tcp/ip = {protocol1, protocol2,……,protocoln}
Internet是在共享的线路上发送数据的:
在计算机上同时运行的程序通过一条单一的Modem或DSL线路连接互联网。(有点像电脑只是插了一根网线的感觉)
==换句话说==> 程序共享这条线路
==如何实现共享==> (相当于要运送一个大部件,通常派送员会选择将这个大部件拆分成各个小零件,寄到了家之后再通过说明书将其组装起来【购买的踏步机】)大部件就相当于需要发送的“数据流”,派送员就相当于“tcp”,各个小零件就是“信息包”,快递运输线就好比“Internet”,寄到了家就是信息包到了”接收者“这里,合起来就是 ==> tcp把要发送的数据流分解成很多小信息包在Internet上传输(或许还伴有其他程序的信息包),而这些信息包到了接收者的地方会再次重新合成在一起。
==这样的好处==> 通过分解成小的信息包,Internet连接就会用很少的时间来发送数据的每一个比特(bit),而其他程序的信息包也可以同时被传送。
使用地方:
1)你需要一个可靠的数据传输,以确保你的数据完整无缺地到达目的地;
2)你的协议需要不止一个请求和服务器的回答;
3)你要发送较多的数据;
4)初始连接出现短暂的延迟是可以容忍的。
(1)寻址(为了实现信息包计划,tcp需要做的事情)
1)tcp需要识别远程的机器:基于tcp/ip的网络,每台机器都有一个唯一的ip地址,识别机器就是知道了接受者机器的ip地址;
==>要知道让人类记住一串诸如192.168.1.1这样的数字是很困难的,所以有了DNS:
当你要和一个远程机器建立连接的时候,先申请连接该机器ip地址相对应的dns,例如:www.google.com,dns就会提供一个ip地址,接下来就可以建立连接了。(python在程序中常常隐藏dns层,所以很多时候都不需要直到它的存在,第四仗中会详细介绍dns)
2)tcp需要知道是与远程机器上运行的哪个程序通信(例如,你想给在北京的ann的机器发送信息,而她的机器上正运行着两个聊天客户端和一个web浏览器,她的机器需要直到哪个程序应该接收你传过来的数据。):tcp使用端口号。每个程序使用一个唯一的端口号。这些端口号有时事先知道,有时随机指定。
==>每个tcp连接的端点是由一个ip地址和一个端口号来唯一标识的。
(2)可靠性
在Internet上传输数据有很多意外:Modem改变了数据的几个字节、某个路由器或许丢失了一个信息包、系统或许收到了顺序错误的信息包、一个信息包或许收到了两次、一个主要的网络电缆被锄头切断了等等。
tcp可靠:除非整个网络出现问题,数据将被完好地按原样正确地传送到另外一端。
==怎样实现的?==>
1)每个信息包都包含一个“校验码”:保证信息包在传输过程中没有被更改的代码。当信息包到达目的地的时候,接收方会比对校验码和收到的信息中的数据,若校验码不对,该信息包将被省略(drop)。
2)反馈:防止信息包丢失,tcp要求接收方每收到一个信息包都反馈一下。如果接收方没有反馈,发送方会自动重发一次。tcp会一直发送信息包直到接收者收到位置,或者tcp判断出网络连接断了,在程序中返回一个错误提示。
3)序号:为了防止信息包重复或顺序错误,tcp每传送一个信息包都会传送一个序号。接收方会检查这个序号,确保收到该信息包,并把全部信息包按顺序重新合并。同时,若果接收方看到了一个已经看过的序号,则该信息包会被丢弃。
(3)路由
信息包在传递过程中会经由许多不同网络,比如:先通过你的DSL到达电话公司,接着到达你所在城市的一个Internet提供商,然后经过北京、上海等到达最终目的地。(dsl数字用户线路)在此期间的每一站,来自其他成千上万计算机的信息包也在一起被传输。在Internet上负责接收信息包并决定如何把它们传输到目的地的设备叫“路由器”。
(4)安全
ssl(secure sockets layer):在tcp连接之上,与程序代码混合在一层。提供服务器的认证(所以你知道你现在在和谁通话)、加密(所以其他人不能看到你的通信)和数据完整性(所以在没有察觉时,传输途中的信息包没有人能够修改)。
tls(transport layer security):与ssl相似,只包含在协议堆栈(protocol stack)中。
1.2使用客户/服务器模式
在客户/服务器下,服务器一直在听来自客户端的请求,有请求后,就建立连接处理它们。
例如:当你打开一个浏览器并访问www.google.como,浏览器会连接www.google.com的服务器,并请求访问“/”页(这个“/”页表示该站点的首页。服务器按顺序找到这一页,并把它传送回你的客户端,接着你的浏览器就能按照一定的格式显示出来。
关键问题:客户端总是最开始申请连接的一端,服务器则是等待客户端连接的一端。
1)服务器端端口号:
在客户/服务器模式中,服务器通常是听一个大家都知道的端口号。例如:web服务器听80端口,所以,web浏览器知道连接www.google.com的80端口来获得信息。
(在www.iana.org上有一份由国际因特网地址分配委员会IANA维护的官方已分配的端口列表,在linux中,可在/etc/services下找到这个列表)
如果你编写了一个服务器,它的服务不在这个列表上,就选择一个比“1024”大,而且在你的机器上没有被占用的端口号,这样可以尽量避免和其他服务冲突(端口号最大可为65535)。
在linux上,只有系统管理员能请求访问一个小于1024的端口。
2)客户端端口号
客户端端口号不是很重要,通常,客户端会由操作系统随机挑选一个保证没有被使用的,被称为“短命”的端口号,当服务器收到一个连接请求的时候,请求中带有客户端的端口号,数据会被传输到该端口上。
1.3理解udp
用处:从一个系统向其他系统传送非常短的消息。
提供的保证:你收到的数据是完整的。它不能保证数据是否能被收到,也不能保证数据是不是只接收一次,还不能保证收到的信息次序是否和发送时候一样。
优点:因为不需要提供那些保证,所以要比tcp低级,而tcp建立和关闭连接要花费时间,而udp对连接没概念,所以不存在花费时间建立和关闭连接的问题。
实例:1)通常udp会用在客户端向服务器申请一个bit的信息,如果没有收到答复就会继续申请。用得最广的udp应用软件是dns系统。2)udp还常被用在流式的音频和视频应用软件,因为udp只是偶尔丢弃一个信息包,而tcp会过于严格地取出那些被丢弃的信息包,这样音频效果就会差很多。
使用地方:
1)不关心信息包是否到达或者不在意信息包到达的顺序是否正确,再或者你可以自己察觉这些问题且自己解决;
2)你的协议只包括基本请求和回答;
3)你需要尽快建立网络回话;
4)只传送很少一部分数据。udp的限制是一个信息包不超过64KB的数据,通常人们只用udp传送1KB以下的数据。
1.4理解物理传输和以太网
可在不同物理网络硬件间传送数据:以太网、端对端(PPP,Peer-Peer Protocol)拨号连接、令牌环连接、DSL连接、cable modems连接的网络、人造卫星连接、移动电话以及T1专线连接==>TCP/IP
以太网:可向本地网络所有的工作站广播信息包。==>可用来给一个服务做广告、向那些设计好的终端广播、向所有人的PC广播警告信息。
一个通过tcp/ip连接以太网的计算机有一个和该网络接口相关的ip地址。它与本网络的机器通信时,只要直接向该计算机发送消息就可以。如果要和网外的、在Internet上的其他机器通信,就必须把信息先发送到一个本地网络上的路由器,然后由路由器决定信息包该发向哪里。
为了知道哪些机器是本地的,哪些是远程的,网络软件会检查源计算机和目的计算机ip地址的头几位(最有效部分)是不是相同的。每个网络接口上都有网络掩码表明需要比较几位。如果比较失败了,说明开始的几位是不同的,那么信息包必须经过路由器。其他在范围之内的计算机利用广播或直接传输则可以直接到达。