工作中会需要对一些有价值的网页、应用进行数据采集,那么采集前我们会对数据结构进行解析,因最近想采集一款APP的数据,过程中使用到了Charles,所以记录下使用的流程和心得。
Charles 简介
百科定义
是一个HTTP代理服务器,HTTP监视器,反转代理服务器,当浏览器连接Charles的代理访问互联网时,Charles可以监控浏览器发送和接收的所有数据。它允许一个开发者查看所有连接互联网的HTTP通信,这些包括request, response和HTTP headers(包含cookies与caching信息)。
主要功能
- 支持SSL代理。可以截取分析SSL的请求。
- 支持流量控制。可以模拟慢速网络以及等待时间(latency)较长的请求。
- 支持AJAX调试。可以自动将json或xml数据格式化,方便查看。
- 支持AMF调试。可以将Flash Remoting 或 Flex Remoting信息格式化,方便查看。
- 支持重发网络请求,方便后端调试。
- 支持修改网络请求参数。
- 支持网络请求的截获并动态修改。
- 检查HTML,CSS和RSS内容是否符合W3C标准。
以上简介来自百度百科:Charles
简而言之,Charles是个网络封包截取工具,方便移动开发者调试与服务端的通信。
Charles 安装
下载
Charles 是收费软件,可以免费试用 30 天,目前最新的版本是4.2,官网下载。
破解
原则上不支持破解,但文章还是提供下破解流程:
- Mac版,安装后先打开Charles一次
- 下载破解文件 charles.jar
- 替换掉原文件夹里的charles.jar
- Mac: /Applications/Charles.app/Contents/Java/charles.jar
- Windows: C:\Program Files\Charles\lib\charles.jar
- 破解完成,重新启动Charles
更多版本破解相关内容可参考:Charles破解注册
Charles 界面
界面简介
Charles 主要提供两种查看封包的视图,分别名为 “Structure” 和 “Sequence”。
- Structure 视图将网络请求按访问的域名分类。
- Sequence 视图将网络请求按访问的时间排序。
对于某一个具体的网络请求,你可以查看其详细的请求内容和响应内容。
请求内容无论是 post 表单、json 格式或图片,都可以在Contents中进行查看。
Charles 使用
Step-1: 设置Charles系统代理
Charles 是通过将自己设置成代理服务器来完成封包截取的,当启动 Charles 后,第一次 Charles 会请求给它设置系统代理的权限。你可以输入登录密码授予 Charles 该权限。你也可以忽略该请求,然后在需要将 Charles 设置成系统代理时,选择菜单中的 “Proxy” > “Mac OS X Proxy” 来将 Charles 设置成系统代理。
设置为系统代理后,点击 “Proxy” > “Sart Recording”开始记录,你通过浏览器请求的网址都会出现在这里,如下图。
Step-2: 设置Host过滤
通常我们会只监控指定目录服务器上发送的请求,那么在这么多请求中,我们就需要进行过滤,几种过滤方法如下:
- Sequence 视图下在界面的中部的 Filter 栏中填入需要过滤出来的关键字。例如我们的服务器的地址是:shimo.im 那么只需要在 Filter 栏中填入 shimo 即可。
- 在 Charles 的菜单栏选择 “Proxy” > ”Recording Settings”,然后选择 Include 栏,选择添加一个项目,然后填入需要监控的协议,主机地址,端口号。这样就可以只截取目标网站的封包了。如下图所示:
通常情况下,我们使用方法一做一些临时性的封包过滤,使用方法二做一些经常性的封包过滤。
- 在想过滤的网络请求上右击,选择 “Focus”,之后在 Filter 一栏勾选上 Focussed 一项,这种方式可以临时性的,快速地过滤出一些没有通过关键字的一类网络请求。如下图所示:
那么,通过以上方法就可以截取本机的网络封包了,若要截取一款APP的数据,接着往下看。
Step-3: 截取移动设备上的封包
我们以iphone为例,讲解在移动设备上的抓包操作。
Charles 上的设置
设置代理服务器:要截取 iPhone 上的网络请求,我们首先需要将 Charles 的代理功能打开。在 Charles 的菜单栏上选择 “Proxy” > ”Proxy Settings”,填入代理端口,默认是 8888,这个只要不和其他程序的冲突即可,并且勾上 “Enable transparent HTTP proxying” ,如下图所示:
iPhone 上的设置
首先,我们需要获取 Charles 运行所在电脑的 IP 地址,Charles 的顶部菜单的 “Help” > ”Local IP Address”,即可在弹出的对话框中看到 IP 地址,如下图所示:
首先使手机和电脑在一个局域网内,不一定非要是一个ip段,只要是同一个路由器下就可以了。
在 iPhone 的 “ 设置 “ > ” 无线局域网 “ 中,可以看到当前连接的 wifi 名,通过点击右边的详情键,可以看到当前连接上的 wifi 的详细信息,包括 IP 地址,子网掩码等信息。在其最底部有 “HTTP 代理” > “配置代理” 一项,我们将其切换成手动,然后填上 Charles 运行所在的电脑的 IP,以及端口号 8888,如下图所示:
设置好之后,我们打开 iPhone 上的任意需要网络通讯的程序,就可以看到 Charles 弹出 iPhone 请求连接的确认菜单(如下图所示),点击 “Allow” 即可完成设置。
截取 Https 通讯信息
至此,你就可以监控手机的网络封包了,但若要截取和解析Https协议相关的内容。那么需要安装 Charles 的 CA 证书。具体步骤如下:
安装证书
首先我们需要在 Mac 电脑上安装证书。点击 Charles 的顶部菜单,选择 “Help” > “SSL Proxying” > “Install Charles Root Certificate”,然后输入系统的帐号密码把证书“Charles Proxy CA”证书设置为始终信任,即可在 KeyChain 看到添加好的已授信的证书。如下图所示:
设置截取Https
Charles 并不默认截取 Https 网络通讯的信息,可以通过以下操作设置,截取某个网站上的所以Https网络请求:
- 选择 “Proxy” > “SSL Proxying Settings”,可设置要截取的的网站。若Host和Port设置为“*”,则默认截取所有网络请求的Https信息。
- 如果你想截取某个网站上的所有 Https 网络请求,可以在该请求上右击,选择 Enable SSL Proxying,如下图所示:
这样,对于该 Host 的所有 SSL 请求就可以被截取到了。
- 如果我们需要在 iOS 或 Android 机器上截取 Https 协议的通讯内容,还需要在手机上安装相应的证书。点击 Charles 的顶部菜单,选择 “Help” > “SSL Proxying” > “Install Charles Root Certificate on a Mobile Device or Remote Browser”,然后就可以看到 Charles 弹出的简单的安装教程。如下图所示:
按之前流程中我们在手机上设置好 Charles 为代理后,在手机浏览器中访问上图地址:chls.prp/ssl,即可打开证书安装的界面进行安装。
安装完证书后,可以在”设置 > 通用 > 描述文件“ 中看到证书详情。
证书安装完成后,还需要在“设置 > 通用 > 关于本机 > 证书信任设置” 中开启信任 Charles Proxy CA 证书,完成后就可以截取手机上的 Https 通讯内容了。
总结
通过以上流程我们就可以使用Charles对网页、APP进行网络封包的截取,从而对抓取到的内容进行分析,本次使用的目的是解析截取到的请求内容后用爬虫进行数据采集。
从APP截取到的请求内容是更加结构化的数据,便于爬虫进行数据采集。封包数据中,部分加密片段可进行反编译分析,同时Charles可自动解密gzip压缩或者base64编码的数据,若没有任何加密处理则请求内容会直接暴露如下图:
所以,服务端的请求做验证处理是非常必要的安全措施。同时,很多有价值的数据是产品非常核心的竞争力,产品经理也应该有意识的对恶意数据采集进行产品设计上的防范。
如图,有做验证的网络封包显示为“unknown”,Charles无法截取请求内容。
以上就是本文所有的内容,Charles有还有更多的功能请参考 唐巧的技术博客,本文很多配置流程参考于该博客,感谢!本文基于Charles 4.2 最新版的使用进行整理,希望对你有帮助,若文章内容有误,欢迎指正。
还有,有能强势破解APP进行数据采集的大牛,快来刷新我的认知!