字体反爬(十八)

一、字体反爬的概述

目前字体反爬的网站是猫眼,汽车之家,天眼查,起点中文网,58同城等等。还有:https://www.shixiseng.com/

  • 字体反爬是一种反爬的手段,它是通过web设计师利用CSS3的自定义字体的新特性来自定义的字体(在浏览器的源代码中是看不到正正的字,因为字是由乱码形式出现的)。
  • 当浏览器会下载字体信息,然后动态渲染,在html页面源码中,你看到的不再是正常字符或者是unicode,而是网站使用的自定义编码形式显示的字体。

二、字体反爬出现的现象举例

访问网址:https://bj.58.com/qzyewu/?PGTID=0d202409-0000-1aa8-92da-777b90a7dc73&ClickID=1

  • 使用谷歌浏览器访问58人才网,可以看到页面正常显示的文字,在开发者调试模式中是不能正常显示的。
  • 查看源码,会发现它是类似unicode的编码。

三、自定义字体及其复原

  • 查看元素的css,果然使用了自定义的字体样式。
  • 左键点击字体引用,发现字体信息就在当前页面的style标签中,经过观察发现是一个base64编码的数据。
  • 创建字体文件,字体文件中是二进制数据。复制在源代码中的base64编码数据,转换成二进制数据,解码后写入字体文件中。
def make_font_file(base64_string):
    """
    创建字体文件(new.ttf)
    :param base64_string: 页码base编码数据
    :return: 二进制数据
    """
    bin_data = base64.decodebytes(base64_string.encode())
    with open('new.ttf', 'wb') as f:
        f.write(bin_data)
    return bin_data
  • 打开及处理字体文件,需要用到FontCreator软件工具下载地址。可以利用它来打开ttf字体文件,查看每个字符对应的编码。
  • 打开后可以看到“生”的编码,跟html源码中的编码一致(字符编码为ea35对应”生“)。

四、字体文件分析

  • 通过多次请求页面观察发现字体文件中的字体和字符编码都没变,变的只是它们之间的对应关系(即字符编码对应的字体不同而已)
  • 对于分析字体文件,需要使用到一个专门处理字符文件的python第三方库fontTools库,利用它可以将字体文件转换成xml文件进行分析。
  • 安装:
pip install fonttools
  • 基本使用:
from fontTools.ttLib import TTFont
font = TTFont('new.ttf')
# 将解码的字体文件保存为xm格式
font.saveXML("new.xml")

font = TTFont('old.ttf')
# 将解码的字体文件保存为xm格式
font.saveXML("old.xml")
  • 打开这个xml文件,它的结构如下
  • 这里我们主要使用到GlyphOrderglyf两个元素节点,其中GlyphOrder是编码序号表,glyf是图元数据,也就是字体轮廓定义。

注意:发现虽然字符编码会不停的变换,但是每个字的图元是固定不变的,也即是字体形状是不变的。所以可以通过比较图元信息来判断两个编码是否表示同一个字符。

  • 如下可得知不同的字体文件中,当不同的字符编码对应相同字体时,字体对应的坐标是相同的。
    (1)old.xml中uniF773字符编码对应的字体1。
    (2)new.xml中uniE6D4字符编码对应的字体1。
    (3)所以可得知当字体相同时,其<contour></contour>标签显示的坐标是一样的。还有xml文件和html文件一样可以通过标签取到相应的元素。
    (4)代码示例:
import base64
from fontTools.ttLib import TTFont


def make_font_file(base64_string):
    bin_data = base64.decodebytes(base64_string.encode())
    with open('new.ttf', 'wb') as f:
        f.write(bin_data)
    return bin_data
# 你看看你自己写的代码
# old 里用了new.ttf
old_font = TTFont('old.ttf')
new_font = TTFont('new.ttf')

# 为啥要这么写?它不能迭代
# for i in old_font['glyf']:
#     print(i)
#old_font['glyf']是不可以迭代的
print(old_font.getGlyphOrder())
print(old_font['glyf']['uniF773'] == new_font['glyf']['uniE6D4'])

五、字体反爬的解决步骤

经过上面的分析总结如下步骤:

    1. 首先下载一个字体文件作为基准,根据这个文件生成一个基准的编码和文字的映射。
    1. 访问页面,拿到字体数据
    1. 解码字体数据,生成字体文件
    1. 根据已有的基准字体文件和映射生成新的编码文字映射
      主要是把新生成的new.xml文件中每个字符编码对应的字体详细信息取出来,再到基准字体文件中的每个字符编码对应的字体详细信息进行对比,如果发现相同,就把基准字体文件中字符编码对应的字体作为(映射)新生成字体文件中字符编码所对应的值。
    1. 替换数据中的编码,形成新的表。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,393评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,790评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,391评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,703评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,613评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,003评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,507评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,158评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,300评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,256评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,274评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,984评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,569评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,662评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,899评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,268评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,840评论 2 339

推荐阅读更多精彩内容

  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 11,076评论 1 32
  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,067评论 0 9
  • 一. Java基础部分.................................................
    wy_sure阅读 3,780评论 0 11
  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,704评论 0 10
  • 英语学习,可能在中国的教育体系里,一直都是一个难题吧。反正我学了很多年英语之后,依然觉得这是一个难题。 在没有放假...
    秋之川阅读 155评论 1 2