用机器学习检测Android恶意代码

参考资料

本代码是参考乌云上的一篇文章实现的,链接如下:http://wooyun.jozxing.cc/static/drops/mobile-13428.html
,实现了它关于特征提取的想法,如果有理解的不妥的地方,请大家帮忙指出。
代码的github地址(其实这篇博文就是该仓库中的README):
https://github.com/DQinYuan/AndroidMalwareWithN-gram

原理

原理就不详细讲了,我参考资料中给的链接已经说得很清楚了,我就说一说原文中说得不是很清楚,我自己进行了一些揣摩理解的地方。

我以method作为单位进行提取,每个method看成互不相关的“句子”。以3-gram为例,如果method中的指令数目小于3的话则忽略该method。

原文按照一定的标准将指令分为MRGITPV七类,我按照Android4.1.2源码下的dalvik-bytecode.html对其进行了整理,所有的字节码到其分类的映射规则都位于/infrastructure/map.py文件中。

看原文的意思似乎最后的特征是通过汇总每种n-gram在app中出现的次数得到的,但是我思考了一下,如果app规模的大小相差很大的,这么做似乎不是很妥,因为规模大的app的指令出现数量自然应该倾向于比较多,比如我手头里的样本,恶意样本的规模大多都比较小,而良性样本的规模大多都很大,所以这里最终提取的特征是按照每种n-gram是否出现,如果出现过就为1,不出现就为0。我认为这样会更加合理的原因是,恶意软件往往都不是从头开始写的,大多数应该都是通过重用以前的代码而实现的,通过判断一种恶意n-gram是否出现应该能有一定的恶意软件鉴别效果。

如何运行

本软件是基于python3.6开发的,反汇编使用的工具是apktool,我已经将其放在了本仓库的根目录下,唯一的依赖是pandas,如果还没有安装的话,请使用pip install pandas安装。

首先在clone下来的目录下新建/smalis/malware和/smalis/kind两个文件夹(这两个是存放反汇编结果的目录)。

然后打开batch_disasseble.py,将27行的virus_root变量的值改成自己电脑上存放恶意软件apk样本根目录,32行的kind_root变量的值改成自己电脑上存放正常apk样本的目录,然后按照以下顺序执行命令即可(或者直接执行run.bat,里面写的就是这些命令):

python batch_disasseble.py
python bytecode_extract.py
python n_gram.py 6
python n_gram.py 5
python n_gram.py 4
python n_gram.py 3
python n_gram.py 2

​  其中batch_disasseble.py是用于反汇编apk的;

​ python bytecode_extract.py执行结束后会在当前目录生成一个data.csv,这个是在n-gram处理之前的特征,data.csv由SoftwareName,Feature,isMalware三个字段组成,分别代表软件名称,特征和是否恶意软件(是为1,不是为0),其中Feature字段是该app的所有操作码(被分为了MRGITPV七类表示),其中用"|"分隔不同的method。

python n_gram.py后面接的参数的含义就是n-gram中的n,命令运行结束之后会在当前目录生成一个n-gram.csv文件,比如python n_gram.py 2,命令执行结束后就会在当前目录生成一个2-gram.csv文件。

这些脚本我已经用自己手头上的样本运行过一遍了,本仓库根目录下的data.csv(因为超过了github限制的最大文件限制,所以没有上传),6_gram.csv(同样的原因没有上传),5_gram.csv,4_gram.csv,3_gram.csv,2_gram.csv就是我在那些样本上提取的特征。

仓库中的数据说明

5_gram.csv,4_gram.csv,3_gram.csv,2_gram.csv前600个样本是恶意样本,后面583个样本是良性样本

软件模块

概述:batch_disasseble.py,bytecode_extract.py,n_gram.py是三个可以直接执行的脚本,/infrastructure下的模块全部是给这些脚本提供一些封装好的基础设施,比如smali解析等等。

batch_disasseble.py:将恶意apk从指定目录反汇编到/smalis/malware/目录下,将良性apk从指定目录反汇编到/smalis/kind/目录下的脚本

bytecode_extract.py:将字节码从smali文件中提取出来并映射成其分类,最终存储到当前目录下的data.csv的脚本

n_gram.py:将data.csv提取n_gram特征转换成n_gram.csv的脚本

infrastructure.map:我在这里配置了所有字节码到MRGITPV分类的映射关系

infrastructure.smali:Smali类的每个实例代表一个smali文件,用于封装解析smali文件的逻辑

infrastructure.ware:Ware类的实例代表一个安卓app,该类的实例会包含多个Smali实例,这些Smali实例都是从该app反汇编得到的smali文件得到的

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,681评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,710评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,623评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,202评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,232评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,368评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,795评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,461评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,647评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,476评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,525评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,226评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,785评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,857评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,090评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,647评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,215评论 2 341

推荐阅读更多精彩内容