Smali 语法解析——Hello World

通过上一篇文章的学习,我们都知道了 Java 代码是如何执行的。Java 编译器将 .java 源文件编译为 .class 字节码文件,JVM(Java虚拟机)将字节码解释为机器代码最终在目标机器上执行。而在 Android 中,代码是如何执行的呢 ?首先看下面这张图:

JVM VS DVM

这里的 DVM 指的是 DalviK VM 。在 Android 中,Java 类被打包生成固定格式的 DEX 字节码文件,DEX 字节码经过 Dalvik 或者 ART 转换为原生机器码,进而执行。DEX 字节码是独立于设备架构的。

Dalvik 是一个基于 JIT(即时)的编译引擎。使用 Dalvik 是有缺点的,因此从 Android4.4(kitkat)开始引入了 ART 作为运行时,从 Android5.0(Lollopop)开始就完全替代了 Dalvik。Android7.0 增加了一个即时型编译器,给 Android 运行时(ART)提供了代码分析,提升了 Android app运行时的表现。关于 Dalvik 和 Art 的具体分析,可以阅读我之前的一篇译文 走近 Android 运行时: DVM VS ART

上图中还可以看到,JVM 的执行是 Stack-based , 基于栈帧的,而 Dalvik 虚拟机是 Register-based,基于寄存器的。这点需要记住,在后面的 Smali 语法分析中很重要。说到 Smali,那么什么是 Smali呢?用过 apktool 的朋友肯定都不陌生,apktool d xxx.apk 反编译 apk 之后,生成的文件夹之中会有 smali 文件夹,里面就包含了该 apk 的所有代码,均以 .smali 文件形式保存。关于 Smali ,在 Android 官网中并无相关介绍,它应该出自 JesusFreke 的开源项目 smali,在 README 中是这样介绍的:

smali/baksmali is an assembler/disassembler for the dex format used by dalvik, Android's Java VM implementation.
The syntax is loosely based on Jasmin's/dedexer's syntax, and supports the full functionality of the dex format (annotations, debug info, line info, etc.)

大致翻译一下, smali/baksmali 是针对 dalvik 使用的 dex 格式的汇编/反汇编器。它的语法基于 Jasmin's/dedexer,支持 dex 格式的所有功能(注释,调试信息,行信息等等)。因此我们可以认为 smali 和 Dalvik 字节码文件是等价的。事实上,Apktool 也正是调用这个工程生成的 jar 包来进行反编译生成 smali 代码的。对生成的 smali 代码进行修改之后再重打包,就可以修改 apk 中的逻辑了。因此,能阅读 smali 代码对我们进行 android 逆向十分重要。

Smali 文件生成

下面仍然以之前的 Hello.java 为例:

public class Hello {

    private static String HELLO_WORLD = "Hello World!";

    public static void main(String[] args) {
        System.out.println(HELLO_WORLD);
    }
}

javac 生成 Hello.class 文件,然后通过 Sdk 自带的 dx 工具生成 Hello.dex 文件,命令如下:

dx --dex --output=Hello.dex  Hello.class

dx 工具位于 Sdk 的 build-tools 目录下,可添加至环境变量方便调用。dx 也支持多 Class 文件生成 dex。

dexsmali 使用的工具是 baksmali.jar ,最新版本是 2.2.5点击下载,使用命令如下:

java -jar baksmali-2.2.5.jar d hello.dex

执行完成后,会在当前目录生成 out 文件夹,文件夹内包含生成的 smali 文件。

Smali 详细解析

我们首先看一下生成的 Hello.smali 文件内容:

.class public LHello;
.super Ljava/lang/Object;
.source "Hello.java"


# static fields
.field private static HELLO_WORLD:Ljava/lang/String;


# direct methods
.method static constructor <clinit>()V
    .registers 1

    .prologue
    .line 3
    const-string v0, "Hello World!"

    sput-object v0, LHello;->HELLO_WORLD:Ljava/lang/String;

    return-void
.end method

.method public constructor <init>()V
    .registers 1

    .prologue
    .line 1
    invoke-direct {p0}, Ljava/lang/Object;-><init>()V

    return-void
.end method

.method public static main([Ljava/lang/String;)V
    .registers 3

    .prologue
    .line 6
    sget-object v0, Ljava/lang/System;->out:Ljava/io/PrintStream;

    sget-object v1, LHello;->HELLO_WORLD:Ljava/lang/String;

    invoke-virtual {v0, v1}, Ljava/io/PrintStream;->println(Ljava/lang/String;)V

    .line 7
    return-void
.end method

文件头

首先看一下文件头部分:

.class public LHello;       // 类名
.super Ljava/lang/Object;   // 父类名
.source "Hello.java"        // 源文件名称

.class 后面是 访问修饰符和当前类,这里类名用 LHello 表示。那么这个 L 代表什么呢?其实之前的 Class 文件中也出现过这种表示方法,JVM 的字节码指令和 Dalvik 的字节码指令有很多地方都是类似的。Java 中分为基本类型和引用类型,DalviK 对这两种类型分别有不同的描述方法。对于基本类型和 Void 类型,都是用一个大写字母表示。对于引用类型,使用字母 L 加上对象类型的全限定名来表示。具体规则如下表所示:

Java 类型 类型描述符
char C
byte B
short S
int I
long J
float F
double D
boolean Z
void V
对象 L
数组 [

基本类型的表示很简单,int 用 I 表示即可。对象的表示,如上图中父类 Object 的表示方法 Ljava/lang/Object;,再比如 String 类型,就用 Ljava/lang/String 表示。

对于数组,DalviK 有特殊的表示方法 [ 后面跟上数组元素的类型。int[] 的表示方式就是 [I, String[] 的表示方法是 [Ljava/lang/String;。二维数组用 [[ 表示,[[Ljava/lang/String 就是指 String[][],以此类推。

字段表示

# static fields
.field private static HELLO_WORLD:Ljava/lang/String;

smali 中的字段以 .field 开头,并有 # static field(静态字段) 或者 # instance field(实例字段) 的注释。.field 之后分别是 访问修饰符,字段名称,冒号以及字段类型描述符。这句 smali 就声明了一个 String 类型名称为 HELLO_WORLD 的私有静态字段。

方法表示

smali 中的方法以 .method 开头。Hello.smali 中包含了三个方法,clinit , initmain 方法。main 方法是我们自己编写的,而 clinitinit 方法则是 javac 编译时生成的。下面进行逐一分析:

clinit

.method static constructor <clinit>()V
    .registers 1

    .prologue
    .line 3
    const-string v0, "Hello World!"

    sput-object v0, LHello;->HELLO_WORLD:Ljava/lang/String;

    return-void
.end method

clinit 方法会进行静态变量的初始化,静态代码块的执行等操作,该方法在类被加载的时候调用。逐行分析该方法的执行逻辑:

  • .registers 1 : 该方法需要使用的寄存器数量。之前已经提到,DalviK VM 是基于寄存器的,字节码可以使用的虚拟寄存器个数可达 65536 个,每个寄存器 32 位,64 位的数据使用相邻两个寄存器表示。最终,所有的虚拟寄存器都会被映射到真实的物理寄存器上。一般情况下,我们使用字母 v 表示局部变量使用的寄存器,使用字母 p 表示参数所使用的寄存器,且局部变量使用的寄存器排列在前,参数使用的寄存器排列在后。这里就表示 clinit 方法仅使用了一个寄存器。

  • .prologue : 表示逻辑代码的开始处

  • .line 3 : 表示 java 源文件中的行数

  • const-string v0, "Hello World!" : 将字符串 Hello World! 的引用移到寄存器 v0 中。

  • sput-object v0, LHello;->HELLO_WORLD:Ljava/lang/String; : 前缀 ssputsget 指令用于静态字段的读写操作。将寄存器 v0 存储的字符串引用赋值给 HELLO_WORLD 字段,结合上一句字节码,这里完成了静态变量 HELLO_WORLD 的赋值工作,也验证了 clinit 方法的确进行了静态变量的初始化。

  • return-void : 表示该方法无返回值

  • .end method : 表示方法执行结束

到这里,clinit 方法就执行结束了。下面分析 init 方法。

init

.method public constructor <init>()V
    .registers 1

    .prologue
    .line 1
    invoke-direct {p0}, Ljava/lang/Object;-><init>()V

    return-void
.end method

其余各项与 clinit 方法相同,我们直接看执行的代码逻辑:

invoke-direct {p0}, Ljava/lang/Object;-><init>()V

invoke-direct 用于调用非 static 直接方法(也就是说,本质上不可覆盖的实例方法,即 private 实例方法或构造函数)。显然,这里调用的是默认构造函数。

main

.method public static main([Ljava/lang/String;)V
    .registers 3

    .prologue
    .line 6
    sget-object v0, Ljava/lang/System;->out:Ljava/io/PrintStream;

    sget-object v1, LHello;->HELLO_WORLD:Ljava/lang/String;

    invoke-virtual {v0, v1}, Ljava/io/PrintStream;->println(Ljava/lang/String;)V

    .line 7
    return-void
.end method

最后是 main 方法,从上述 smali 代码我们可以看到 main 方法使用了 3 个寄存器,无返回值(那是肯定的),执行的具体代码是下面三行:

sget-object v0, Ljava/lang/System;->out:Ljava/io/PrintStream;

sget-object v1, LHello;->HELLO_WORLD:Ljava/lang/String;

invoke-virtual {v0, v1}, Ljava/io/PrintStream;->println(Ljava/lang/String;)V

sget 的用法在 clinit 方法中解释过,表示静态字段的读取。第一句代码,获取类 System 的静态字段 out,其类型是 Ljava/io/PrintStream,并将其引用赋给寄存器 v0。第二句代码获取在 clinit
方法中已经初始化的静态字段 HELLO_WORLD,并将其引用赋给寄存器 v1。第三句中使用了 invoke-virtual 指令,invoke-virtual 调用正常的虚方法(该方法不是 private、static 或 final,也不是构造函数),之后通常会跟上 {}{}之中的第一个寄存器通常是指向当前实例对象,如 v0 就是指向 System.out 对象,后面的内容才是该方法真正的参数,如 v1{}, 之后就是要执行的方法的描述,如 Ljava/io/PrintStream;->println(Ljava/lang/String;)V ,指的就是 PrintStream 对象的 println 方法。综上,这三句字节码执行的就是 System.out.println(HELLO_WORLD);

到这里,Hello.smali 文件就解析完了。当然,我们在反编译过程中遇到的任何一个 smali 文件肯定都要比这个复杂的多。Android 官网也对 Dalvik 字节码的指令集进行了归纳,地址是 https://source.android.google.cn/devices/tech/dalvik/dalvik-bytecode。在阅读过程中遇到不熟悉的指令,都可以在这个页面进行查找。

最后再介绍一个 javasmali 的快捷方式,在 IDEA 或者 Android Studo 中安装插件 java2smali,在 Build 菜单栏下会出现 Compile to smali选项,可以迅速将 java 代码转化成 smali 代码。在我们学习 smali 的过程中,碰到不确定的内容,可以先写好 java 代码,再转成 smali 代码进行对照学习。

最后贴一个完整的带注释的 Hello.smali 文件:

.class public LHello;       // 类名
.super Ljava/lang/Object;   // 父类名
.source "Hello.java"        // 源文件名称


# static fields // 表示静态字段 private static String HELLO_WORLD
.field private static HELLO_WORLD:Ljava/lang/String;


# direct methods
.method static constructor <clinit>()V // clinit 方法
    .registers 1 // 使用一个寄存器 v0

    .prologue // 方法开始
    .line 3 // 源代码行数
    const-string v0, "Hello World!" // 将 "Hello World!"放入寄存器 v0

    // 静态字段赋值,将寄存器v0存储的值赋给 HELLO_WORLD 
    sput-object v0, LHello;->HELLO_WORLD:Ljava/lang/String; 

    return-void // 无返回值
.end method // 方法结束

.method public constructor <init>()V // init 方法
    .registers 1 // 使用一个寄存器

    .prologue // 方法开始
    .line 1
    invoke-direct {p0}, Ljava/lang/Object;-><init>()V // 调用构造方法

    return-void // 无返回值
.end method // 方法结束

.method public static main([Ljava/lang/String;)V // main 方法
    .registers 3 // 使用 3 个寄存器

    .prologue // 方法开始
    .line 6
    // 获取静态对象,System.out,其类型为 java.io.PrintStream,赋给 v0
    sget-object v0, Ljava/lang/System;->out:Ljava/io/PrintStream;
    // 获取静态对象, HELLO_WORLD,其类型为 java.lang.String,赋给 v1
    sget-object v1, LHello;->HELLO_WORLD:Ljava/lang/String;
    // 执行 v0 所存储的对象的 println() 方法,v1存储的是方法的参数
    invoke-virtual {v0, v1}, Ljava/io/PrintStream;->println(Ljava/lang/String;)V

    .line 7
    return-void // 无返回值
.end method // 方法结束

下一篇简单学习一些常见语法的 smali 学习,比如数学运算,if-else,循环,接口,内部类等等。传送门: Smali 语法解析——数学运算,条件判断和循环

文章同步更新于微信公众号: 秉心说 , 专注 Java 、 Android 原创知识分享,LeetCode 题解,欢迎关注!

green.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容