Android 根据文件头获取准确file类型

最近在项目中需要判断从网络上下载下来的文件类型,方法有 :
1、根据header中content-type字段类型来指定下载的文件类型,缺点:如果是未知服务器无法保证字段准确性;
2、根据文件后缀名称,缺点:还不够严格(有可能手动修改后缀名称),
3、使用根据读取头文件部分内容与标准格式文件对比,即可准确判断文件类型,这里可以读取3个字节,或者10个字节,缺点:文件类型可能不全

根据文件头获取准确file类型的代码具体如下:

import android.annotation.SuppressLint;
import android.content.Context;
import android.text.TextUtils;
import com.huawei.hms.framework.common.IoUtils;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.util.Iterator;
import java.util.Properties;

public class FileTypeUtils {

protected static final String MIMETYPES_PROPERTIES = "FileTypes.properties";
protected static Properties mFileTypes;
private static FileTypeUtils fileTypeUtils;

private FileTypeUtils(Context context) {
    try {
        mFileTypes = new Properties();
        mFileTypes.load(context.getAssets().open(MIMETYPES_PROPERTIES));
    } catch (Exception e) {
        e.printStackTrace();
    }
}

public static FileTypeUtils getInstance(Context appContext) {
    if (fileTypeUtils == null) {
        fileTypeUtils = new FileTypeUtils(appContext);
    }
    return fileTypeUtils;
}

public String getFileType(File file) {
    if (file == null) {
        return null;
    }
    if (!file.exists() || file.length() < 11) {
        return null;
    }
    String header = get10ByteHeader(file);
    String fileSuffix = mFileTypes.getProperty(header);
    /*
     * 优化处理:在不同的设备上同样类型的文件,文件头前面内容未必一致,可能只有前几个一致,后面就不同了
     * (例如:jpg类型文件,在不同手机上,lennovo k900前10个是一致的,但是MI3只有前5个字符一致,后面是不一样的,所有一些情况进行特殊处理)当整个头文件失败后,
     * 在进行前5个字符截取对比处理,优化具体如下:
     */
    if (TextUtils.isEmpty(fileSuffix)) {

        Iterator keyList = mFileTypes.keySet().iterator();
        //并不是所有的文件格式前10 byte(jpg)都一致,前五个byte一致即可
        String key, keySearchPrefix = header.substring(0, 5);
        while (keyList.hasNext()) {
            key = (String) keyList.next();
            if (key.contains(keySearchPrefix)) {
                fileSuffix = mFileTypes.getProperty(key);
                break;
            }
        }
    }

    //前5个字符截取对比处理没有找到,则进行特殊处理
    if (TextUtils.isEmpty(fileSuffix)) {
        header = get3ByteHeader(file);
        fileSuffix = mFileTypes.getProperty(header);
    }

    return fileSuffix;
}

public String getFileType(byte[] bytes) {
    if (bytes == null || bytes.length < 11) {
        return null;
    }

    String header = bytesToHexString(subarray(bytes, 0, 10));
    String fileSuffix = mFileTypes.getProperty(header);
    /*
     * 优化处理:在不同的设备上同样类型的文件,文件头前面内容未必一致,可能只有前几个一致,后面就不同了
     * (例如:jpg类型文件,在不同手机上,lennovo k900前10个是一致的,但是MI3只有前5个字符一致,后面是不一样的,所有一些情况进行特殊处理)当整个头文件失败后,
     * 在进行前5个字符截取对比处理,优化具体如下:
     */
    if (TextUtils.isEmpty(fileSuffix)) {
        Iterator keyList = mFileTypes.keySet().iterator();
        //并不是所有的文件格式前10 byte(jpg)都一致,前五个byte一致即可
        String key, keySearchPrefix = header.substring(0, 5);
        while (keyList.hasNext()) {
            key = (String) keyList.next();
            if (key.contains(keySearchPrefix)) {
                fileSuffix = mFileTypes.getProperty(key);
                break;
            }
        }
    }

    //前5个字符截取对比处理没有找到,则进行特殊处理
    if (TextUtils.isEmpty(fileSuffix)) {
        header = bytesToHexString(subarray(bytes, 0, 3));
        fileSuffix = mFileTypes.getProperty(header);
    }

    return fileSuffix;

}

public byte[] subarray(final byte[] array, int startIndexInclusive, int endIndexExclusive) {
    if (array == null) {
        return null;
    }
    if (startIndexInclusive < 0) {
        startIndexInclusive = 0;
    }
    if (endIndexExclusive > array.length) {
        endIndexExclusive = array.length;
    }
    final int newSize = endIndexExclusive - startIndexInclusive;
    if (newSize <= 0) {
        return new byte[0];
    }

    final byte[] subarray = new byte[newSize];
    System.arraycopy(array, startIndexInclusive, subarray, 0, newSize);
    return subarray;
}

@SuppressWarnings("deprecation")
private String get10ByteHeader(File file) {
    InputStream input = null;
    String value = null;
    try {
        input = new FileInputStream(file);
        byte[] b = new byte[10];
        input.read(b, 0, b.length);
        value = bytesToHexString(b);
    } catch (Exception e) {
    } finally {
        IoUtils.closeSecure(input);
    }
    return value;
}

@SuppressWarnings("deprecation")
private String get3ByteHeader(File file) {
    InputStream input = null;
    String value = null;
    try {
        input = new FileInputStream(file);
        byte[] b = new byte[3];
        input.read(b, 0, b.length);
        value = bytesToHexString(b);
    } catch (Exception e) {
    } finally {
        IoUtils.closeSecure(input);
    }
    return value;
}

private String bytesToHexString(byte[] src) {
    StringBuilder stringBuilder = new StringBuilder();
    if (src == null || src.length <= 0) {
        return null;
    }
    for (int i = 0; i < src.length; i++) {
        int v = src[i] & 0xFF;
        String hv = Integer.toHexString(v);
        if (hv.length() < 2) {
            stringBuilder.append(0);
        }
        stringBuilder.append(hv);
    }
    return stringBuilder.toString();
}

}

在assets资源目录下新建properties文件,命名为:“FileTypes.properties”

# 常见文件头信息(该文件中的文件头需要为大写)

#JPEG (jpg)
FFD8FFE000104A464946=jpg
#PNG (png)
89504E470D0A1A0A0000=png
#GIF (gif)
47494638396126026F01=gif
#TIFF (tif)
49492A00227105008037=tif
#16色位图(bmp)
424D228C010000000000=bmp
#24位位图(bmp)
424D8240090000000000=bmp
#256色位图(bmp)
424D8E1B030000000000=bmp
#CAD (dwg)
41433130313500000000=dwg
#HTML (html)
3C21444F435459504520=html
#HTM (htm)
3C21646F637479706520=htm
#css
48544D4C207B0D0A0942=css
#js
696B2E71623D696B2E71=js
#Rich Text Format (rtf)
7B5C727466315C616E73=rtf
#Photoshop (psd)
38425053000100000000=psd
#Email [Outlook Express 6] (eml)
46726F6D3A203D3F6762=eml
#MS Excel 注意:word、msi 和 excel的文件头一样
D0CF11E0A1B11AE10000=doc
#Visio 绘图
D0CF11E0A1B11AE10000=vsd
#MS Access (mdb)
5374616E64617264204A=mdb
252150532D41646F6265=ps
#Adobe Acrobat (pdf)
255044462D312E350D0A=pdf
#rmvb/rm相同
2E524D46000000120001=rmvb
#flv与f4v相同
464C5601050000000900=flv
00000020667479706D70=mp4
49443303000000002176=mp3
000001BA210001000180=mpg
#wmv与asf相同
3026B2758E66CF11A6D9=wmv
#Wave (wav)
52494646E27807005741=wav
52494646D07D60074156=avi
#MIDI (mid)
4D546864000000060001=mid
504B0304140000000800=zip
526172211A0700CF9073=rar
235468697320636F6E66=ini
504B03040A0000000000=jar
#可执行文件
4D5A9000030000000400=exe
#jsp文件
3C25402070616765206C=jsp
#MF文件
4D616E69666573742D56=mf
#xml文件
3C3F786D6C2076657273=xml
#sql文件
494E5345525420494E54=sql
#java文件
7061636B616765207765=java
#bat文件
406563686F206F66660D=bat
#gz文件
1F8B0800000000000000=gz
#bat文件
6C6F67346A2E726F6F74=properties
CAFEBABE0000002E0041=class
49545346030000006000=chm
04000000010000001300=mxp
#docx文件
504B0304140006000800=docx
#WPS文字wps、表格et、演示dps都是一样的
D0CF11E0A1B11AE10000=wps
6431303A637265617465=torrent

#Quicktime (mov)
6D6F6F76=mov
#WordPerfect (wpd)
FF575043=wpd
#Outlook Express (dbx)
CFAD12FEC5FD746F=dbx
#Outlook (pst)
2142444E=pst
#Quicken (qdf)
AC9EBD8F=qdf
#Windows Password (pwl)
E3828596=pwl
#Real Audio (ram)
2E7261FD=ram

#五字节文件头对应关系

255044=PDF
526563=EML
D0CF11=PPT
4D5AEE=COM
E93B03=COM
4D5A90=EXE
424D3E=BMP
49492A=TIF
384250=PSD
C5D0D3=EPS
0A0501=PCS
89504E=PNG
060500=RAW
000002=TGA
60EA27=ARJ
526172=RAR
504B03=ZIP
495363=CAB
1F9D8C=Z
524946=WAV
435753=SWF
3026B2=WMV
3026B2=WMA
2E524D=RM
00000F=MOV
000077=MOV
000001=MPA
FFFB50=MP3
234558=m3u
3C2144=HTM
FFFE3C=XSL
3C3F78=XML
3C3F78=MSC
4C0000=LNK
495453=CHM
805343=scm
D0CF11=XLS
31BE00=WRI
00FFFF=MDF
4D4544=MDS
5B436C=CCD
00FFFF=IMG
FFFFFF=SUB
17A150=PCB
2A5052=ECO
526563=PPC
000100=DDB
42494C=LDB
2A7665=SCH
2A2420=LIB
434841=FNT
7B5C72=RTF
7B5072=GTD
234445=PRG
000007=PJT
202020=BAS
000002=TAG
4D5A90=dll
4D5A90=OCX
4D5A50=DPL
3F5F03=HLP
4D5A90=OLB
4D5A90=IMM
4D5A90=IME
3F5F03=LHP
C22020=NLS
5B5769=CPX
4D5A16=DRV
5B4144=PBK
24536F=PLL
4E4553=NES
87F53E=GBC
00FFFF=SMD
584245=XBE
005001=XMV
000100=TTF
484802=PDG
000100=tst
414331=dwg
D0CF11=max

#特殊情况下的文件头

#images
FFD8FF=jpg
89504E47=png
47494638=gif
49492A00=tif
424D=bmp
#CAD
41433130=dwg
38425053=psd
7B5C727466=rtf
3C3F786D6C=xml
68746D6C3E=html
44656C69766572792D646174653A=eml
D0CF11E0=doc
5374616E64617264204A=mdb
252150532D41646F6265=ps
255044462D312E=pdf
504B0304=zip
52617221=rar
57415645=wav
41564920=avi
2E524D46=rm
000001BA=mpg
000001B3=mpg
6D6F6F76=mov
3026B2758E66CF11=asf
4D546864=mid
1F8B08=gz
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容