一、Tika 简介
1. 基本介绍
Tika是一个具有内置解析器用于处理各种文档类型的程序框架。该框架公布了标准的API供应用程序调用并完成从文档中提取文本和元数据,内置解析器会在后台通过外部程序提供的API与之交互。这使得你的应用程序能够针对不同的文档类型使用相同的API。当程序需要从文档中提取文本时,Tika会找到相应的解释器。
简单来说,tika是Apache下开源的文档处理工具,支持多种格式文件的内容解析,主要功能包括文档类型检测、内容提取、元数据提取、语言检测。
2. tika支持的文件类型
二、安装和使用 Tika
1.安装Tika
1.1配置java环境
tika的使用前提是计算机已经有java SDK的环境,如果没有可以百度java SDK安装教程;安装好后在命令行中检测java环境
java -version
验证后结果如图,即java环境已经安装配置好
1.2下载Tika
下载Tika的源代码[Mirrors for tika-1.18-src.zip]和Tika的jar包[Mirrors for tika-app-1.18.jar]
配置Tika环境: 将tika-app-1.18.jar的完整路径加入到环境变量CLASSPATH中。
2.Tika的使用
2.1 查看Tika的选项信息
java -jar tika-app-1.18.jar --help
2.2 使用Tika的GUI界面
java -jar tika-app-1.18.jar --gui
出现该界面后,直接拖拽文件到GUI界面即可,在左上角的view可以选择格式,可以解析成六种格式。
2.3 使用Tika的命令行(以一个Word文档为例)
输出为纯文本:
java -jar tika-app-1.18.jar -t 1.docx
输出json格式的元数据:
java -jar tika-app-1.18.jar -j 1.docx