概述
具体流程参考维基百科简体中文语料的提取,在实际操作时遇到了一些问题(macOS 10.14)在此记录下来。
一、维基语料的下载
下载地址参见:维基语料下载地址。语料很大但囿于墙,下载速度很慢,用梯子了以后速度得到了极大地改善。同时注意下载压缩包以后,无需解压缩,通过工具可对语料进行提取。
二、利用Wikipedia Extractor提取语料
Wikipedia Extractor可用于对下载的Wikipedia dump压缩包进行语料提取,详细介绍可参考其主页,主页中的下载链接如下所示:
不建议采用第一个链接,其所使用的Python版本过老(<Python 3.5),运行时会遇到很多库引用的问题。建议使用第二个链接,将WikiExtractor.py代码复制到一个Python文件中即可。
进行提取时执行下列语句即可:
python WikiExtractor.py -b 500M -o output_filename input_filename.bz2
三、繁体中文到简体中文转换
使用opencc下载地址下载解压,可参考MacOSX安装OpenCC实现繁体字转简体字进行安装。首先命令行cd进入解压后的文件夹内,然后输入:
make PREFIX=/usr/local
sudo make PREFIX=/usr/local install
如果编译过程当中报错,就应该是gcc-c++之类的问题,通过mac的brew来安装gcc或者其他环境即可。
但是我遇到的问题主要有:
- cmake: command not found
- Could NOT find Doxygen (missing: DOXYGEN_EXECUTABLE)
针对这两个问题,1. 直接到cmake下载链接找到对应版本下载即可,同时可参考Mac安装CMake进行配置使用。2.
brew install doxygen
解决后,重新回到上面安装opencc的步骤即可。安装成功后,将生成的语料(wiki00)放入opencc解压后的文件夹,执行下列命令,完成繁简转换:
opencc -i input_filename -o output_filename -c t2s.json