第三章 语料库的基本技术
第一部分 语料库检索的目的和检索类别
简单检索
以AntCone为例
简单检索中,word是检索项的准确形式查询,如同同时选择Case,软件会区别大小写。在regex模式下,凡是包含所查找部分的单词都会被搜索出来。 所以在regex模式下,适合检索词缀。
简单检索中的通配符
1.*text 匹配text, context, pretext. (0或多个字符)
2. text+ 匹配text和texts (0或1个字符)
3.b?d 匹配bad,bed,bid等 (1个字符)
4.in@case 匹配in case, in the case, in any case (0或1个词)
5.in#case 匹配 in this case, in that case, in any case等 (1个词)
6.text|texts 匹配text和texts (或者)
利用好通配符可以在简单检索中定义检索项,例如:
?*_VB*@?_V?N 检索被动语态
复杂检索
1)了解赋码文本的规律,主要以TreeTagger和CLAWS为例
a.观察词汇相关的语言现象时分析生文本更方便,但观察语法属性时使用赋码文本更方便。
b.每一个形符(包括词和标点符号)后都带有赋码,形符和赋码之间形成一个“词_码”结构;而相邻的“词_码” 结构间有一个空格。
c.词性赋码器在赋码的同时对文本进行了分词和断句。
d.不同词性赋码器所使用的整套代码存在较大的差异性,且代码的总数也不相同。代码集被称为(tagset).
e.一般来说,每一个词性赋码由2至4个字母数字或其他符号构成,这些符号具有很强层级体系,第一个符号可以看出词类。
2)在AntCone中利用正则表达式进行复杂检索
在对赋码文本进行检索时,应抓住赋码的层级特点,充分利用正则表达式中的常量和变量。