叙词表、受控词表、以及元数据
元数据和受控词表是一组迷人的镜头,可以让你看见系统间的关系。
在很多采用元数据的大型网站中,受控词表是把系统粘在一起的黏胶。后端的叙词表则能让前端的用户感受到更无暇且令人满意的体验。
元数据
“关于数据的数据”
对数据处理而言,元数据是一种用于定义的数据,能够提供其他被某种应用软件或环境所管理的数据的相关信息或者说明。
元数据可以为数据说明其元素或属性(名称、大小、数据类型,等)
或者其记录或结构(长度、字段、数据列,等)
或者其相关数据(位于何处、如何联系、拥有者,等)
元数据可能包含描述性信息,说明数据的情境、质量或状态,或者特征。
善用内容管理软件受控词表,就能够建立动态的、由元数据驱动的网站,而且支持分布式内容创作方式,以及有力的导航方式。这种元数据驱动的模式,完全改变了网站构建和管理的方式。
我们不再问“我要把文件归类在何处?”
我们现在可以问“我要怎么样描述这份文件?”
受控词表
最模糊的说法:受控词表是任何一组自然语言的子集;
最简单的说法:
受控词表是一份等价术语清单,按同义词环圈的形式排列;
或者是一份优选术语清单,存储在规范文档中。
定义术语之间的等级关系(如上位类、下位类),就有了分类体系;
建立概念之间关联的模型,就是在做叙词表
几种不同受控词表及其关系
同义词环圈
同义词环圈把一组定义为等价关系的词汇链接起来,以供搜索之用。
事实上,这些词通常不是真正的同义词。
很多情况下,通过检查搜索日志,或者和用户交流,你会发现不同的人在寻找同样的东西时,会使用不同的术语。比如描述“笔记本”,也可能会说“本子”、“笔记”、“记事本”、“notebook”等等。这种情况下,如果没有优选术语,那么就应该善用搜索引擎建立同义词环圈,把这组等价术语放到文本文件中,当用户输入其中一个词汇给搜索引擎时,就拿这个词汇和文本文件进行比较。如果找到该词汇,则查询就会“扩展”,将同义词环圈中的其他术语也包含进来。
比较直观的例子就是电商平台,如在某宝上搜索“词汇一”,同时系统也会问你,是不是再找“词汇二”、“词汇三”……即可以实现我们常说的“模糊搜索”。
善用同义词环圈能够给用户带来惊喜般的搜索体验,但同样也会带来问题:如果查询属于的拓展是在幕后进行,用户看见一些结果并没有包含其关键词时,就会感到困惑。这里会涉及到两个概念:
查准率:结果集内文件的相关性;
查全率:结果集内相关文件和系统中所有相关文件的比值;
同时具备较高的查准率和查全率,是最理想的,但对于信息检索领域而言,二者很难兼得。同义词环圈可以大幅改善检索,在小型数据库中,可以增加20%-80%的查全率,但会降低查准率。
良好的界面设计以及对用户的目标有了解时,可以帮助我们达到最佳平衡。例如:你可能要默认要使用同义词环圈,但是,规定精准匹配的关键词结果要放在搜索结果清单的顶端。或者,最初的搜索可以忽略同义词环圈,但是提供选项,在结果稀少或者无结果时,可以“拓展搜索包含相关术语”。
规范文档
精准地讲,规范文档放的就是一份优选术语或可接受的清单,不含有词形变化或同义词。
事实上,规范文档通常包含优选术语和异形术语。换句话说,规范文档也是同义词环圈,其中是将术语定义成优选术语或可接受的值。
如以下一条记录,选自美国邮政服务公司为美国各州定义的名称使用规范文档:
CT Connecticut, Conn, Conneticut, Constitution State
其中,首个词“CT”为优选术语,其后的词为异形术语
规范文档对内容作者和索引者而言都是有用的工具,可以让他们有效且一致地使用众所认可的属于。此外,从受控词表管理的角度来看,优选术语可以视为每一组等价术语中的唯一标识,这样对异形术语进行新增、删除和修改时会更有效率。
当时当用户从搜索换成浏览模式时,如果展示所有的同义词、缩写、简写,以及每个术语常见的错误拼法,则会让整个画面变乱而影响用户体验,此时可以通过建立等价术语之间的指针来解决,及A“见”B的方式,这种指针的应用也称为“术语轮排”。
叙词表
这里所谓的叙词表是整合在网站或企业网络内,用以改善导航和搜索效果。
叙词表是一种概念的语义网络,把词汇和同义词、同音异义词、反义词、上位类术语和下位类术语,以及相关关系术语连接起来。
传统的叙词表可以帮助我们从一个词找到好多个词。但这里的叙词表要做的事恰好相反,其最终要的目标是同义词管理,把许多同义词或异形术语对应到某个优选术语或概念上,使得语言的模糊性不会妨碍用户找到他们所需要的东西。
叙词表构建在较简单的受控词表之上,建立这三种基本类型的语义关系模型。
每一个优选术语都是其自身语义网络的中心。
等价关系是同义词管理的焦点;
等级关系是把优选术语分类成类别和子类别;
相关关系是提供有意义的连接,而这有意义的连接,并非由等级关系或等价关系处理。
这三种关系对信息搜索和导航而言,在很多方面都很有意义。
未完待续……