设计网站信息架构必须了解的叙词表、受控词表以及元数据(上)

叙词表、受控词表、以及元数据

元数据和受控词表是一组迷人的镜头,可以让你看见系统间的关系。
在很多采用元数据的大型网站中,受控词表是把系统粘在一起的黏胶。后端的叙词表则能让前端的用户感受到更无暇且令人满意的体验。

元数据

“关于数据的数据”
对数据处理而言,元数据是一种用于定义的数据,能够提供其他被某种应用软件或环境所管理的数据的相关信息或者说明。

元数据可以为数据说明其元素或属性(名称、大小、数据类型,等)
或者其记录或结构(长度、字段、数据列,等)
或者其相关数据(位于何处、如何联系、拥有者,等)

元数据可能包含描述性信息,说明数据的情境、质量或状态,或者特征。

善用内容管理软件受控词表,就能够建立动态的、由元数据驱动的网站,而且支持分布式内容创作方式,以及有力的导航方式。这种元数据驱动的模式,完全改变了网站构建和管理的方式。
我们不再问“我要把文件归类在何处?”
我们现在可以问“我要怎么样描述这份文件?”

受控词表

最模糊的说法:受控词表是任何一组自然语言的子集;
最简单的说法
受控词表是一份等价术语清单,按同义词环圈的形式排列;
或者是一份优选术语清单,存储在规范文档中。

定义术语之间的等级关系(如上位类、下位类),就有了分类体系;
建立概念之间关联的模型,就是在做叙词表

几种不同受控词表及其关系


2017-12-11-22-22-08.jpg

同义词环圈

同义词环圈把一组定义为等价关系的词汇链接起来,以供搜索之用。
事实上,这些词通常不是真正的同义词
很多情况下,通过检查搜索日志,或者和用户交流,你会发现不同的人在寻找同样的东西时,会使用不同的术语。比如描述“笔记本”,也可能会说“本子”、“笔记”、“记事本”、“notebook”等等。这种情况下,如果没有优选术语,那么就应该善用搜索引擎建立同义词环圈,把这组等价术语放到文本文件中,当用户输入其中一个词汇给搜索引擎时,就拿这个词汇和文本文件进行比较。如果找到该词汇,则查询就会“扩展”,将同义词环圈中的其他术语也包含进来。

比较直观的例子就是电商平台,如在某宝上搜索“词汇一”,同时系统也会问你,是不是再找“词汇二”、“词汇三”……即可以实现我们常说的“模糊搜索”。

善用同义词环圈能够给用户带来惊喜般的搜索体验,但同样也会带来问题:如果查询属于的拓展是在幕后进行,用户看见一些结果并没有包含其关键词时,就会感到困惑。这里会涉及到两个概念:
查准率:结果集内文件的相关性;
查全率:结果集内相关文件和系统中所有相关文件的比值;
同时具备较高的查准率和查全率,是最理想的,但对于信息检索领域而言,二者很难兼得。同义词环圈可以大幅改善检索,在小型数据库中,可以增加20%-80%的查全率,但会降低查准率。
良好的界面设计以及对用户的目标有了解时,可以帮助我们达到最佳平衡。例如:你可能要默认要使用同义词环圈,但是,规定精准匹配的关键词结果要放在搜索结果清单的顶端。或者,最初的搜索可以忽略同义词环圈,但是提供选项,在结果稀少或者无结果时,可以“拓展搜索包含相关术语”。

规范文档

精准地讲,规范文档放的就是一份优选术语或可接受的清单,不含有词形变化或同义词。
事实上,规范文档通常包含优选术语和异形术语。换句话说,规范文档也是同义词环圈,其中是将术语定义成优选术语或可接受的值。
如以下一条记录,选自美国邮政服务公司为美国各州定义的名称使用规范文档:
CT Connecticut, Conn, Conneticut, Constitution State
其中,首个词“CT”为优选术语,其后的词为异形术语

规范文档对内容作者和索引者而言都是有用的工具,可以让他们有效且一致地使用众所认可的属于。此外,从受控词表管理的角度来看,优选术语可以视为每一组等价术语中的唯一标识,这样对异形术语进行新增、删除和修改时会更有效率。

当时当用户从搜索换成浏览模式时,如果展示所有的同义词、缩写、简写,以及每个术语常见的错误拼法,则会让整个画面变乱而影响用户体验,此时可以通过建立等价术语之间的指针来解决,及A“见”B的方式,这种指针的应用也称为“术语轮排”。

叙词表

这里所谓的叙词表是整合在网站或企业网络内,用以改善导航和搜索效果。
叙词表是一种概念的语义网络,把词汇和同义词、同音异义词、反义词、上位类术语和下位类术语,以及相关关系术语连接起来。
传统的叙词表可以帮助我们从一个词找到好多个词。但这里的叙词表要做的事恰好相反,其最终要的目标是同义词管理,把许多同义词或异形术语对应到某个优选术语或概念上,使得语言的模糊性不会妨碍用户找到他们所需要的东西。

叙词表构建在较简单的受控词表之上,建立这三种基本类型的语义关系模型。
每一个优选术语都是其自身语义网络的中心。


2017-12-11-23-16-58.jpg

等价关系是同义词管理的焦点;
等级关系是把优选术语分类成类别和子类别;
相关关系是提供有意义的连接,而这有意义的连接,并非由等级关系或等价关系处理。
这三种关系对信息搜索和导航而言,在很多方面都很有意义。

未完待续……

技术行话

叙词表实例

叙词表的种类

叙词表标准

语义关系

优选术语

复合式等级体系

分面分类法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容

  • 本文主要为《WEB信息架构 :构建大型网站》读书笔记。书本内容有点晦涩,但对系统性理解信息架构很有帮助,我尽量找了...
    Minus阅读 4,919评论 0 14
  • 信息架构的意义 提供可寻性可用性,将杂乱无章的信息归纳分类、排序,方便他人浏览。 信息架构师工作流程简介 设计结构...
    怪蜀黍机器人阅读 1,692评论 0 1
  • 第一章 1.1 信息组织的环境与背景 信息检索工具的变化 手工检索时代:目录、题录、索引等。 计算机检索时代:各种...
    倾启君阅读 2,310评论 0 9
  • 一、什么是信息架构设计? 从信息流的角度来看产品,产品设计是完成“数据—>信息—>知识—>智慧”的这个传递链。信息...
    Andy_DDD阅读 5,927评论 1 12
  • 【青豆鱼骨】话说一根鱼骨含钙3毫克选用上等鱼骨精致而成含钙高是小孩孕妇老人补钙佳品,开罐即食,搭配香酥的青豆,香脆...
    罗兰sign阅读 398评论 0 0