三种处理歧义性对象的学习框架:
-
多示例学习
从 输入空间,即内容表示上考察对象的歧义性。 -
多标记学
从输出空间,即概念标记上来考察对象的歧义性。 -
多示例多标记学习
从输入和输出两个空间同时考察对象的歧义性。
多标记学习
- 训练集中的每个示例均对应于一组概念标记,学习系统通过对多标记示例构成的训练集进行学习,以尽可能地正确预测训练集之外的示例的概念集合。
- 传统的二类以及多类分类学习问题可看作多标记学习问题的特例。一种直观的解决多标记学习问题的方法是将其分解为多个独立的二类分类问题求解,其中每个二类分类问题对应于一个可能的概念类。但该方法没有考虑到每个样本所对应概念标记之间的相关性,因而泛华性能不理想。
- 多标记学习问题的主要难点在于如何充分利用各训练样本所含多个概念标记之间的相关性,从而有效地预测未知样本的概念标记集合。
多标记学习问题求解的3类策略
1. “一阶”策略
通过逐一考察单个标记而忽略标记之间的相关性,如将多标记学习问题分解为q个独立的二类分类问题,从而构成多标记学习系统。
优点:效率高且实现简单
缺点:忽略了标机之间可能存在的相关性,系统的泛华性能较低。
2. “二阶”策略
该策略通过考察两两标记之间的相关性,如相关标记与无关标记之间的排序关系, 两两标记之间的交互关系等,从而构成多标记学习系统。
优点:在一定程度上考察了标机之间的相关性,因而泛化性能较优。
缺点:当真是世界问题中标记之间具有超越二阶的相关性时,该类方法的性能将会受到很大的影响。
3. “高阶”策略
通过考察高阶的标记相关性,如处理任一标记对其它所有标记的影响,处理一组随机标记集合的相关性等等,从而构成多标记学习系统。
优点:可以较好地反应真实世界问题的标记相关性
缺点:模型复杂度过高,难以处理大规模学习问题。