论文来源:AAAI2018
本文的创新点:standard attention does not model structural dependencies that exist in sentences. 在遇到复杂表达时,过去的attention机制可能会产生错误。本文增加了与conditional random field(CRF)相似的一层,为了捕获句子中的结构化依赖,而RNN只能获取到序列的隐含结构信息。本文模型的另一个特点是可以在decoding step将opinion expressions显式的获取。
BiLSTM+CRF这种方法应该经常用于NER任务。本文在输入的时候用01二维向量标注出哪个是aspect term,经过BiLSTM计算的隐状态输入到CRF层,该层用于预测序列,应该是与该aspect相关的情感词汇都会被标注为1,最终将输出为1的这些隐状态求和用于softmax计算。
这里的数据集不是是手工标注的,是模型自己学习的。例如 Service is quite terrible 输出应该就是 0 0 1 1。
文章第二页有指出来,只是在验证模型时,用模型输出的结果与人工标注的进行对比:
As our model extracts opinions without explicit supervision, to understand the quality of the extracted opinions, we then conduct some qualitative analysis by comparing the extracted opinions with the manually annotated opinions