Text Clustering & BERT - The performance of BERT as data representation of text clustering

emmm..这个系列可能会有好几篇文章吧,用来弥补对黑色九月的无知..(3)

Subakti A, Murfi H, Hariadi N. The performance of BERT as data representation of text clustering[J]. Journal of big Data, 2022, 9(1): 1-21.

摘要导读

文本聚类是将给定文本分组的任务,以使得同一组中的文本将比来自不同组的文本更相似。手动对文本进行分组的过程需要大量的时间和劳动力。因此,利用机器学习实现文本的自动化分组是必要的。在传统的机器学习聚类算法中,常用的文本表示方法是TFIDF,但是TFIDF忽略了词在句子中的位置和上下文信息。随着NLP领域的快速发展,BERT模型可以生成包含句子中单词的位置和上下文信息的文本表示。本文的主要研究就是展示BERT和不同的特征提取方式以及不同正则化方式对于文本聚类的影响。

方法浅析

该研究重在验证不同的特征提取方式和正则化方式对文本聚类性能的影响。其方法流程图如下:

其中,TFIDF作为常用的文本表示方法这里就不赘述。主要关注BERT在研究中的作用。

BERT model can be used with two approaches which are feature-based approach and fine-tuning-based
approach.

在本文中,作者将其看作是一个基于特征的模块,也就是说,BERT只用于产生文本表示而不对其进行微调。这里需要指出的是,作者选用的是第11层的输出作为文本表示。一个包含25个token的句子将会被编码为一个(25, 768)的向量。并利用不同类型的特征提取和正则化方式将其转换为(1, 768)的句子文本表示。

针对BERT的特征提取包含Max-pooling和Mean-pooling两种方式。
(1)Max-pooling:给定包含n个token的文本,每个tokeni都被表示为768维的向量:

d代表BERT输出的特征维度,一般为768。最终的文本表示k是一个d维的向量,其第k维表示为:

(2)Mean-pooling:将得到的n个token的表示进行平均,第k维表示为:

得到的输出将会被输入到特征的正则化模块(用于保证稳定的性能),正则化模块包含了4种不同的策略:
(1)Identity normalization:恒等正则,f(h)=h
(2)standard normalization:标准化,\tilde{h}=\frac{h}{||h||}
(3)Layer normalization:层正则,\tilde{h}=\frac{h-\phi}{\sigma}\phi\sigma分别是特征表示h的均值和标准差。
(4)min–max normalization:最大最小正则用于将特征表示h缩放到0-1的范围之内。

随后得到的h作为句子的最终表示用于聚类任务。本文的聚类任务主要包含两种传统方法和两种深度聚类方法,

分别在3个文本数据集上展示了TFIDF和BERT与不同策略的组合对应的聚类性能。

在实验部分值得注意的一点是,使用了不同的正则化策略之后,使得文本之间的差异性增大,显然对无监督聚类任务来说是很友善的。

这篇论文将BERT在下游任务中的角色划分为“基于特征”和“基于微调”的方法两种。目前看到的三篇文本聚类的论文中,都将BERT视为“基于特征”的方法。换句话说,BERT仅仅作为一个特征表示的工具参与文本表示的阶段,而且在文本表示的阶段也是只依赖于BERT在预训练阶段的预料,忽略了当前需要聚类的数据集的特有文本特征。

本文的突出点在于对不同特征抽取方式和归一化方式的组合学习。通过大量的实验说明不同的聚类方法依赖于不同的特征表示方式,同时不同的特征表示和聚类方法其性能的上限也是有差异的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容

  • 1 为什么要对特征做归一化 特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常为[0,1]。常用的特征归...
    顾子豪阅读 1,303评论 0 1
  • 1 为什么要对特征做归一化 特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常为[0,1]。常用的特征归...
    顾子豪阅读 6,296评论 2 22
  • 矩阵分解 矩阵分解有哪些方法,分别是怎么做的 SVD在数据特别多时会产生什么问题,如何解决,PCA和SVD之间的区...
    欧文坐公交阅读 274评论 0 0
  • 本文介绍何恺明组在MAE后发表的两篇论文。使plain ViT更直接地适配下游检测任务,并比较了自监督预训练、监督...
    Valar_Morghulis阅读 1,916评论 0 1
  • 101.深度学习(CNN RNN Attention)解决大规模文本分类问题。 用深度学习(CNN RNN Att...
    大黄大黄大黄阅读 13,739评论 2 42