BERTopic
- doc2vec (sentence BERT)
- doc_emb reduce dimension (UMAP)
- clustering to generate topics (HDBSCAN)
-
find key words for every topic (class TF-IDF)
UMAP
属于降维技术
核心思想是在高纬度空间相近的点在低纬度空间也应该相近,反之亦然。
涉及到:
- 计算每个点跟其他点的similar_score 加和等于 log2(neighbor_num)
- 根据t分布调整点与点之间的相对位置
核心参数是临近neighbor的个数,需要调参。
具体参考视频:https://www.youtube.com/watch?v=eN0wFzBA4Sc
HDBSCAN 层次密度聚类
自动聚类 不需要像k-means指定类簇个数
- Estimate the densities
- Pick regions of high density
- Combine points in these selected regions