[KDD之行] 实体提取+TensorFlow+频繁模式

我的KDD之行 实体提取+TensorFlow+频繁模式

  1. 了解KDD
    ACM SIGKDD 国际会议(简称 KDD)是由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办的数据挖掘研究领域的顶级年会。它为来自学术界、企业界和政府部门的研究人员和数据挖掘从业者进行学术交流和展示研究成果提供了一个理想场所。本届KDD涵盖了特邀主题演讲(keynote presentations)、论文展板展示(poster sessions)、研讨会(workshops)、短期课程(tutorials)、专题讨论会(panels)、展览(exhibits)、系统演示(demonstrations)、KDD CUP 赛事以及开闭幕式等多项内容。

  2. 了解加拿大
    2017年正直加拿大150周年生日,加拿大的各大景点都开展150周年主题的旅游活动,甚至所有国家公园对所有游人免票,所以今年出国加拿大去班芙国家公园是一个很好的选择。加拿大的官方语言是英语、法语,主要的旅游城市有多伦多、蒙特利尔、卡尔加里等。在多伦多,有个尼日加拉瀑布城是以尼日加拉瀑布为核心的旅游城市,尼亚加拉瀑布(Niagara Falls)位于加拿大安大略省和美国纽约州的交界处,瀑布源头为尼亚加拉河,主瀑布位于加拿大境内,是瀑布的最佳观赏地。

  3. 了解哈里法克斯
    哈利法克斯(Halifax),加拿大新斯科舍省的首府,是加拿大大西洋地区的主要经济中心。本次KDD选在哈利法克斯的世界贸易和会议中心举行。

  4. 我的KDD行程
    8.12 Registration
    8.13 AM 8:00-12:00
    Tutorials:T1 Mining Entity-Relation-Attribute Structures from Massive Text Data
    8.13 PM 1:00-5:00
    Tutorials:T7 Recent Advances in Feature Selection: A Data Perspective
    **8.14 AM 8:00-12:00 **
    Workshop:W1 Mining and Learning from Time Series
    8.14 PM 1:00-5:00
    Workshop:W2: Big Data, IoT Streams and Heterogeneous Source Mining
    **8.15 AM 8:00-12:00 **
    Keynote:Bin Yu ThreePrinciples of Data Science: Predictability,Stability, and Computability
    KDD Exhibit Hall
    8.15 PM 1:00-5:00
    China Chapter Meeting
    8.16 AM 8:00-12:00
    KDD Business Lunch
    8.16 PM 1:00-5:00
    KDD Cup Workshop
    RT8: Representations
    KDD Panel:The Future of Artificially Intelligent Assistants
    8.17 AM 8:30-12:00
    Hands On Tutorial: TensorFlow

下面我将选讲Tutorials T1 Mining Entity-Relation-Attribute Structures from Massive Text Data、Hands On Tutorial: TensorFlow以及开幕式上裴健博士的演讲《Pattern Mining Introspection and Prospective》(模式挖掘的回顾与展望)。

  1. Tutorials:T1 Mining Entity-Relation-Attribute Structures from Massive Text Data
本次教程是从混合文本数据中,挖掘提取实体、关系和属性(ERA)结构。该讲座主要有四个部分,包括:简介、通过短语挖掘进行实体提取、类型化实体和关系、元模式驱动的属性挖掘、从文本中发现结构的应用探索、总结和未来方向。
相关论文:Automatic Entity-Relation-Attribute Structure Mining from Massive Text Data. Jingbo Shang, Xiang Ren, Meng Jiang, Jiawei Han. Computer Science, University of Illinois at Urbana-Champaign. August 11, 2017 
5.1 简介
  • 从大量文本数据中挖掘结构
    由于大约80%的数据是非结构化的文本数据,因此需要建立从大量文本数据中挖掘结构的任务。

  • 知识图谱
    在知识图谱中,有三个比较重要的概念,分别是实体、关系和属性。

  • 结构挖掘

  • 一个产品案例:TripAdvisor利用NLP从评论文本中挖掘结构化的因子

  • 一个搜索案例:面向集合和实体感知的生物医学文献搜索系统

  • 为什么要把文本结构化
    结构化的搜索和探索、图挖掘和网络分析、因子分类构造、结构化的特征生成

  • 现有技术:利用领域专家知识提取结构

  • 本次课程:从混合文本语料中自动挖掘结构
    实现各领域应用的快速开发。
    提取复杂的结构,而不引入额外的人力。

  • 自动的定义:
    自动的就是最小化人工参与
    仅仅使用存在的通用知识库,而没有任何其他人工参与

  • 自动化结构挖掘的方法论

    屏幕快照 2017-08-23 下午4.04.53.png
    屏幕快照 2017-08-23 下午4.04.53.png

    接下来的四个部分将会介绍着四个主要的关键研究成果。

    5.2 通过短语挖掘进行实体提取

  • 定义:优质的短语挖掘

    从大规模文档集合中按照质量递减的顺序挖掘短语

  • 那么什么样的短语是“优质的”呢

    1. 频繁(Popularity)
    2. 一致(Concordance)
    3. 有信息的(Informativeness)
    4. 完整(Completeness)
  • 监督学习方法(语言学分析)

    语法树、分块

  • 无监督学习方法(统计信号)

    限制1:􀂉应慎重选择阈值
    限制2:只考虑了满足要求的优质短语的子集
    限制3:􀂉以无监督的方式组合不同的信号是困难的

  • 半/弱监督学习方法

    SegPhrase、AutoPhrase

    5.3 类型化实体和关系

  • 限制:1.一个实体对应多个含义;2.不同实体可能对应同一个含义

  • CoType

    5.4 元模式驱动的属性挖掘

  • 相关论文
  • Meng Jiang, Jingbo Shang, Taylor Cassidy, Xiang Ren, Lance Kaplan, Timothy Hanratty and Jiawei Han, “MetaPAD: Meta Patten Discovery from Massive Text Corpora”, in Proc. of 2017 ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (KDD’17), Halifax, Nova Scotia, Canada, Aug. 2017
  • 定义:属性挖掘

    5.5 从文本中发现结构的应用探索

  • 应用1:语义搜索

  • 应用2:反面新闻

  • 应用3:关键短语筛选

  • 应用4:实体扩展

    5.6 总结和未来方向

  1. Hands On Tutorial: TensorFlow

Github Repository: tensorflow-workshop

在example目录下,包含本次教程的8个文件。

  • 00_test_install.ipynb
    测试安装环境,numpy>=1.12.1,jupyter,matplotlib,pandas,Pillow,tensorflow>=1.3.0
  • 01_linear_regression_low_level.ipynb
    对模拟数据进行线性回归,并利用TensorBoard进行可视化计算图和相关变量。
  • 02_logistic_regression_low_level.ipynb
    对MNIST数据进行逻辑回归,准确率大于90%
  • 03_deep_neural_network_low_level.ipynb
    对MNIST数据进行深度全连接网络训练,准确率大于97%
  • 04_canned_estimators.ipynb
    对MNIST数据使用Estimators来简化数据、会话、可视化操作,准确率大于97%
  • 05_custom_estimators.ipynb
    对MNIST数据使用Estimators的tf.layers来自定义网络结构,准确率大于97.5%
  • 06_convolutional_neural_network.ipynb
    对MNIST数据使用Estimators的tf.layers定义CNN网络,准确率大于99%
  • 07_structured_data.ipynb
    对UCI的Adult数据使用Datasets API and Estimators,进行DataFrame的结构化数据操作
  1. KDD 2017 Opening Session:Pattern Mining Introspection and Prospective

    • 前序:啤酒和尿布的故事
      什么样的产品组合是顾客频繁一起购买的?
      频繁模式:在数据集中频繁出现的组合
      是数据集探索的一个自然的任务
    • 频繁模式的应用
      在商店中利用频繁模式对商品布局优化
      在web搜索中对于频繁的关键词进行推荐
      在化工设计中的频繁子图
      在社交网络中的频繁结构
      在自然语言处理和理解中的频繁路径
    • Aprioir算法:候选集的生成和测试
    • Apriori算法的提升
      主要的观点:1.减少扫描的次数;2.加速候选集的匹配和计数;3.减少候选集的数量
      典型的方法:基于hash的技术,事务约简,分隔,采样,动态项目集计数
    • 突破:FP-Growth
      数据压缩:聚焦搜索;数据投影:无候选集生成;有约束的频繁模式挖掘
    • 其他的深度优先搜索算法
      树投影(C. Aggarwal),垂直形式TID集合遍历(M.J. Zaki)
    • PrefixScan:挖掘序列模式
    • 频繁图模式
      挑战:如何有效枚举结构模式?如何有效构建映射数据集?
      在图数据库中频繁图挖掘
      在大规模图中生成频繁子图实例
    • 关联图挖掘 On mining Cross-Graph Quasi-Cliques, KDD, 2004
    • 为什么频繁模式挖掘是重要的?
      许多应用:客户分析、推荐、软件bug检测、事件检测、图像和多媒体数据挖掘、化学和生物应用
      促进了其他主要的数据挖掘任务:分类、聚类、异常值检测、web挖掘
      索引和检索:频繁模式作为特征
    • 利用频繁模式进行分类
      如果一个频繁模式X与类C有很强的关联性,那么X->C提供了一个很强的分类能力
      CBA(基于分类的关联)
      CMAR(多分类关联规则)
      DPClass(判别式基于模式的分类)
    • 利用频繁模式进行聚类 MaPle, ICDM 2003
    • 基于三维模式的聚类
      Mining Coherent Gene Clusters from Three-Dimensional Microarray Data, KDD 2004, Best Application Paper Award Runner-up
    • 在Web搜索中频繁模式的应用
      Context-Aware Query Suggestion by Mining Click-Through and Session Data, KDD 2008, Best Application Paper Award
    • 颠覆:深度学习
      高准确率、高鲁棒性、适合大规模高维度数据集
    • 存在的挑战
      普遍性:深度学习要求大量的数据来泛化、解释性、
      探索:深度模型擅长回答问题不擅长解决开放性问题
    • 基于模式的思考
      模式:数据的总结和概况:一个模式是一个局部模型
      很好的解释性;对于探索和思考很好的工具
      模式的组合可能生成深度模型:强有力的证据和见解, 深度森林 [Zhi-Hua Zhou et al., IJCAI 2017]
    • 一个根本的挑战
      想法:深度模型+模式
    • 模式挖掘和深度模型的结合
      是否能够同时取得更高的准确率和更好的解释性?
      想法:从深度模型中学习
      • 将特征空间分为多个局部区域;
      • 估计深度模型非线性的决策边界,通过从一些模式中分段学习线性决策边界
    • 结论
      模式和模式挖掘已经被证明是有意义并且实用的
      模式挖掘适用于数据
      模式挖掘对于数据科学和数据探索是一个基本的工具
关于作者:如有问题请联系 xzhren@pku.edu.cn
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,440评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,814评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,427评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,710评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,625评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,014评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,511评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,162评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,311评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,262评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,278评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,989评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,583评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,664评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,904评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,274评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,856评论 2 339

推荐阅读更多精彩内容

  • 看见了吗?
    合肥小王008阅读 188评论 0 0
  • 秋 文||与你相识 从远远的风中 你已吹进骨骼 那些变色的叶 已经准备好了归航 所有的庄稼 都已经饱满 一个轮回的...
    与你相识_40fa阅读 225评论 1 4
  • 1.冒泡排序算法 1.比较相邻的元素。如果第一个比第二个大,就交换他们两个。2.对每一对相邻的元素作同样的工作,从...
    梦见君笑阅读 374评论 0 3
  • 我们大多数人都会有完美主义倾向,在想做一件事情之前,就在心中描绘一个完美的蓝图,然后当自己开始去践行的时候,就会被...
    刻意练习社区阅读 635评论 1 1