Facebook:BigGraph 中文文档-批预处理(PyTorch)

目录

图嵌入是一种从图中生成无监督节点特征(node features)的方法,生成的特征可以应用在各类机器学习任务上。现代的图网络,尤其是在工业应用中,通常会包含数十亿的节点(node)和数万亿的边(edge)。这已经超出了已知嵌入系统的处理能力。Facebook开源了一种嵌入系统,PyTorch-BigGraph(PBG),系统对传统的多关系嵌入系统做了几处修改让系统能扩展到能处理数十亿节点和数万亿条边的图形。

本系列为翻译的pytouch的官方手册,希望能帮助大家快速入门GNN及其使用,全文十五篇,文中如果有勘误请随时联系。

(一)Facebook开源图神经网络-Pytorch Biggraph

(二)Facebook:BigGraph 中文文档-数据模型(PyTorch)

(三)Facebook:BigGraph 中文文档-从实体嵌入到边分值(PyTorch)

(四)Facebook:BigGraph 中文文档-I/O格式化(PyTorch)

(五)Facebook:BigGraph 中文文档-批预处理

源链接:Batch Preparation - 批预处理

https://torchbiggraph.readthedocs.io/en/latest/batch_preparation.html


本节介绍了每一批次数据在损失的计算和优化前是如何准备和组织的。

训练通过循环嵌套来迭代处理边。扫描从外层到内层叫代(时期),代际间是相互独立并且过程基本一致,这样的目的是重复内部循环直到收敛。每代迭代会访问到所有的边,epochs的数目在num_epochs配置参数中指定。

译者注:

(1)batch: 1个batch代表深度学习算法一次参数的更新,所需要损失函数并不是由一个数据获得的,而是由一组数据加权得到的,这一组数据的数量叫batchsize;

(2)iteration:1个iteration等于使用batchsize个样本训练一次;

(3)epoch:1个epoch等于使用训练集中的全部样本训练一次,通俗的讲epoch的值num_epoch就是整个数据集被轮几次。

当迭代一个边集合时,每个分桶首先会被分割为大小相等的块:每个块由连续间隔的边构成(和存储在文件中的顺序一致),块的数量可以通过设置num_edge_chunks来调整。训练从所有桶的第一个块开始,然后第二个,以此类推。

然后算法开始迭代桶,训练桶的顺序依赖于配置文件中bucket_order这个配置项。除了随机排列之外,有一些方法用于尝试将训连续的桶之间共享一个分区:这让分区能够被重用,从而允许可以允许参数存储在内存中而不是先注销然后被另一个桶加载到自己的空间中(在分布式模式下,不同的训练器进程同时在桶上运行,因此迭代的管理方式不同)。

当训练器被固定了一个确定的桶和一个指定的快,边会最终磁盘上加载起来。当在训练中评估的时候,这些边的一个子集被保留(这个子集对所有的代都是一样的)。被保留的这些边会被均匀打散然后分为相等的部分。为了让训练过程中可以训练过程可以在同一时间并行进行,打散后的分片会放到一个分布式的处理池中处理Processes。这些子流程相互间不同步他们的计算或内存,我们叫 “Hogwild”  worker,这些节点worker的数据量通过workers参数来控制。

每个worker上训练边集合的方式取决于动态关系是否被用了。最简单的情况是边被分割到连续的batches(每个batch都和batch_size中配置指定的大小一样,除了最后一个可以略小一点),这样便可以对样本一批接一批顺序训练。

当动态关系没有被使用,也就是说损失的计算只能对一个边的集合中所有具有相同类型的边计算。因此,worker首先随机一个关系类型,选取的数量应该和样本池中同类型边的概率占比一致。然后采用手个batch_size大小的同类关系(如果剩下的样本不够),在训练池中删除掉这些样本并开始训练。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容