updater_basemaker-inl.h

class BaseMaker: public TreeUpdater {
    TrainParam param; //训练参数
    vector<int> qexpand; //queue of nodes to be expanded
    vector<int> node2workindex; //map active node to its working index offset in qexpand, can be -1, which means the node is node actively expanding
    vector<int> position; //position of each instance in the tree, can be negative, which means this position is no longer expanding, see also Decode/EncodePosition

    struct FMetaHelper { //采集feature的元数据
      vector<float> fminmax; //大小为2*num_feature,偶数位存某个feature最大值
      int Type(int fid); //返回指定feature的数据类型,0为空,1为binary,2为real
      float MaxValue(int fid); //返回指定feature的最大值
      SampleCol(float p, vector<int> *p_findex); //根据概率p,从所有的feature中随机sample出p*num_feature个,存在p_findex中
    }

    //helper for row-based data
    int NextLevel(RowBatch &inst, RegTree &tree, int nid); //nid是树中Node的编号,inst是一条sample,根据Node上的split信息返回左树还是右树
    int get_nthread(); //返回线程数

    //gpair是一阶和二阶导数,fmat是数据
    void InitData(vector<gpair> &gpair,DMatrix &fmat,RegTree &tree) {
      //setup position,position的大小等于gpair的size
      //fmat.info.root_index是每个sample的当前index,用它来初始化position
      //mark delete for the deleted datas
      if (gpair[i].hess < 0.0f) position[i] = ~position[i]; //如果二阶导数为负,position设为负
      //mark subsample,如果要对数据进行sample,根据伯努利分布采样,没采样到的position设为负
      // expand query,将树中待处理节点放入队列,可以并行处理
      for (int i = 0; i < tree.param.num_roots; ++i) {
        qexpand.push_back(i);
      }
      this->UpdateNode2WorkIndex(tree); //更新Tree node到queue index的映射
    }
    
    //update queue expand add in new leaves,遍历queue中对应的tree node,如果不是leaf,则将左树和右树加入queue
    void UpdateQueueExpand(RegTree &tree);

    //return decoded position,rindex是数据的index
    int DecodePosition(int ridx) {
      pid = position[ridx]; //tree中node的位置
      return pid < 0 ? ~pid : pid;  //如果pid为负,表示此node不再expand
    }
    //encode the encoded position value for ridx,nid是正整数,如果当前position是负,则设为~nid
    void SetEncodePosition(int ridx, int nid);

    //this is helper function uses column based data structure to reset the positions,根据树结构,把新的数据放在树中
    //nodes: the set of nodes that contains the split to be used
    //p_fmat: feature matrix needed for tree construction
    void ResetPositionCol(vector<int> &nodes,DMatrix *p_fmat,RegTree &tree) {
      SetNonDefaultPositionCol(nodes, p_fmat, tree);
      SetDefaultPostion(p_fmat, tree);
    }
    //helper function to set the non-leaf positions to default direction. 把不能分到leaf上的数据(比如missing value)分配到default的方向
    void SetDefaultPostion(DMatrix *p_fmat, RegTree &tree);

    //helper function uses column based data structure to CORRECT the positions of non-default directions that WAS set to default before calling this function.
    //batch: The column batch
    //sorted_split_set: The set of index that contains split solutions.
    void CorrectNonDefaultPositionByBatch(ColBatch& batch,vector<int> &sorted_split_set,RegTree &tree);
    
    //helper function uses column based data structure,从给定的nodes中获取split的feature id的集合
    //nodes: the set of nodes that contains the split to be used
    //out_split_set: The split index set
    void GetSplitSet(vector<int> &nodes,RegTree &tree, vector<unsigned>* out_split_set);

    //helper function uses column based data structure,update all positions into nondefault branch, if any, ignore the default branch
    void SetNonDefaultPositionCol(vector<int> &nodes,DMatrix *p_fmat,RegTree &tree) {

    //helper function to get statistics from a tree
    void GetNodeStats(vector<bst_gpair> &gpair, DMatrix &fmat, RegTree &tree, vector<vector<TStats>> *p_thread_temp, vector<TStats> *p_node_stats)

    //common helper data structure to build sketch,构建sketch
    struct SketchEntry {
      //total sum of amount to be met
      double sum_total;
      //statistics used in the sketch
      double rmin, wmin;
      //last seen feature value
      float last_fvalue;
      //current size of sketch
      double next_goal;
      //pointer to the sketch to put things in
      WXQuantileSketch<float, float> *sketch;
      
      // initialize the space
      void Init(max_size);

      //push a new element to sketch
      //fvalue: feature value, comes in sorted ascending order
      //w: weight
      void Push(float fvalue, float w, unsigned max_size);
      //更新node2workerindex
      void UpdateNode2WorkIndex(RegTree &tree) {
    }
}


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容