大纲
- 根据字段的值将文档分组;
- 创建聚合流水线(aggregation pipeline)
- 使用聚合流水线来操作结果
- 创建包含reduce 和 finalize函数的映射-归并(map reduce)操作
- 使用映射-归并将一组文档归并为特定形式
MongoDB的强大功能之一是,能够在服务端对文档的值执行复杂的操作,
以生成全新的数据集。这让您能够返回这样的数据集,
即它们基于存储于数据库中的文档,但格式截然不同。
这样做的优点是,可在服务器端完成处理, 而不用先将文档发送给客户端。
可以达到,可以在服务端生成不同格式的数据,以返回给客户端。
分组方法:group()语法如下:
group({key,reduce,initial,[keyf],[cond],finalize}
参数说明:
参数 | 值类型 | 描述 |
---|---|---|
keys | 文档对象 | 一个指定要根据哪些键进行分组的对象, 其属性为要用于分组的字段。例如,要根据文档的字段first和last进行分组,可使用{key:{first:1,last:1}} |
cond | query对象 | 可选参数,这是一个query对象,决定了初始结果集将包含哪些文档。如何要包含字段size的值大于5的文档,可使用{cond:{size:{$gt:5}}} |
initial | 文档对象 | 一个包含初始字段和初始值的初始group对象,用于在分组期间聚合数据。对于每组不同的键值,都将创建一个初始对象。最常见的情况是,使用一个计数器来跟踪与键值匹配的文档数。例如:{initial:{"count":0}} |
reduce | 函数 | 一个接受参数obj和prev的函数(短小精悍(obj,prev)),对于每个与查询匹配的文档,都执行这个函数。其中参数obj为当前文档,而prev是根据参数initial创建的对象。这让你能够根据obj来更新prev,如计数或累计。例如,要将计数递增,可使用{reduce:function(obj,prev){prev.count++}}. |
finalize | 函数 | 一个接受唯一参数obj的函数(function(obj)),这个参数是对与每个键值组合匹配的最后一个文档执行reduce函数得到的,对于每个键值组合,都将对其使用reduce函数得到的最终对象调用这相函数,然后以数组的方式返回结果。 |
keyf | 可选,function | 用于替代参数key,可以不指定其属性为分组字段的对象,而指定一个函数,这个函数返回一个用于分组的key对象。这让你能够使用函数动态地指定要根据哪些键进行分组。 |
集合方法
MongoDB的一大扰点是, 能够装数据库查询结果聚合成完全不同于原始集合的结构 。MongoDB 集合框架相当杰出,简化了使用一系列操作来处理数据,以生成非凡结果的流程;
MongoDB数据集合是它的一个提高性能的一个重要亮点,值的重点研究学习
理解方法aggregate()
语法如下:
aggregate( operator, [operator], [....])
**注意在MongoDB 2.6+的版本后, 针对aggregate()的方法返回结构进行了调整, 即直接返回一个包含聚合结果的迭代器。如下代码:
results = myCollection.aggregate(....);
results.forEach(function(item){
....
};
aggregate()方法中使用的聚合运算符如下
运算符 | 描述 |
---|---|
$project | 通过重命名,添加或删除字段来重新定议文档。您还可以重新计算值以及添加子文档。例如,下面的示例包含字段title并排除字段name:{$project:{title:1,name:0}};下面的示例如将字段name重命名为title:{$project:{title:"$name"}},下面的示例添加新字段total并根据字段price和tax计算其值:{$project:{total:{$add:["$price","$tax"]}}} |
$match | 使用本书前面讨论的查询运算符过滤文档集,如{$match:{value:{$gt:50}}} |
$limit | 限制传递给聚合流水线中下一个阶段的文档数,如{$limit:5} |
$skip | 指定执行聚合流水线的下一个阶段前跳过多少个文档,如{$skip:0} |
$unwind | $unwind的值必须是数组字段的名称(必须在该数组字段名前加上$,这样它才会被视为字段名,而不是字符串)。$unwind对指定的数组进行分拆,为其中的每个值创建一个文档,如{$unwind:"$myArr"}, 注意在3.2+ 的版本后,$unwind的函数语法有了变化,如下文说明 |
$group | 将文档分组并生成一组新文档,但流水线的下一个阶段使用。在$group中必须定义新文档的字段;还可对各组的文档应用分组表达式运算符,如将value字段的值相加:{$group:{set_id:"$so_id", total:{$num:"$value"}}} |
$sort | 将文档交给聚合流水线的下一个阶段前, 对它们进行排序。$sort指定包含属性field:<sort_order>的对象,其中<sort_order>为1(升序)或 -1(降序),如{$soft:{name:1,age:-1}} |
aggregate() 方法的使用例子:
db.zipcodes.aggregate([
{$group:{_id:{_id:"$_id",state:"$state"},pop:{$sum:"$pop"}}},
{$group:{_id:"$_id.state",avgtotalPop:{$avg:"$pop"}}}
])