Solr 入门

下载-安装-启动

首先去官网下载到指定目录,我用的是5.5.4 版本的, 如果同学们用的是6.x的建议看官网的getting started 来操作. 毕竟有些地方不一样.
因为5.5.4 已经满足一般学生党的需求了,不过话说6.x 有什么新特性我没有去考究过, 并且我运行的是单机版的solr, 如果同学需要部署分布式的,还是参考上文提到的getting start.
解压缩
启动
这个时候我们可以在8983 端口访问刚刚启动的Solr.

http://x.x.x.x:8983

命令清单如下:

    $ wget http://apache.fayea.com/lucene/solr/5.5.4/solr-5.5.4.tgz
    $ tar -zvxf solr-5.5.4.tgz
    $ cd solr-5.5.4
    $ bin/solr start

初始化

建立Collection/Core Core是单机版的Collection .我们可以把他理解成数据库后面再讲解
索引数据, 我们通过这一步给Collection提供数据. 因为检索的前提是有数据嘛, 得先把Collection喂饱 , 然后Collection自己有一套消化数据的算法,把我们提供的数据建立索引,把索引放在内存中以便我们的检索.

命令清单如下:

    $ bin/solr create -c demo #创建一个名为demo的Collection
    $ bin/post -c demo docs/ #给docs/下的文件建立索引

检索

我们刚刚把docs/ 下的文件都发送到demo这个Collection里面去了. 假设docs/下有个文件叫index.html,内容如下:

index.html

这时候我们打开控制台,即访问http:x.x.x.x:8983,选择一个Collection

控制台

Collection试图

选择query功能 , 随便搜索一段我们index.html中的话,如"Additional documentation, especially focused on using Solr." 这个时候我们会发现,index.html 已经被我们查找出来了.

查找"Additional documentation, especially focused on using Solr."
我们来看看Solr query返回的结果.
有一个responseHeader对象,表示这次检索的总体情况
有一个response对象, 是检索返回的内容主体.我们重点看看这个对象的字段代表什么含义

numFound 匹配的结果总数.
start 偏移量相当于SQL 中的 limit 的第一个参数
docs 这个是一个document对象列表, 表示匹配到的结果.
document是什么? document就是Collection中的数据单元. 相当于数据库中的表. 一个document可以有多个字段. 比如我们的例子就有id,title等等. 这些都是可以自己定义的, 我们在下一篇文章中演示.

{
    "responseHeader": {
        "status": 0,
        "QTime": 10,
        "params": {
            "q": "\"Additional documentation, especially focused on using Solr\"",
            "indent": "true",
            "wt": "json",
            "_": "1491660892707"
        }
    },
    "response": {
        "numFound": 1,
        "start": 0,
        "docs": [
            {
                "id": "/usr/local/solr-5.5.4/docs/index.html",
                "stream_size": [
                    4365
                ],
                "x_parsed_by": [
                    "org.apache.tika.parser.DefaultParser",
                    "org.apache.tika.parser.html.HtmlParser"
                ],
                "stream_content_type": [
                    "text/html"
                ],
                "dc_title": [
                    "Apache Solr 5.5.4 Documentation"
                ],
                "content_encoding": [
                    "UTF-8"
                ],
                "resourcename": [
                    "/usr/local/solr-5.5.4/docs/index.html"
                ],
                "title": [
                    "Apache Solr 5.5.4 Documentation"
                ],
                "content_type": [
                    "text/html; charset=UTF-8"
                ],
                "_version_": 1564118831183429600
            }
        ]
    }
}

所以,当我们有很多个html文件,我们将它们都塞进Solr里面并建立索引.这个时候我们搜索任意内容,就会得到匹配到一些html文件等等. 像上个例子.我们还可以指定字段来搜索,如q = title:Apache Solr 5.5.4 Documentation. 表示在title这一个字段上面查找跟Apache Solr 5.5.4 Documentation 相关的doc对象 , 同样也是可行的.

检索字段

总结

这篇文章只是简单的走了一下流程. 先对Solr 做一个简单的helloworld出来.
通过这个helloworld. 我们发现:

solr对文件(pdf,txt,html 等文本文件)的索引建立是建立在其文本内容上. 不同的文件类型有不同的Parser来解析.比如html会有HtmlParser来解析.
solr的检索是基于Collection的,不像我们的SQL 基于表格. 如果在SQL的概念来类比的话, 应该说是基于整个整个数据库, 对数据库所有的记录做一次检索. 然后将所有搜索到的记录(document)呈现出来.
我们把document的字段称为Filed, 每个Filed 有对应的FieldType. 每个FieldType有自己的索引建立规则, 比如如何分词之类的.

最后编辑于：2017.12.06 12:04:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,242评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,769评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,484评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,133评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,007评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,080评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,496评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,190评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,464评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,549评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,330评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,205评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,567评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,889评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,160评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,475评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,650评论 2赞 335

Solr 入门

下载-安装-启动

初始化

检索

总结

推荐阅读更多精彩内容