苏聪个人作业整合

本学期参与了信息组织与检索课程的学习,并通过一次次练习掌握了信息检索的各项技能。
目录
1.信息检索读物读后感......p1-2
2.安装scrapy抓取热门标签书本......p2-5
3.利用scrapy抓取公管老师信息......p5-10
4.查询lofter网站的robot权限......p10-11
5.安装jieba中文分词包并调试......p11-13
6.自定义字典的学习以及词频统计......p13-15
7.了解solr以及检索的构建查询......p15-27
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:admin="http://webns.net/mvcb/">
<foaf:PersonalProfileDocument rdf:about="">
<foaf:maker rdf:resource="#me"/>
<foaf:primaryTopic rdf:resource="#me"/>
<admin:generatorAgent rdf:resource="http://www.ldodds.com/foaf/foaf-a-matic"/>
<admin:errorReportsTo rdf:resource="mailto:leigh@ldodds.com"/>
</foaf:PersonalProfileDocument>
<foaf:Person rdf:ID="me">
<foaf:name>cong su</foaf:name>
<foaf:title>Mr</foaf:title>
<foaf:givenname>cong</foaf:givenname>
<foaf:family_name>su</foaf:family_name>
<foaf:nick>james</foaf:nick>
<foaf:mbox_sha1sum>5e26490ccb0a4c88db6756ac6cc88680b97e0b24</
foaf:mbox_sha1sum>
<foaf:homepage rdf:resource="https://user.qzone.qq.com/561350767/main"/>
<foaf:phone rdf:resource="tel:15680927082"/>
<foaf:schoolHomepage rdf:resource="http://www.scu.edu.cn/"/>
<foaf:knows>
<foaf:Person>
<foaf:name>Guanyan</foaf:name>
<foaf:mbox_sha1sum>2c8471e452467d260c9238eb02b93b3aea936155</
foaf:mbox_sha1sum></foaf:Person></foaf:knows>
<foaf:knows>
<foaf:Person>
<foaf:name>Duanyun</foaf:name>
<foaf:mbox_sha1sum>bd708090bd0a2cc38094c49a9d631aaba4e06ce9</
foaf:mbox_sha1sum></foaf:Person></foaf:knows></foaf:Person>
</rdf:RDF>
当今是大数据时代,随着信息技术,通信技术的快速发展,每天都在产生大量而无序的信息,而这些大量的数据在为人利用之前必须经过一定的处理和排序,这就需要信息组织技术。

在使用实体存储信息的年代,信息的组织与特定的检索是特别有局限性的。在《新数字秩序的革命》一书中,举到了贝德曼图书资料馆的例子。在比尔盖茨花费大量精力财力人力将贝德曼图书资料馆搬移到洞穴之后,尽管将这些胶片进行两层秩序排列和摆放,其仍然存在巨大的局限性:无法记录藏品的所有信息,在检索过程中,也要花费大量时间才能找到想要的图片。这是无法避免的,是元数据不完整,是实体存储信息的漏洞。可以理解为大海捞针。而在信息时代来临,人们普遍开始用数字化存储信息后,第三层秩序出现了,也拯救了索引。Corbis的数字图片让人们能快捷得寻找到自己需要寻找的图片,而且其维护成本大大减少,电脑代替人更高效地进行查找。当然,数字化革命的影响远远不限于此,实体世界中所有信息都能通过数字化更加高效地为人查找和利用。

信息可以有序得排列,也可以无序得排列,这取决于你的目的用途。在古老的观念中,于第一秩序和第二秩序都必然需要保证信息的有序性,因为其时的人工查找需要通过顺序来方便查找,典型的例子就是杜威十进制法则来管理图书馆书目。而在信息化技术发展成熟后,第三层秩序并不一定需要进行信息的有序排列,比如说在亚马逊网的图书销售中,会打乱顺序,以此提高用户阅览的范围,就像一场图书嘉年华,让浏览的人发现更多自己未注意的惊喜,从而提高他的销量。

由此我认为,信息组织的任务,核心还是服务于特定环境下,满足应有的需求,在为检索信息而设的系统中,组织信息的任务即为剔除冗余信息,将某方面的信息整合在一个数据库中,仅仅限定其范围来方便查找,将其实体化就是前面举到的贝德曼图书资料馆将所有资料存放于一处,而在数字化存储中,就避免了"有序"这个条件,可有可无。当然在一些其他必要的环境下,信息也需要有序化,比如涉及标签和关键字的搜索环境。涉及到关键字和标签搜索,这就体现出来信息组织与检索目前存在的问题,关键字和标签需要不断添加完善,而且没有止境,需要不断更新目录。以照片共享站Flickr为例,用户上传了超过2.25亿张照片,而标签数就多达570万种,而事实证明标签数量越多,混乱度越高,Flickr的分析就越准确,因为一张图片涵盖标签越多,用户如果寻找特定图片,则可以输入多个标签来快速精确寻找到特定图片。"每样东西都是元数据而且什么都可以被当做标签"

信息检索还包含隐性的搜索问题,从沃尔玛在线商城出现的因搜索记录和关联性而产生的种族争端问题可以看出,搜索引擎存在着不可避免的问题,它的导向功能并不能满足每个群体的眼光,甚至可能出现群体间的矛盾和用户对搜索引擎的不满。在这里我觉得垂直搜索是很重要的,可以尽量服务于某一特定群体,虽然无法根除但有利于减少此类问题。

总而言之,信息组织体系应走的道路还很长,仍然在不断进步与改善之中。

![$J{1]S`XNV7P]A3RWB~J7X6.png](http://upload-images.jianshu.io/upload_images/5886630-205a1f5dff6434f0.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
查看python版本 并且安装更新名叫virtualenv的工具

V@D8{033$18XJU6}0_8AD~7.png

创造名为 venv的虚拟环境

16P`XH%8_JA]6N7RC1Y$T`4.png

利用pip通过链接来安装twisted

YW`~1X0T5GK]6UN4]YK`BDM.png

系统的安装更新

GM5B)18I9FUJ75Z_9XFPGMF.png

安装四个工具 结果发现系统已经安装有 无需再安装

Z71)@L@S1K00JL4Z5O9Y`GN.png

新建名为sucong的scrapy工程

AFF2`(6`}Q8S@W28DIK`EGS.png
6)V{1{3H}C0WBI{{7XF2CEA.png

爬取热门标签books (tag books)下的数据 并且保存在sucong.json中

在报告前面,先放一些困扰我很久的debug 让我终生铭记的debug


IMG_3518.PNG

就是这个所谓的unexpected indent 让我删了一次又一次的new.py 重新改又重新传输上去开始爬 一遍又一遍的在百度和同学之间询问求解 着实令我难忘!从缩进用tab和空格开始改 然后改到每一个符号(,:)最后改到行之间是否需要空行 。这一个问题周周转转得有个几十次循环。

IMG_3520.PNG

然后是invalid syntax 又是一个格式方面的问题 和前面差不多 改的方式都差不多 就不多说 反正也很不容易啊!

IMG_3527.JPG

然后就是比较核心的问题了 在spider的上层目录里没有改好items文件 导致后面不断出现路径上的错误 后来直接新建了一个工程 一步一步往目录里面走 重写了item.py 然后参考了郭盛镶同学的报告 将starturl改正为http://ggglxy.scu.edu.cn/index.phpc=article&a=type&tid=18&page_1_page=1
避免了爬不到数据的情况。

(HD07%$6}0)98({2SXIKVDD.png

以上为修改后的item文件

import scrapy

from ggteachers.items import GgteachersItem

class TeachersSpider(scrapy.Spider):
name = "teachers"
start_urls = [
'http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18&page_1_page=1',
]

def parse(self, response):
        for href in response.css('div.right_info.p20 ul.teachers_ul.mt20.cf li.fl div.l.fl a::attr(href)'):
            url = response.urljoin(href.extract())

            yield scrapy.Request(url, callback=self.parse1)

            next_page = response.css('div.w780.pb30.mb30.fr div.right_info.p20 div.pager.cf.tc.pt10.pb10.mobile_dn li.c::text').extract_first()
            if next_page is not None:
                next_url = int(next_page) + 1
                next_urls = '?c=article&a=type&tid=18&page%s' % next_url
                print next_urls
                next_urls = response.urljoin(next_urls)
                yield scrapy.Request(next_urls,callback = self.parse)

def parse1(self, response):
        items = []
        for second in response.css('div.js_infobox.cf'):
        
            item = GgteachersItem()
            item['names'] = second.css('div.r.fr h3::text').extract_first(),
            item['career'] = second.css('div.r.fr p::text').extract_first(),
            item['intro'] =second.css('div.desc::text').extract_first(),
            items.append(item)

        return items

以上为spider代码
然后开始执行

EV156VJ9U)BR@1$}H{D2EM2.png

然后是爬取数据的部分截图

![D~`A_H4Y29QUTZ(]LWA8Q)A.png](http://upload-images.jianshu.io/upload_images/5886630-4e14a6e308d7c8dd.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
然后出现了与郭盛镶同学一样的问题 参考了他的解决方法后 下载保存
scrapy crawl teachers -o teachers.json
sz teachers.json

@5OF7}`~DZEWIVV(H4~AW@F.png

然后就succeed了

User-agent: *
Disallow:/dwr
Disallow:/dashboard
Disallow:/message/
Disallow:/postmanage/
Disallow:/notice
Disallow:/followed
Disallow:/follow
Disallow:/theme/
Disallow:/newblog
Disallow:/setting
Disallow:/inviteelist
Disallow:/submit
Disallow:/like
Disallow:/logout
Disallow:/edit/
Disallow:/reblog/
Disallow:/control
Disallow:/comment.do
Disallow:/mydomainr.do
Disallow:/invite
Disallow:/art/checkorder
Disallow:/art/orderpayresult
Disallow:/art/ordersnapshot
Disallow:/benefit/

Sitemap: http://www.lofter.com/sitemap.xml

User-agent: *代表爬的所有数据
Disallow代表不可爬的内容 比如个人信息这些隐私内容

查询到电脑中是python2.7版本
于是登入服务器中,直接使用 pip install jieba 代码来实现自动安装jieba
![Paste_Image.png](http://upl oad-images.jianshu.io/upload_images/5886630-0270fec04f4aeae4.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
安装好之后开始写一个简单文档进行测试并输出结果为txt文件下载

Paste_Image.png

full mode 指全模式 也就是将所有可以构成词语的都显示出来
默认的话是精确模式 也就是不增加字数 只在自身分词出来
jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式
jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
安装过程及代码解释参考http://www.tuicool.com/articles/QV36ru以及老师上传的jieba的pdf
然后输出结果
Paste_Image.png

Paste_Image.png

但是这里可以看出 全模式中没有展示出我预期的 苏聪/是/四川大学/学生 因为没有输入自定义字典的原因 毕竟机器分词 需要人的辅助
于是开始进入自定义字典的学习

Paste_Image.png

这是原文档

Paste_Image.png

这是字典 词语和词频

Paste_Image.png

输入字典和原文件到同一目录

Paste_Image.png

然后发现 大学生 这个词 确实单独分开了 成功!

Paste_Image.png
Paste_Image.png

然后我在四川新闻网上找到一篇新闻来进行词频分析和关键词提取
并保存为csv文件

Paste_Image.png

以上为部分截图,可以观察出出现了中文的乱码现象

Paste_Image.png

但在使用tableau之后 就正常显示了
通过这次作业,自己对python的操作能力得到了很大提升,并掌握理解了大部分代码的含义,虽说还不能做到脱机写全代码,但是感觉自己在一次次的实验报告中收获颇丰!最后由衷的感谢范炜老师及同学们的热心解答!

在本地进入solr文件中 新建一个名为teahpoducts的内核
很快遇到第一个障碍,显示java版本过低,需要1.8版本及以上,查了一下java版本是1.8但是为什么会出现这样的问题呢?在与助教老师的共同钻研与努力下,发现是java的路径问题没对,于是找到1.8版本的路径修改之后,重启cmd建立了techproducts内核。
然后找到其中的data文件里的index文件,使用luke打开。luke的overview中显示了每个name出现的次数以及所占的权重,并且显示了他们出现的位置,而在search中可以去搜索特定的name,如iPod,点击explain,搜索结果就出来了。通过权重计算出score。在找到scheme文件并打开,我的理解是这个文件定义了索引中出现的字段,定义他们是否可以被检索和储存以及他们的类型。
查询制造商为Belkin的iPod并以价格升序排列,显示name,price,features字段,返回其xml数据。

查询流行度为5以上的产品等等

查询价格在400以下等等
查询特征中play等等
搜索出价格为等等
找出电子产品等等

捕获1.GIF
捕获2.GIF
捕获4.GIF
捕获5.GIF
捕获6.GIF
捕获7.GIF
捕获8.GIF

以上为本学期本人实践信息检索课程的个人作业整合,谢谢观看!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容