Python实现搜索关键字定位文件01

最近被新闻专业同学问起一个很实用的需求,大致是这样的:一个文件夹内有很多文件,怎么通过搜索关键字就可以找到内容包含关键字的word文件,同时获得关键字所在段落的内容。由于最近在学习Python,所以对这个需求很感兴趣,于是当时很快就把这个功能做出来了。



首先想到的自然是用脚本实现,新建一个kword.py文件,差不读四十几行代码将可以实现,步骤是这样的:
1.先获取文件夹里面的所有文件路径、其中用递归算法获取子文件夹内的文件路径:

def get_process_files(root_dir):
    """process all files in directory"""
    cur_dir=os.path.abspath(root_dir)
    file_list=os.listdir(cur_dir)
    process_list=[]
    for file in file_list:
        fullfile=cur_dir+"\\"+file
        if os.path.isfile(fullfile):
            process_list.append(fullfile)
        elif os.path.isdir(fullfile):
            dir_extra_list=get_process_files(fullfile)
            if len(dir_extra_list)!=0:
                for x in dir_extra_list:
                    process_list.append(x)
    return process_list

2.利用python-docx模块中的Document方法对word文件中每一段进行关键字匹配:

def search_word(filename,word):
    #打开文档
    document = Document(filename)
    # document = Document(r'C:\Users\Cheng\Desktop\kword\words\wind.docx')
    print filename
    #读取每段资料
    l = [ paragraph.text.encode('gb2312') for paragraph in document.paragraphs];
    #输出并观察结果,也可以通过其他手段处理文本即可
    for i in l:
        i=i.strip()
        # print i
        if i.find(word)!=-1:
            print filename, i

3.遍历每一个文件并进行查找:

def find_files(root_dir,word):
    process_list=get_process_files(root_dir)
    for files in process_list:
        search_word(files, word)

这里有两个参数需要我们自己输入,分别是文件目录和关键字。

#文件根目录
root_dir=sys.argv[1]
#要搜索的关键字
word=sys.argv[2]

至此,在脚本目录下运行“python kword.py 目录 关键字”命令就可以看到搜索结果,目前搜索功能比较简单,没有做大量文件测试和算法优化。
献上脚本源码:

#coding=utf-8
from docx import Document
import os,sys

def search_word(filename,word):
    #打开文档
    document = Document(filename)
    # document = Document(r'C:\Users\Cheng\Desktop\kword\words\wind.docx')
    print filename
    #读取每段资料
    l = [ paragraph.text.encode('gb2312') for paragraph in document.paragraphs];
    #输出并观察结果,也可以通过其他手段处理文本即可
    for i in l:
        i=i.strip()
        # print i
        if i.find(word)!=-1:
            print filename, i

def get_process_files(root_dir):
    """process all files in directory"""
    cur_dir=os.path.abspath(root_dir)
    file_list=os.listdir(cur_dir)
    process_list=[]
    for file in file_list:
        fullfile=cur_dir+"\\"+file
        if os.path.isfile(fullfile):
            process_list.append(fullfile)
        elif os.path.isdir(fullfile):
            dir_extra_list=get_process_files(fullfile)
            if len(dir_extra_list)!=0:
                for x in dir_extra_list:
                    process_list.append(x)
    return process_list

def find_files(root_dir,word):
    process_list=get_process_files(root_dir)
    for files in process_list:
        search_word(files, word)

if __name__=='__main__':
    #文件根目录
    root_dir=sys.argv[1]
    #要搜索的关键字
    word=sys.argv[2]
    try:
        find_files(root_dir,word)
    except:
        pass

如果你喜欢本文章,还请点个关注和喜欢,我会为大家不断地带来Python学习笔记。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容

  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,718评论 0 10
  • Python 面向对象Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对...
    顺毛阅读 4,207评论 4 16
  • 陌上花开,可缓缓归矣 东风夜放花千树, 吹遍大地万紫千红春色无边。 春光多美妙, 何不寻芳去 陌上花开,可缓缓归矣...
    当时明月在zh阅读 1,482评论 5 13
  • 临秋末晚将下班,五部急如星火要两条普利司通大胎。拍马加鞭欲行,心里一咯噔,不对,货车刚才又犯了带速不转的毛病...
    曹侃阅读 306评论 0 0
  • 践行第14天2017.12.6 城市:宜兴 姓名:糖糖 一、[设定目标(3件帮助人的好事)]: 1.考虑同事力气小...
    爱阳光的TT阅读 251评论 0 0