7.15 项目:电话号码和 E-mail 地址提取程序
项目要求:在一篇长的网页或文章中,找出所有电话号码和邮件地址
#! /usr/bin/env python3
# -*- coding: utf-8 -*-
'this is an regex program for American phone and email'
# TODO: Create American phone regex.
import re
phoneRegex = re.compile(r'''(
(\+?86)? # national code
(\s|\-)?
(\d{3,4}) # area code
(\s|\-)?
(\d{7,8}) # phone number
)''', re.VERBOSE)
# TODO: Create email regex.
emailRegex = re.compile(r'''(
([\w\%\_\-\+]+) # emailname
@ # emailmark@
([\w\.\-]+) # email domain name
(\.[a-zA-Z]{2,4}) # dot-something
)''', re.VERBOSE)
# TODO: Find matches in clipboard text.
import pyperclip
text = pyperclip.paste()
d_phone = []
d_email = []
for s in phoneRegex.findall(text):
phone_num = '-'.join([s[3], s[5]])
d_phone.append(phone_num)
for s in emailRegex.findall(text):
d_email.append(s[0])
# TODO: Copy results to the clipboard.
phone_num_str = '\n'.join(d_phone)
email_name_str = '\n'.join(d_email)
matches = phone_num_str + '\n' + email_name_str
pyperclip.copy(matches)
print(matches)
# test = emailRegex.search('my phone num is +86-010-29898928, email is Wu_h@sina.143.com')
思路:这个是书内项目,十分适合我们这种新手练习。当初就花了些时间才突破心理障碍着手一步步写,回想最后执行成功还是有些成就感的
7.18.1 实践项目:强口令检测
写一个函数,它使用正则表达式,确保传入的口令字符串是强口令。强口令的定义是:长度不少于8个字符,同时包含大写和小写字符,至少有一位数字。你可能需要用多个正则表达式来测试该字符串,以保证它的强度。
import re, pyperclip
len_re = re.compile(r'.{8,}')
a_re = re.compile(r'[a-z].*[A-Z]|[A-Z].*[a-z]')
num_re = re.compile(r'\d')
def password_test(password):
if len_re.search(password) and a_re.search(password) and num_re.search(password):
print('your password is strong enough!')
else:
print('please reset your password')
password = str(pyperclip.paste())
password_test(password)
思路:
- 当初没有参考别人自己想了一下,因为没有从“用多个正则表达式来测试该字符串”思路入手,折腾了一会儿。
- 后来网上搜索“强指令”,看到有个网站介绍javascripts正则并给出了参考,才恍然大悟
- 其实直接把“8位以上”、“大小写包含”、“数字包含”的需求拆开成单独的正则验证就好
7.18.2 实践项目:strip()的正则表达式版本
写一个函数,它接受一个字符串,做的事情和strip()字符串方法一样。如果只传入了要去除的字符串,没有其他参数,那么就从该字符串首尾去除空白字符。否则,函数第二个参数指定的字符将从该字符串中去除。
import re, pyperclip
def re_strip(s, t='\\s'):
tb_format = '^' + t + '+'
tt_format = t + '+' + '$'
sb_re = re.compile(tb_format)
st_re = re.compile(tt_format)
s = sb_re.sub('', s)
s = st_re.sub('', s)
return s
print(re_strip('aaaafaaaa', 'a'))
print(re_strip(' f '))
###########################################################
# 根据建议优化的版本:
import re
def re_strip(s, t=r'\s'):
t_format = r'^%s*|%s*$' % (t, t)
s_re = re.compile(t_format)
s = s_re.sub('', s)
return s
print(re_strip('aaaafaaaa', 'a'))
print(re_strip(' f '))
思路:
- re.sub的运用
- 当初想着一步到位,但是其实分两步各自去除头尾能更简单
- (2018.1.16补充)根据留言做了改进,sub一步到位
环境:python3
想做这个系列文章,就是因为当时看这本书时,想看看网上有没更优美的解决,但是略难找到。所以就把自己的项目练习放在了一个txt文件中,现在把练习代码放到这里,有不足之处希望大家能给出指导意见及相互交流、提升。