在进行正则表达式的匹配时以下四个语句的区别到底在哪里?
需要匹配的原始文档:
<div class="author clearfix">
<a href="/users/24041432/" target="_blank" rel="nofollow">
![做个被需要的人。](http://upload-images.jianshu.io/upload_images/4772802-a9e4f303f36042cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
</a>
<a href="/users/24041432/" target="_blank" title="做个被需要的人。">
<h2>做个被需要的人。</h2>
</a>
...
<div class="signin-error" id="signin-error"></div>
<button type="submit" id="form-submit" class="form-submit">登录</button>
</form>
</div>
<div class="signin-foot clearfix">
<a rel="nofollow" href="/new4/fetchpass" class="fetch-password">忘记密码?</a>
</div>
</div>
</div>
<div class="float-nav">
<a class="float-nav-backtop" href="#" rel="nofollow">
<span class="float-nav-backtop-icon"></span>
</a>
</div>
<!--[if gte IE 6]>
<script type="text/javascript" src="http://static.qiushibaike.com/js/src/web/json3.js?v=3a7f66a11a09842cd7555fad039657be"></script>
<![endif]-->
<script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/libs.min.js?v=bc8ddd36f0e7fed7c27f437c17f23ce0"></script>
<script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/app.min.js?v=9d24424ee8d18d35a0a64362f6e6694a"></script>
<script type="text/javascript">
期望的第二个匹配集合的输出
做个被需要的人。
语句1:
'<div.*?author clearfix">(.*?)<a.*?title="(.*)">'
items = re.findall(pattern, content)
for item in items:
print item[1]
输出:
做个被需要的人。">
<h2>做个被需要的人。</h2>
</a>
<div class="articleGender manIcon">21</div>
</div>
<input type="hidden" id="hid">
<div id="single-next-link" title="下一条">
<div class="content">
...
<script type="text/javascript
语句2:
'<div.*?author clearfix">(.*?)<a.*?title="(.*)">.*?<h2>'
items = re.findall(pattern, content)
for item in items:
print item[1]
输出:
做个被需要的人。
语句3:
'<div.*?author clearfix">(.*?)<a.*?title="(.*?)">'
items = re.findall(pattern, content)
for item in items:
print item[1]
输出:
做个被需要的人。
语句4:
'<div.*?author clearfix">.*?<a.*?title="(.*?)">'
items = re.findall(pattern, content)
for item in items:
print item[0]
输出:
做
一些观察和分析
- 观察
- findall()的返回值是什么?
我们在代码中打印出findall的返回值:
pattern = re.compile('<div.*?author clearfix">(.*?)<a.*?title="(.*?)">', re.S)
items = re.findall(pattern, content)
print items
输出:
[(u'\n', u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002')]
由此输出,我们可以看出items包含了两个匹配集合。一个是换行符,一个是一段文本。
- 再试一个
输入
pattern = re.compile('<div.*?author clearfix">.*?<a.*?title="(.*?)">', re.S)
items = re.findall(pattern, content)
print items
输出
[u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002']
由此输出,可以发现items仅仅是我们用括号制定的匹配集合。对于上面的一个例子同样成立。通过观察,我们发现,有一次记录匹配,items中就会多一个item, 而对于每个匹配的item,它内部的元素就是每个匹配集合。
- 分析
- 语句1中采用的是python默认的贪婪匹配,所以这个pattern直接匹配到了文本的最后。
- 语句2中采用的也是贪婪匹配,但是因为在我们期望的那个pattern之后加上了对于<h2>的匹配,所以就限制了匹配的长度。
- 通过以上两次实验的分析我们可以得知,对于语句3, items中有且仅有一个元素。而item[1]就是第二个匹配集,即title的值。
- 对于输出4而言,item中只有一个匹配集合。所以item就是“做个被需要的人”。因为一个字符串就是字符的数组,所以在我们使用item[0]时就获取了第一个字符。