Java 正则表达式 StackOverflowError 问题及其优化

正则可以看做一门 DSL，但它却应用极其广泛，可以轻松解决很多场景下的字符串匹配、筛选问题。同时呢有句老话：

“ 如果你有一个问题，用正则表达式解决，那么你现在就有两个问题了。”

Some people, when confronted with a problem, think “I know, I’ll use regular expressions.” Now they have two problems.

今天我们就来聊聊 Java 正则表达式 StackOverflowError 的问题及其一些优化点。

1、问题

最近，有同事发现一段正则在本地怎么跑都没问题，但是放到 Hadoop 集群上总会时不时的抛 StackOverflowError 。

代码我先简化下：

packagejava8test;

importjava.util.regex.Matcher;

importjava.util.regex.Pattern;

publicclassTest {

publicstaticvoidmain(String[] args) {

finalString TEST_REGEX ="([=+]|[\\s]|[\\p{P}]|[A-Za-z0-9]|[\u4E00-\u9FA5])+";

StringBuilder line =newStringBuilder();

System.out.println("++++++++++++++++++++++++++++++");

for(inti =0; i <10; i++) {

line.append(

"http://hh.ooxx.com/ershoufang/?PGTID=14366988648680=+.7342327926307917&ClickID=1&key=%2525u7261%2525u4E39%2525u5BCC%2525u8D35%2525u82B1%2525u56ED&sourcetype=1_5");

line.append(

"http://wiki.corp.com/index.php?title=Track%E6%A0%87%E5%87%86%E6%97%A5%E5%BF%97Hive%E8%A1%A8-%E5%8D%B3%E6%B8%85%E6%B4%97%E5%90%8E%E7%9A%84%E6%97%A5%E5%BF%97");

line.append(

"http://www.baidu.com/s?ie=UTF-8&wd=58%cd%ac%b3%c7%b6%fe%ca%d6%b3%b5%b2%e2%ca%d4%ca%fd%be%dd&tn=11000003_hao_dg");

line.append("http://cs.ooxx.com/yewu/?key=城&cmcskey=的设计费开始低&final=1&jump=1&specialtype=gls");

line.append(

"http%3A%2F%2Fcq.ooxx.com%2Fjob%2F%3Fkey%3D%25E7%25BD%2591%25E4%25B8%258A%25E5%2585%25BC%25E8%2581%258C%26cmcskey%3D%25E7%25BD%2591%25E4%25B8%258A%25E5%2585%25BC%25E8%2581%258C%26final%3D1%26jump%3D2%26specialtype%3Dgls%26canclequery%3Disbiz%253D0%26sourcetype%3D4");

}

line.append(" \001 11111111111111111111111111");

Pattern p_a =null;

try{

p_a = Pattern.compile(TEST_REGEX);

Matcher m_a = p_a.matcher(line);

while(m_a.find()) {

String a = m_a.group();

System.out.println(a);

}

}catch(Exception e) {

// TODO: handle exception

}

System.out.println("line size: "+ line.length());

}

起初这个问题是从集群上抛出来的，大家可以看到这个异常有两个特点：

（1）不可用 Exception 捕获，因为 Error 直接继承自 Throwable 而非 Exception，所以即使你要捕获也应当捕获 Error。

（2）另外一点是大家可以看到抛出的错误并没有指明行号，当这段代码混在一个数百行的工具类，有数十条类似的正则的时候，无疑给定位问题带来了难度，这就需要我们能有一定的单元测试能力。

注：

（1）如果你的环境没有抛出上述错误，尝试调大 for 循环的次数或者指定 jvm 参数：-Xss1k

（2）如果你还不明白 StackOverflowError 是什么含义，可以参考上一篇文章：JVM 运行时数据区简介

2、问题分析

正则表达式引擎分成两类，一类称为DFA（确定性有穷自动机），另一类称为NFA（非确定性有穷自动机）。两类引擎要顺利工作，都必须有一个正则式和一个文本串。DFA捏着文本串去比较正则式，看到一个子正则式，就把可能的匹配串全标注出来，然后再看正则式的下一个部分，根据新的匹配结果更新标注。而NFA是捏着正则式去比文本，吃掉一个字符，就把它跟正则式比较，匹配就记下来，然后接着往下干。一旦不匹配，就把刚吃的这个字符吐出来，一个个的吐，直到回到上一次匹配的地方。

DFA与NFA机制上的不同带来5个影响：

1. DFA 对于文本串里的每一个字符只需扫描一次，比较快，但特性较少；NFA要翻来覆去吃字符、吐字符，速度慢，但是特性丰富，所以反而应用广泛，当今主要的正则表达式引擎，如Perl、Ruby、Python的re模块、Java和.NET的regex库，都是NFA的。

2. 只有NFA才支持lazy和backreference等特性；

3. NFA急于邀功请赏，所以最左子正则式优先匹配成功，因此偶尔会错过最佳匹配结果；DFA则是“最长的左子正则式优先匹配成功”。

4. NFA缺省采用greedy量词；

5. NFA可能会陷入递归调用的陷阱而表现得性能极差。

在使用正则表达式的时候，底层是通过递归方式调用执行的，每一层的递归都会在栈线程的大小中占一定内存，如果递归的层次很多，就会报出stackOverFlowError异常。所以在使用正则的时候其实是有利有弊的。

Java程序中，每个线程都有自己的Stack Space。这个Stack Space不是来自Heap的分配。所以Stack Space的大小不会受到-Xmx和-Xms的影响，这2个JVM参数仅仅是影响Heap的大小。Stack Space用来做方法的递归调用时压入Stack Frame。所以当递归调用太深的时候，就有可能耗尽Stack Space，爆出StackOverflow的错误。Stack Space的大小随着OS，JVM以及环境变量的大小而发生变化。一般说来默认的大小是512K。在64位的系统中，这个Stack Space值会更大。一般说来，Stack Space为128K是够用的。这时你说需要做的就是观察。如果你的程序没有爆出StackOverflow的错误，可以使用-Xss来调整Stack Space的大小为128K。（eg：-Xss128K)

文章开头的问题可以简单理解为方法的嵌套调用层次太深，上层的方法栈一直得不到释放，导致栈空间不足。

下面我们要做的就是了解一些正则性能的优化点，规避这种深层次的递归调用。

3、Java 正则的一些优化点

3.1 Pattern.compile() 预编译表达式

如果在程序中多次使用同一个正则表达式，一定要用Pattern.compile()编译，代替直接使用Pattern.matches()。如果一次次对同一个正则表达式使用Pattern.matches()，例如在循环中，没有编译的正则表达式消耗比较大。因为matches()方法每次都会预编译使用的表达式。另外，记住你可以通过调用reset()方法对不同的输入字符串重复使用Matcher对象。

3.2 留意选择（Beware of alternation）

3.3 减少分组与嵌套

如果你实际并不需要获取一个分组内的文本，那么就使用非捕获分组。例如使用“(?:X)”代替“(X)”。

总结下来就是：减少分支选择、减少捕获嵌套、减少贪婪匹配

4、解决方案

4.1 临时工方案

try…catch…/增加-Xss，治标不治本，不推荐。

4.2 优化正则才是王道

4.2.1 语法层面优化

根据 3.2 提到的，我们这样优化下：

finalString TEST_REGEX ="([=+\\s\\p{P}A-Za-z0-9\u4E00-\u9FA5])+";

经测试，JVM 参数不变的情况下，for 循环 100w 次直到 OOM 了都不会再发生文章开头的栈溢出的问题了。

4.2.2 业务逻辑层面优化

由于我不清楚作者的业务场景，不好做业务优化，总的原则是当你的正则太复杂的时候，可以考虑逻辑拆分，或者部分不走正则，如果把正则当做万能工具可能会得不偿失。

总结：在字符串查找与匹配领域，正则可以说几乎是“万能”的，但是许多场景下，它的代价不容小觑，如何写出高效率、可维护的正则或者怎么能避开正则都是值得咱们思考的问题。

5、NFA引擎正则性能优化Tips

1. 优先选择最左端的匹配结果

2.标准量词优先匹配

比如’.*[0-9][0-9]‘ 来匹配字符串”abcd12efghijklmnopqrstuvw”，这时候的匹配方式是‘.*’先匹配了整行，但是不能满足之后的两个数字的匹配，所以‘.*’就退还一个字符‘w’，还是无法匹配，继续退还一个‘v’，循环退还字符到‘2’发现匹配了一个，但是还是无法匹配两个数字，所以继续退还‘1’

3.谨慎使用捕获性括号()，选择使用非捕获性括号(?:expression)

捕获性括号需要消耗一部分内存

4.使用字符组代替分支（替换）条件

例如用[a-d] 代替 a|b|c|d避免不必要的回溯

5.不要滥用字符组（单个字符时不要用字符组）

以上就是我推荐以上是对Java 正则表达式 StackOverflowError 问题及其优化总结，分享给大家，希望大家可以了解什么是Java 正则表达式 StackOverflowError 问题及其优化。觉得收获的话可以点个关注收藏转发一波喔，谢谢大佬们支持

1、多写多敲代码，好的代码与扎实的基础知识一定是实践出来的

2、可以去百度搜索腾讯课堂图灵学院的视频来学习一下java架构实战案例，还挺不错的。

最后，每一位读到这里的网友，感谢你们能耐心地看完。希望在成为一名更优秀的Java程序员的道路上，我们可以一起学习、一起进步。

3丶想了解学习以上课程内容可加群：658706010 验证码（06 必过）

帅的人都已经点赞了~.~

最后编辑于：2017.12.10 10:14:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,056评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,842评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,938评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,296评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,292评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,413评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,824评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,493评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,686评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,502评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,553评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,281评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,820评论 3赞 305
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,873评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,109评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,699评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,257评论 2赞 341

Java 正则表达式 StackOverflowError 问题及其优化

推荐阅读更多精彩内容