北大青鸟北京校区提供:Java正则表达式

北大青鸟北京通州校区学术部提供:

一、java正则表达式概述:正则表达式是Java处理字符串、文本的重要工具。

Java对正则表达式的处理集中在以下两个两个类:
java.util.regex.Matcher 模式类:用来表示一个编译过的正则表达式。
java.util.regex.Pattern 匹配类:用模式匹配一个字符串所表达的抽象结果。
北大青鸟课程

比如一个简单例子:
1. import java.util.regex.Matcher;  
2. import java.util.regex.Pattern;  
3. /** * 正则表达式例子 * * @author leizhimin 2009-7-17 9:02:53 */  
4. public class TestRegx {  
5. public static void main(String[] args) {  
6. Pattern p = Pattern.compile("f(.+?)k");  
7. Matcher m = p.matcher("fckfkkfkf");  
8. while (m.find()) { String s0 = m.group();  
9. String s1 = m.group(1);  
10. System.out.println(s0 + "||" + s1);  
11. }  
12. System.out.println("---------");  
13. m.reset("fucking!");  
14. while (m.find())  
15. {  
16. System.out.println(m.group());  
17. }  
18. Pattern p1 = Pattern.compile("f(.+?)i(.+?)h");  
19. Matcher m1 = p1.matcher("finishabigfishfrish"); 
20. while (m1.find()) {  
21. String s0 = m1.group();  
22. String s1 = m1.group(1);  
23. String s2 = m1.group(2);  
24. System.out.println(s0 + "||" + s1 + "||" + s2);  
25. }  
26. System.out.println("---------");  
27. Pattern p3 = Pattern.compile("(19|20)\\d\\d([- /.])(0[1-9]|1[012])\\2(0[1-9]|[12][0-9]|3[01])");  
28. Matcher m3 = p3.matcher("1900-01-01 2007/08/13 1900.01.01 1900 01 01
29. 1900-01.01 1900 13 01 1900 02 31");  
30. while (m3.find()) { System.out.println(m3.group()); 
31.  } } }
输出结果:(北大青鸟北京校区,北大青鸟课程
1. fck||c fkk||k ---------  
2. fuck finish||in||s fishfrish||ishfr||s ---------  
3. 1900-01-01 2007/08/13 1900.01.01 1900 01 01 1900 02 31 Process finished with exit code 0

二、一些容易迷糊的问题

1、Java对反斜线处理的问题
在其他语言中,\\表示要插入一个字符\;
在Java语言中,\\表示要插入正则表达式的反斜线,并且后面的字符有特殊意义。(北大青鸟北京校区,北大青鸟课程)

看API文档:
预定义字符类
• . 任何字符(与行结束符可能匹配也可能不匹配)
• \d 数字:[0-9]
• \D 非数字: [^0-9]
• \s 空白字符:[ \t\n\x0B\f\r]
• \S 非空白字符:[^\s]
• \w 单词字符:[a-zA-Z_0-9]
• \W 非单词字符:[^\w]
但是看看上面程序,对比下不难看出:
\d在实际使用的时候就写成了 \\d;

在Java正则表达式中,如果要插入一个\字符,则需要在正则表达式中写成\\\\,原因是下面的APIDoc定义\\表示一个反斜线。(北大青鸟北京校区,北大青鸟课程

但是如果在正则表示式中表示回车换行等,则不需要多添加反斜线了。比如回车\r就写作\r.

字符
• x 字符 x
• \\ 反斜线字符
• \0n 带有八进制值 0 的字符 n (0 <= n <= 7)
• \0nn 带有八进制值 0 的字符 nn (0 <= n <= 7)
• \0mnn 带有八进制值 0 的字符 mnn(0 <= m <= 3、0 <= n <= 7)
• \xhh 带有十六进制值 0x 的字符 hh
• \uhhhh 带有十六进制值 0x 的字符 hhhh
• \t 制表符 ('\u0009')
• \n 新行(换行)符 ('\u000A')
• \r 回车符 ('\u000D')
• \f 换页符 ('\u000C')
• \a 报警 (bell) 符 ('\u0007')
• \e 转义符 ('\u001B')
• \cx 对应于 x 的控制符

2、Matcher.find():尝试查找与模式匹配的字符序列的下一个子序列。此方法从字符序列的开头开始,如果该方法的前一次调用成功了并且从那时开始匹配器没有被重置,则从以前匹配操作没有匹配的第一个字符开始,即如果前一次找到与模式匹配的子序列则这次从这个子序列后开始查找。(北大青鸟北京校区,北大青鸟课程

3、Matcher.matchers():判断整个字符序列与模式是否匹配。当连续用Matcher对象检查多个字符串时候,可以使用
Matcher.reset():重置匹配器,放弃其所有显式状态信息并将其添加位置设置为零。

或者Matcher.reset(CharSequence input) 重置此具有新输入序列的匹配器。
来重复使用匹配器。

4、组的概念,这个概念很重要,组是用括号划分的正则表达式,可以通过编号来引用组。组号从0开始,有几对小括号就表示有几个组,并且组可以嵌套,组号为0的表示整个表达式,组号为1的表示第一个组,依此类推。(北大青鸟北京校区,北大青鸟课程)

例如:A(B)C(D)E正则式中有三组,组0是ABCDE,组1是B,组2是D;
A((B)C)(D)E正则式中有四组:组0是ABCDE,组1是BC,组2是B;组3是C,组4是D。
• int groupCount():返回匹配其模式中组的数目,不包括第0组。
• String group():返回前一次匹配操作(如find())的第0组。
• String group(int group):返回前一次匹配操作期间指定的组所匹配的子序列。如果该匹配成功,但指定组未能匹配字符序列的任何部分,则返回 null。
• int start(int group):返回前一次匹配操作期间指定的组所匹配的子序列的初始索引。
• int end(int group):返回前一次匹配操作期间指定的组所匹配的子序列的最后索引+1。
5、匹配的范围的控制
最变态的就要算lookingAt()方法了,名字很让人迷惑,需要认真看APIDoc。
• start() 返回以前匹配的初始索引。
• end() 返回最后匹配字符之后的偏移量。
• public boolean lookingAt()尝试将从区域开头开始的输入序列与该模式匹配。
与 matches 方法类似,此方法始终从区域的开头开始;与之不同的是,它不需要匹配整个区域。如果匹配成功,则可以通过 start、end 和 group 方法获取更多信息。
返回:当且仅当输入序列的前缀匹配此匹配器的模式时才返回 true。

6、Pattern标记
Pattern类的静态方法
1. static Pattern compile(String regex, int flags) 
将给定的正则表达式编译到具有给定标志的模式中。
其中的flags参数就是Pattern标记,这个标记在某些时候非常重要。
• Pattern.CANON_EQ 启用规范等价。
• Pattern.CASE_INSENSITIVE 启用不区分大小写的匹配。
• Pattern.COMMENTS 模式中允许空白和注释。
• Pattern.DOTALL 启用 dotall 模式。
• Pattern.LITERAL 启用模式的字面值分析。
• Pattern.MULTILINE 启用多行模式。
• Pattern.UNICODE_CASE 启用 Unicode 感知的大小写折叠。
• Pattern.UNIX_LINES 启用 Unix 行模式。
北大青鸟北京校区,北大青鸟课程—未完待续)

北大青鸟网上报名
北大青鸟招生简章