正則表達式常用語法

正則表達式是一種表達文本模式(即字符串結構)的方法,有點像字符串的模板,常常用作按照“給定模式”匹配文本的工具,簡單概括就是模糊匹配特定內容。

比如,正則表達式給出一個正整數的模式,然后用它來確定一個字符串是否為正整數,正則:[1-9]\d*


常用的元字符

有特殊含義,不代表字面的意思;

1、點字符(.)

匹配除回車(\r)、換行(\n) 、行分隔符和段分隔符以外的所有字符。


2、位置字符

^ 表示字符串的開始位置

$ 表示字符串的結束位置


3、選擇符(|)

豎線符號(|)在正則表達式中表示“或關系”(OR),即a|b表示匹配a或b。


4、轉義符
正則模式中,需要用斜杠轉義的,一共有12個字符:^、 .、 [、 $、 (、 )、 |、 *、 +、 ?、 {和\\。


5、預定義模式

    \d 匹配0-9之間的任一數字,相當于[0-9];

    \D 匹配所有0-9以外的字符,相當于[^0-9];

    \w 匹配任意的字母、數字和下劃線,相當于[A-Za-z0-9_];

    \W 除所有字母、數字和下劃線以外的字符,相當于[^A-Za-z0-9_];

    \s 匹配空格(包括制表符、空格符、斷行符等),相等于[\t\r\n\v\f];

    \S 匹配非空格的字符,相當于[^\t\r\n\v\f];


6、量詞符

    ? 問號表示某個模式出現0次或1次;

    * 星號表示某個模式出現0次或多次;  

    + 加號表示某個模式出現1次或多次;


簡數采集提供常用的正則表達式


常用的正則表達式有:日期、征服整數,正負浮點數、網址URL、Email和IP等。

    詳情可看采集數據處理-正則提取或替換內容


青海快3电子走势图