首页 > 网络科技 > linux学习日记九正则表达式介绍

linux学习日记九正则表达式介绍

来源：好再见网 2013-03-21 12:46:15

　　正则表达式就是处理字符串的方法，它以行为单位来进行字符串的处理行为，正则表达式通过一些特殊符号的辅助，可以让用户轻易达到查找、删除、替换某特定字符串的处理程序。

　　正则表达式基本上就是一种“表示法”，只要工具程序支持这种表示法，那么该工具程序就可以利用正则表达式处理字符串。例如vi，grep，awk，sed等。

　　正则表达式和之前的bash通配符是两个完全不同的东西，两者毫无关系，这个要注意下。

　　# grep [-A] [-B] [--color=auto] ‘string’ filename

　　-A：后面加数字，为after的意思，除了列出该行，后续的n行也列出

　　-B：before的意思，不解释

　　# dmesg | grep -n -A3 -B2 –color=auto ‘eth’ <== 内核信息

　　====几个基本的正则式特殊符号====

特殊符号	代表意义
[:alnum:]	代表英文大小写字符以及数字，亦即 0-9, A-Z, a-z
[:alpha:]	代表任何英文大小写字符，亦即 A-Z, a-z
[:blank:]	代表空白键与 [Tab] 按键两者
[:cntrl:]	代表键盘上面的控制按鍵，亦即包括 CR, LF, Tab, Del.. 等等
[:digit:]	代表数字而已，亦即 0-9
[:graph:]	除了空白字元 (空白键与 [Tab] 按鍵) 外的其他所有按鍵
[:lower:]	代表小写字元，亦即 a-z
[:print:]	代表任何可以被列印出來的字元
[:punct:]	代表标点符号 (punctuation symbol)，亦即：” ‘ ? ! ; : # $…
[:upper:]	代表大写字元，亦即 A-Z
[:space:]	任何会产生空白的字元，包括空白鍵, [Tab], CR 等等
[:xdigit:]	代表 16 进制的数字类型，因此包括： 0-9, A-F, a-f 的数字与字符

　　====基础正则式====

RE 字符	意义与范例
^word	意义：待搜寻的字串(word)在行首！范例：搜寻行首为 # 开始的那一行，并列出行号　　grep -n ‘^#’ regular_express.txt
word$	意义：待搜寻的字串(word)在行尾！范例：将行尾为 ! 的那一行列印出來，并列出行号　　grep -n ‘!$’ regular_express.txt
.	意义：代表『一定有一个任意字元』的字符！范例：搜寻的字串可以是 (eve) (eae) (eee) (e e)，但不能仅有 (ee) ！亦即 e 与 e 中间『一定』仅有一个字元，而空白字元也是字元！　　grep -n ‘e.e’ regular_express.txt
\	意义：跳脱字符，将特殊字符的特殊意义去除！范例：搜寻含有单引号 ‘ 的那一行！　　grep -n \’ regular_express.txt
*	意义：重复零个到无穷个的前一个字符范例：找出含有 (es) (ess) (esss) 等等的字串，注意，因为 * 可以是 0 個，所以 es 也是符合的。另外，因为 * 为重复『前一个字符』的符号，因此，在 * 之前必须要紧接着一个字符喔！例如任意字元則为『.』！　　grep -n ‘ess’ regular_express.txt
[list]	意義：字元集合的 RE 字符，裡面列出想要擷取的字元！范例：搜尋含有 (gl) 或 (gd) 的那一行，需要特別留意的是，在 [] 當中『謹代表一個待搜尋的字元』，例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思！　　grep -n ‘g[ld]‘ regular_express.txt
[n1-n2]	意义：字元集合里，列出想要撷取的字元范围！范例：搜寻含有任意数字的那一行！需特別留意，在字元集合 [] 中的减号 – 是有特殊意义的，他代表两个字元之间的所有连续字元！但这个连续与否与 ASCII 编码有关，因此，你的编码需要设定正确(在 bash当中，需要确定 LANG与LANGUAGE 的变量是否正确！) 例如所有大写字元則为 [A-Z] 　　grep -n ‘[A-Z]‘ regular_express.txt
[^list]	意义：字元集合的 RE 字符，里面列出不要的字串或范围！范例：搜寻的字串可以是 (oog) (ood) 但不能是 (oot) ，那个 ^ 在 [] 內时，代表的意义是『反向选择』的意思。例如，我不要大写字元，则为 [^A-Z]。但是，需要特別注意的是，如果以 grep -n [^A-Z] regular_express.txt 來搜寻，卻发现该文件內的所有行都被列出，为什么？因为这个 [^A-Z] 是『非大写字元』的意思，因为每一行均有非大写字元，例如第一行的 “Open Source” 就有 p,e,n,o…. 等等的小写字　　grep -n ‘oo[^t]‘ regular_express.txt
\{n,m\}	意义：连续 n 到 m 个的『前一个 RE 字符』意义：若为 \{n\} 则是连续 n 个的前一个 RE 字符，意义：若是 \{n,\} 則是连续 n 个以上的前一个 RE 字符！范例：在 g 与 g 之间有 2 个到 3 个的 o 存在的字串，亦即 (goog)(gooog) 　　grep -n ‘go\{2,3\}g’ regular_express.txt

　　====分析工具sed====

　　sed本身是一个管道命令，可以分析stdin数据

　　# sed [-nefr] [动作]

　　-n：使用安静模式（silent），在一般模式下，所有来自stdin数据都显示出来，而-n后只显示被sed特殊处理的那一行

　　-e：直接在命令行模式上进行sed的动作编辑

　　-f：直接将sed动作写在一个文件内，-f filename 则可以执行filename内的sed动作

　　-r：sed的动作支持的是扩展型正则式语法（默认是基础型）

　　-i：直接修改读取的文件内容，而不是由屏幕输出

　　动作说明：[n1[,n2]] function

　　n1,n2：不见得存在，一般代表选择进行动作的行数，比如在10到20行间进行，则”10,20 [动作行为]‘

　　function的参数：

　　a：新增，a的后面可以接字符串，而这些字符串会在新的一行出现（目前的下一行）

　　c：替换，c的后面接字符串，这些字符串可以替换n1,n2之间的行

　　d：删除，后面不接任何参数

　　i：插入，i后面可接字符串，这些字符串会在新的一行出现（目前的上一行）

　　p：打印，也就是将某个选择的数据打印出来。通常p会与参数sed -n 一起运行

　　s：替换，就是直接进行替换工作，通常这个s的动作可以搭配正则式例如：1,29s/old/new/g就是

　　注：sed后面接的动作，需要用两个单引号”括住。

　　# nl /etc/passwd | sed ’2,5d’

　　# nl /etc/passwd | sed ’3,$d’

　　整行替换：

　　# nl /etc/passwd | sed ’2,5c No 2-5 number’

　　# nl /etc/passwd | sed -n ’5,7p’ 这个等价于： head -n 7 | tail -n 5

　　sed的查找并替换，跟vim的很类似：

　　# sed ‘s/要被替换的字符串/新的字符串/g’

　　# nl /etc/passwd | sed ‘/^$/d’ <==删除空白行

　　====扩展正则式====

　　====好用的数据处理工具awk====

　　相比于sed常常作用于一整行的处理，awk则运用于将一行分成数个字段来处理，适用于处理小型数据

　　# awk ‘条件类型1 {动作1} 条件类型2 {动作2} …’ filename

　　# awk -n 5 | awk ‘{print $t “\t” $3}’

　　awk处理流程：

　　1，读入第一行，并将第一行的数据填入$0，$1，$2等变量中

　　2，依据条件类型限制，判断是否需要进行后面的动作

　　3，做完所有的动作与条件类型

　　4，若还有后续的行的数据，则重复上面的1~3的步骤，直到所有的数据都读完为止

　　awk的内置变量为：

　　* NF ：每一行（$0）拥有的字段总数

　　* NR ：目前awk所处理的是第几行数据

　　* FS ：目前的分隔符，默认是空格键

　　# last -n 5 | awk ‘{print $1 “\t lines: ” NR “\t columns: ” NF}’

　　# cat /etc/passwd | awk ‘BEGIN {FS=”:”} $3 < 10 {print $1 “\t ” $3}’

　　====文件的比较命令diff====

　　# diff [-bBi] original_file new_file

　　-b：忽略一行中仅有多个空白的区别

　　-B：忽略空白行的区别

　　-i：忽略大小写的不同

　　====补丁命令patch====

　　先用diff命令生成补丁文件：

　　# diff -Naur passwd.old passwd.new > paswd.patch

　　# patch -pN < patch_file <==更新

　　# patch -R -pN < patch_file <== 还原

　　-p：后面的N表示取消基层目录的意思

　　-R：代表还原，将新的文件还原成原本的旧的版本

　　再开始把旧文件升级到新版本：

　　# patch -p0 < passwd.patch

　　把新版本还原：

　　# patch -R -p0 < passwd.patch

　　打印命令pr….

　　============END===============

本文标签：

上一篇 : Linux常用命令用法100个

下一篇 : 教你在虚拟机linux操作系统中安装vmtools

RE 字符	意义与范例
^word	意义：待搜寻的字串(word)在行首！范例：搜寻行首为 # 开始的那一行，并列出行号　　grep -n ‘^#’ regular_express.txt
word$	意义：待搜寻的字串(word)在行尾！范例：将行尾为 ! 的那一行列印出來，并列出行号　　grep -n ‘!$’ regular_express.txt
.	意义：代表『一定有一个任意字元』的字符！范例：搜寻的字串可以是 (eve) (eae) (eee) (e e)，但不能仅有 (ee) ！亦即 e 与 e 中间『一定』仅有一个字元，而空白字元也是字元！　　grep -n ‘e.e’ regular_express.txt
\	意义：跳脱字符，将特殊字符的特殊意义去除！范例：搜寻含有单引号 ‘ 的那一行！　　grep -n \’ regular_express.txt
*	意义：重复零个到无穷个的前一个字符范例：找出含有 (es) (ess) (esss) 等等的字串，注意，因为 * 可以是 0 個，所以 es 也是符合的。另外，因为 * 为重复『前一个字符』的符号，因此，在 * 之前必须要紧接着一个字符喔！例如任意字元則为『.』！　　grep -n ‘ess’ regular_express.txt
[list]	意義：字元集合的 RE 字符，裡面列出想要擷取的字元！范例：搜尋含有 (gl) 或 (gd) 的那一行，需要特別留意的是，在 [] 當中『謹代表一個待搜尋的字元』，例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思！　　grep -n ‘g[ld]‘ regular_express.txt
[n1-n2]	意义：字元集合里，列出想要撷取的字元范围！范例：搜寻含有任意数字的那一行！需特別留意，在字元集合 [] 中的减号 – 是有特殊意义的，他代表两个字元之间的所有连续字元！但这个连续与否与 ASCII 编码有关，因此，你的编码需要设定正确(在 bash当中，需要确定 LANG与LANGUAGE 的变量是否正确！) 例如所有大写字元則为 [A-Z] 　　grep -n ‘[A-Z]‘ regular_express.txt
[^list]	意义：字元集合的 RE 字符，里面列出不要的字串或范围！范例：搜寻的字串可以是 (oog) (ood) 但不能是 (oot) ，那个 ^ 在 [] 內时，代表的意义是『反向选择』的意思。例如，我不要大写字元，则为 [^A-Z]。但是，需要特別注意的是，如果以 grep -n [^A-Z] regular_express.txt 來搜寻，卻发现该文件內的所有行都被列出，为什么？因为这个 [^A-Z] 是『非大写字元』的意思，因为每一行均有非大写字元，例如第一行的 “Open Source” 就有 p,e,n,o…. 等等的小写字　　grep -n ‘oo[^t]‘ regular_express.txt
\{n,m\}	意义：连续 n 到 m 个的『前一个 RE 字符』意义：若为 \{n\} 则是连续 n 个的前一个 RE 字符，意义：若是 \{n,\} 則是连续 n 个以上的前一个 RE 字符！范例：在 g 与 g 之间有 2 个到 3 个的 o 存在的字串，亦即 (goog)(gooog) 　　grep -n ‘go\{2,3\}g’ regular_express.txt

linux学习日记九正则表达式介绍

知识常识内容阅读榜

最近发表

推荐阅读

热门信息

linux学习日记九 正则表达式介绍

相关文章

知识常识内容阅读榜

最近发表

推荐阅读

热门信息

linux学习日记九正则表达式介绍