正则表达式基础知识及grep、egrep详解

什么是正则表达式
    在计算机科学中,正则表达式是这样解释的:它是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。对于系统管理员来讲,正则表达式贯穿在我们的日常运维工作中,无论是查找某个文档,亦或查询某个日志文件分析其内容,都会用到正则表达式。
grep
    grep: Global search REgular expression and Print outthe line,是一款文本过滤(模式:pattern)工具。
    作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行;
    模式:由正则表达式字符及文本字符所编写的过滤条件
  grep [OPTIONS] PATTERN [FILE...]
    grep root /etc/passwd
    grep "$USER" /etc/passwd
    grep '$USER' /etc/passwd
    grep `whoami` /etc/passwd
grep命令选项
    --color=auto: 对匹配到的文本着色显示;
 -v: 显示不能够被pattern匹配到的行;
 -i: 忽略字符大小写
 -n: 显示匹配的行号
 -c: 统计匹配的行数
 -o: 仅显示匹配到的字符串;
 -q: 静默模式,不输出任何信息
 -A #: after, 后#行
 -B #: before, 前#行
 -C #: context, 前后各#行
 -e:实现多个选项间的逻辑or关系
    grep –e ‘cat ’ -e ‘dog’ file
 -w:整行匹配整个单词
 -E:使用ERE
正则表达式
     REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能
程序支持: grep, vim, less,nginx等
分两类:
    基本正则表达式: BRE
    扩展正则表达式: ERE
    grep -E, egrep
正则表达式引擎:
    采用不同算法,检查处理正则表达式的软件模块
    PCRE( Perl Compatible Regular Expressions)
 元字符分类:字符匹配、匹配次数、位置锚定、分组
 man 7 regex
基本正则表达式元字符
字符匹配:
    . : 匹配任意单个字符;
    [] : 匹配指定范围内的任意单个字符
    [^] :匹配指定范围外的任意单个字符
    [:digit:]、 [:lower:]、 [:upper:]、 [:alpha:]、 [:alnum:]、 [:punct:]、 [:space:]
匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
    *:匹配前面的字符任意次,包括0次
    贪婪模式:尽可能长的匹配
    .*:任意长度的任意字符
    \?:匹配其前面的字符0或1次
    \+:匹配其前面的字符至少1次
    \{m\}:匹配前面的字符m次
    \{m,n\}:匹配前面的字符至少m次,至多n次
    \{,n\}:匹配前面的字符至多n次
    \{m,\}:匹配前面的字符至少m次
位置锚定:定位出现的位置
    ^:行首锚定,用于模式的最左侧
    $:行尾锚定,用于模式的最右侧
    ^PATTERN$: 用于模式匹配整行
    ^$: 空行
    ^[[:space:]]*$ :空白行
    \< 或 \b:词首锚定,用于单词模式的左侧
    \> 或 \b:词尾锚定;用于单词模式的右侧
    \<PATTERN\>:匹配整个单词
分组: \(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如: \(root\)\+
    分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ...
    \1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;
    实例: \(string1\+\(string2\)*\)
    \1: string1\+\(string2\)*
    \2: string2
    后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)
egrep及扩展的正则表达式
    egrep = grep -E
 egrep [OPTIONS] PATTERN [FILE...]
扩展正则表达式的元字符:
     字符匹配:
    . 任意单个字符
    [] 指定范围的字符
    [^] 不在指定范围的字符
次数匹配:
    *:匹配前面字符任意次
    ?: 0或1次
    +: 1次或多次
    {m}:匹配m次
    {m,n}:至少m,至多n次
位置锚定:
^ :行首
$ :行尾
\<, \b :语首
\>, \b :语尾
分组:
    ()
后向引用: \1, \2, ...
 或者:
    a|b
    C|cat: C或cat
    (C|c)at:Cat或ca
按列抽取文本
    cut [OPTION]... [FILE]...
    -d DELIMITER: 指明分隔符,默认tab
    -f FILEDS:
    #: 第#个字段
    #,#[,#]:离散的多个字段,例如1,3,6
    #-#:连续的多个字段, 例如1-6
    混合使用: 1-3,7
    -c 按字符切割
    --output-delimiter=STRING指定输出分隔符
    显示文件或STDIN数据的指定列
    cut -d: -f1 /etc/passwd
    cat /etc/passwd | cut -d: -f7
    cut -c2-5 /usr/share/dict/words
合并文件paste
    paste 合并两个文件同行号的列到一行
    paste [OPTION]... [FILE]...
    -d 分隔符:指定分隔符,默认用TAB
    -s : 所有行合成一行显示
    paste f1 f2
    paste -s f1 f2
分析文本的工具
    文本数据统计: wc
    整理文本: sort
    比较文件: diff和patch
收集文本统计数据
    计数单词总数、行总数、字节总数和字符总数
    可以对文件或STDIN中的数据运行
    $ wc story.txt
    39 237 1901 story.txt
    行数 字数 字符数
    使用 -l 来只计数行数
    使用 -w 来只计数单词总数
    使用 -c 来只计数字节总数
    使用 -m 来只计数字符总数
文本排序sort
    把整理过的文本显示在STDOUT,不改变原始文件
    $ sort [options] file(s)
    常用选项
 -r 执行反方向(由上至下)整理
 -n 执行按数字大小整理
 -f 选项忽略( fold)字符串中的字符大小写
 -u 选项(独特, unique)删除输出中的重复行
 -t c 选项使用c做为字段界定符
 -k X 选项按照使用c字符分隔的X列来整理能够使用多次
uniq
    uniq命令:从输入中删除重复的前后相接的行
    uniq [OPTION]... [FILE]...
    -c: 显示每行重复出现的次数;
    -d: 仅显示重复过的行;
    -u: 仅显示不曾重复的行;
    连续且完全相同方为重复
 常和sort 命令一起配合使用:
    sort userlist.txt | uniq -c
比较文件
    比较两个文件之间的区别
    $ diff foo.conf-broken foo.conf-works
5c5
< use_widgets = no
---
> use_widgets = yes
 注明第5行有区别(改变
复制对文件改变patch
    diff 命令的输出被保存在一种叫做“补丁”的文件中
 使用 -u 选项来输出“统一的( unified)” diff格式文件,最适用于补丁文件。
 patch 命令复制在其它文件中进行的改变(要谨慎使用!)
 适用 -b 选项来自动备份改变了的文件
    $ diff -u foo.conf-broken foo.conf-works > foo.patch
    $ patch -b foo.conf-broken foo.patch

    

原创文章,作者:RecallWzc,如若转载,请注明出处:http://www.178linux.com/31241