正则表达式基础知识及grep、egrep详解

什么是正则表达式
    在计算机科学中,正则表达式是这样解释的:它是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。对于系统管理员来讲,正则表达式贯穿在我们的日常运维工作中,无论是查找某个文档,亦或查询某个日志文件分析其内容,都会用到正则表达式。
grep
    grep: Global search REgular expression and Print outthe line,是一款文本过滤(模式:pattern)工具。
    作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行;
    模式:由正则表达式字符及文本字符所编写的过滤条件
  grep [OPTIONS] PATTERN [FILE...]
    grep root /etc/passwd
    grep "$USER" /etc/passwd
    grep '$USER' /etc/passwd
    grep `whoami` /etc/passwd
grep命令选项
    --color=auto: 对匹配到的文本着色显示;
 -v: 显示不能够被pattern匹配到的行;
 -i: 忽略字符大小写
 -n: 显示匹配的行号
 -c: 统计匹配的行数
 -o: 仅显示匹配到的字符串;
 -q: 静默模式,不输出任何信息
 -A #: after, 后#行
 -B #: before, 前#行
 -C #: context, 前后各#行
 -e:实现多个选项间的逻辑or关系
    grep –e ‘cat ’ -e ‘dog’ file
 -w:整行匹配整个单词
 -E:使用ERE
正则表达式
     REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能
程序支持: grep, vim, less,nginx等
分两类:
    基本正则表达式: BRE
    扩展正则表达式: ERE
    grep -E, egrep
正则表达式引擎:
    采用不同算法,检查处理正则表达式的软件模块
    PCRE( Perl Compatible Regular Expressions)
 元字符分类:字符匹配、匹配次数、位置锚定、分组
 man 7 regex
基本正则表达式元字符
字符匹配:
    . : 匹配任意单个字符;
    [] : 匹配指定范围内的任意单个字符
    [^] :匹配指定范围外的任意单个字符
    [:digit:]、 [:lower:]、 [:upper:]、 [:alpha:]、 [:alnum:]、 [:punct:]、 [:space:]
匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
    *:匹配前面的字符任意次,包括0次
    贪婪模式:尽可能长的匹配
    .*:任意长度的任意字符
    \?:匹配其前面的字符0或1次
    \+:匹配其前面的字符至少1次
    \{m\}:匹配前面的字符m次
    \{m,n\}:匹配前面的字符至少m次,至多n次
    \{,n\}:匹配前面的字符至多n次
    \{m,\}:匹配前面的字符至少m次
位置锚定:定位出现的位置
    ^:行首锚定,用于模式的最左侧
    $:行尾锚定,用于模式的最右侧
    ^PATTERN$: 用于模式匹配整行
    ^$: 空行
    ^[[:space:]]*$ :空白行
    \< 或 \b:词首锚定,用于单词模式的左侧
    \> 或 \b:词尾锚定;用于单词模式的右侧
    \<PATTERN\>:匹配整个单词
分组: \(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如: \(root\)\+
    分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ...
    \1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;
    实例: \(string1\+\(string2\)*\)
    \1: string1\+\(string2\)*
    \2: string2
    后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)
egrep及扩展的正则表达式
    egrep = grep -E
 egrep [OPTIONS] PATTERN [FILE...]
扩展正则表达式的元字符:
     字符匹配:
    . 任意单个字符
    [] 指定范围的字符
    [^] 不在指定范围的字符
次数匹配:
    *:匹配前面字符任意次
    ?: 0或1次
    +: 1次或多次
    {m}:匹配m次
    {m,n}:至少m,至多n次
位置锚定:
^ :行首
$ :行尾
\<, \b :语首
\>, \b :语尾
分组:
    ()
后向引用: \1, \2, ...
 或者:
    a|b
    C|cat: C或cat
    (C|c)at:Cat或ca
按列抽取文本
    cut [OPTION]... [FILE]...
    -d DELIMITER: 指明分隔符,默认tab
    -f FILEDS:
    #: 第#个字段
    #,#[,#]:离散的多个字段,例如1,3,6
    #-#:连续的多个字段, 例如1-6
    混合使用: 1-3,7
    -c 按字符切割
    --output-delimiter=STRING指定输出分隔符
    显示文件或STDIN数据的指定列
    cut -d: -f1 /etc/passwd
    cat /etc/passwd | cut -d: -f7
    cut -c2-5 /usr/share/dict/words
合并文件paste
    paste 合并两个文件同行号的列到一行
    paste [OPTION]... [FILE]...
    -d 分隔符:指定分隔符,默认用TAB
    -s : 所有行合成一行显示
    paste f1 f2
    paste -s f1 f2
分析文本的工具
    文本数据统计: wc
    整理文本: sort
    比较文件: diff和patch
收集文本统计数据
    计数单词总数、行总数、字节总数和字符总数
    可以对文件或STDIN中的数据运行
    $ wc story.txt
    39 237 1901 story.txt
    行数 字数 字符数
    使用 -l 来只计数行数
    使用 -w 来只计数单词总数
    使用 -c 来只计数字节总数
    使用 -m 来只计数字符总数
文本排序sort
    把整理过的文本显示在STDOUT,不改变原始文件
    $ sort [options] file(s)
    常用选项
 -r 执行反方向(由上至下)整理
 -n 执行按数字大小整理
 -f 选项忽略( fold)字符串中的字符大小写
 -u 选项(独特, unique)删除输出中的重复行
 -t c 选项使用c做为字段界定符
 -k X 选项按照使用c字符分隔的X列来整理能够使用多次
uniq
    uniq命令:从输入中删除重复的前后相接的行
    uniq [OPTION]... [FILE]...
    -c: 显示每行重复出现的次数;
    -d: 仅显示重复过的行;
    -u: 仅显示不曾重复的行;
    连续且完全相同方为重复
 常和sort 命令一起配合使用:
    sort userlist.txt | uniq -c
比较文件
    比较两个文件之间的区别
    $ diff foo.conf-broken foo.conf-works
5c5
< use_widgets = no
---
> use_widgets = yes
 注明第5行有区别(改变
复制对文件改变patch
    diff 命令的输出被保存在一种叫做“补丁”的文件中
 使用 -u 选项来输出“统一的( unified)” diff格式文件,最适用于补丁文件。
 patch 命令复制在其它文件中进行的改变(要谨慎使用!)
 适用 -b 选项来自动备份改变了的文件
    $ diff -u foo.conf-broken foo.conf-works > foo.patch
    $ patch -b foo.conf-broken foo.patch

    

原创文章,作者:RecallWzc,如若转载,请注明出处:http://www.178linux.com/31241

(0)
上一篇 2016-08-08 16:05
下一篇 2016-08-08 16:07

相关推荐

  • Linux基础知识—文件系统和常用命令解读

    一、    计算机组成         计算机组成(Computer Composition)指的是计算机系统结构(Computer Architecture)的逻辑实现,包括机器机内的数据流和控制流的组成及逻辑设计等。其任务是在指令集系统结构确定分配给硬件系…

    Linux干货 2016-09-18
  • Linux 性能监控、测试、优化工具

    Linux 平台上的性能工具有很多,眼花缭乱,长期的摸索和经验发现最好用的还是那些久经考验的、简单的小工具。系统性能专家 BrendanD. Gregg 在最近的 LinuxCon NA 2014 大会上更新了他那个有名的关于 Linux 性能方面的 talk (Linux Performance Tools) 和幻灯片。    和 Br…

    Linux干货 2015-03-03
  • 马哥教育网络班22期+第5周课程练习

    1、显示当前系统上root、fedora或user1用户的默认shell;cat /etc/passwd | grep "^\<root\>"cat /etc/passwd | grep "^\<fedora\>"cat /etc/passwd | grep "^\<user1\…

    Linux干货 2016-09-19
  • LVS介绍

    LVS介绍     LVS是linux virtual server的简写,是服务器集群的一种负载均衡解决方案,作为netfilter的补充套件,工作于内核空间。     常见的术语 CIP:客户端ip地址 RIP:后端服务器ip地址 VIP:lvs面向客户端的ip地址 DIP:lvs面向…

    Linux干货 2017-08-04
  • 三问:linux操作系统安全加固

    三问:linux操作系统安全加固 1.为什么要进行安全加固?     安全加固的重要性不言而喻。我这里把操作系统同马斯洛需求层次做了个类比,如有不恰当之处,还请指教。同人一样,操作系统也有自己的生理需求,对于人来说生理需求无非吃喝拉撒等,而对于操作系统来说它的生理需求又是什么了?我个人认为应该是底层硬件的配置,内核的驱…

    Linux干货 2017-03-30
  • 0811:脚本练习

    系统信息获取脚本 1、编写脚本/root/bin/systeminfo.sh,显示当前主机系统信息,包括主机名,IPv4地址,操作系统版本,内核版本,CPU型号,内存大小,硬盘大小。 [root@centos7 scripts]#cat systeminfo.sh  #!/usr/bin/bash  server_ip…

    Linux干货 2016-08-22