正则表达式和文本处理工具grep,egrep

正则表达式(Regular Expression)是通过一些特殊字符的排列,来表示控制或者通配的功能,用于查找,替换,删除一行或者多行文字字符串,是用在字符处理上的一项表达式,有时候我们可通过表达式来筛选出我们所需要的信息。

正则表达式分为两类:基本正则表达式(BRE)和扩展的正则表达式(ERE)

正则表达式基本上是一种“表示法”,只要工具程序支持这种表示法,那么该工具就可以用来做字符串处理,例如vim,grep,awk,sed….等

基本正则表达式的元字符:

我们这里基本正则表达式的元字符和giobbing的元字符有些相似,也有些不同.这里我们应该忘记giobbing的元字符来重新学习正则表达式的元字符,这里不能混淆!giobbing只是shell里面支持的文件名通配

字符匹配:

.:匹配任意单个字符;

[ ]:匹配指定范围的任意单个字符;

[^]:匹配指定范围之外的任意单个字符;

匹配的字符集:

[:digit:];所有的数字

[:lower:];所有的小写字母

[:upper:];所有的大写字母

[:alpha:];所有的字母

[:punct:];所有标点符号

[:space:];空白字符

[:alunm:];所有字母和数字

匹配次数

要用在指定出现次数字符的后面,用于限制其前面字符出现的次数;默认工作在贪婪模式中

*:匹配其前面的字符任意次;0次1次或者多次

例如:grep "t*b"

txxbb:匹配;t有出现一次

yxb:匹配;t有出现0次

tttttttpb :匹配;t有出现多次

abc:匹配;t有出现0次

\?:匹配其前面的字符0次或1次,即前面的字符可有可无;
\+:匹配其前面的字符1次或者多次,即前面的字符至少要出现一次;
\{m\}:匹配其前面的字符m次;
\{m,n\}:匹配其前面的字符至少m次;至多n次;

\{0,n\}:至多n次;

\{m,\}:至少m次;

位置锚定;用来控制匹配字符串的位置

^:行首锚定;用于匹配模式的最左侧;
$:行尾锚定;用于匹配模式的最右侧

两者结合就表示锚定的是空白行

^$:空白行

^[[:space:]]*$:空白行或者包含了空白行的字符

我们这里也可以使用\<PATTERN\>来匹配完整的单词

需要强调的是我们这里所指的单词是由非特殊字符组成的连续字符或字符串都称为单词

词首和词尾的锚定也可以使用另一种方式来锚定,这里要用到上面单词匹配的模式由转义符\加><或者b来表示;

\<或者\b:词首锚定;用于单词模式的左侧

\>或\b:词尾锚定;用于单词模式的右侧

分组及引用

如果我们需要匹配两个字符而且出现多次怎么办?这里我们就要用到分组

分组可以用括号括起来,但是括号在bash的命令行里面是有特殊含义的,所以我们这里需要用到转义符\

\(\):将一个或者多个字符捆绑在一起,当做一个整体

\(xy\)*ab

这里就表示xy这组符号要出现0次或者多次

分组括号里面的模式匹配到的内容还可以被引用,其内容会被正则表达式引擎自动记录到内部变量中;需要引用的话要用到\1,\2,\3,…..等等

\1:表示从模式左侧起,第一个左括号和与之匹配的右括号之间被模式匹配到的字符

\2:表示从模式左侧起,第二个左括号与之匹配的右括号之间被模式匹配到的字符

\3:…….

文本处理工具grep

在Linux里面所有的配置文件都是以纯文本格式来展现出来的,所以在Linux里面文本的处理是及其重要的,可以帮助我们更好的提高效率

Linux上有文本处理工具三剑客,他们各自都有着强大的文本处理能力

awk:文本报告生成器

sed:流编辑器,文本编辑工具

grep:文本过滤工具

今天主要讲grep(Global search REgular expression and print out line)

作用:文本搜索工具,根据用户指定的“模式”也就是过滤条件来对目标文件进行逐行匹配并打印匹配到的行

grep工具可以分为三类:

1.grep:支持基本的正则表达式

2.egrep:支持扩展的正则表达式

3.fgrep:不支持正则表达式

这前两个都可以加选项来表示转换为另外两个;(grep -E)=egrep ;(grep -F)=fgrep;(egrep -G,-F)

grep命令

grep:文本过滤工具
    grep  [OPTIONS]  PATTERN  [FILE...]
    grep  [OPTIONS]  [-e PATTERN | -f FILE]  [FILE...]
    --color=auto:对匹配到的文本着色高亮显示
    -i:igorecase,忽略字符的大小写
    -o:仅显示匹配到的字符串本身
    -v:显示不能被模式匹配到的行
    -E:支持使用扩展正则表达式元字符
    -q:--quit,静默模式,即不输出任何信息
    -A #:显示匹配到的行后#行
    -B #:显示匹配到的行前#行
    -C #:显示匹配到的行前后各#行
    gerp默认只显示匹配到的行

egrep:支持扩展的正则表达式来实现类似于grep的文本过滤工具
    egrep [OPTIONS] PATTERN [FILE...]
    -i:
    -o:
    -v:
    -q:
    -A:
    -B:
    -C:
    -g:支持基本正则表达式

fgrep:不支持正则表达式元字符
    当不需要用到正则表达式字符编写模式的时候,使用fgrep能更好

文本查看及处理工具

wc:文本统计
    wc  [OPTION]...  [FILE]...
    -l:lines;统计有多少行
    -w:words;统计有多少单词
    -c:bytes;统计有多少字节

cut:以某个字符段来切割显示文件内容
    cut OPTION... [FILE]...
    -d CHAR:以指定的字符为分隔符;
    -f FILEDS:要挑选出的字符串 
        \#:指定的单个字符;
        \#-\#:连续的多个字段;
        \#,\#:离散的多个字段;

sort:对文本进行排序并输出
    sort  [OPTION]...  [FILE]...
    -n:基于数值大小而非字符进行排序;
    -t CHAR:指定分隔符
    -k \#:用于排序比较的字段;
    -r:逆序排列;
    -f:忽略字符大小写;
    -u:重复的行只保留一份

uniq:报告或者移除重复的行
    uniq [OPTION]... [INPUT [OUTPUT]]
    -c:显示每行的重复次数
    -u:仅显示没有重复的行
    -d:仅显示重复过的行

duff:逐行进行比较文件
    diff [OPTION]... FILES

练习

新建文件lovers.txt;匹配以l开头中间有两个任意字符并以e结尾的字符串后面可以为任意长度的任意字符的行看那个匹配

        He loves his lover.
        He likes his lover.
        She likes her liker.
        She loves her liker.

grep “\(l..e\).*” lovers.txt

练习:

1、显示/etc/passwd文件中不以/bin/bash结尾的行;

grep -v "\(/bin/bash\)$" /etc/passwd

2、找出/etc/passwd文件中的两位数或三位数;

grep "\<[0-9]\{2,3\}\>" /etc/passwd

3.找出/etc/rc.d/rc.sysinit或/etc/grub2.cfg文件中,以至少一个空白字符开头,且后面非空白字符的行;

grep "^[[:space:]]\+[^[space:]]" /etc/grub2.cfg

4.找出"netstat -tan"命令的结果中以'LISTEN'后跟0、1或多个空白字符结尾的行;

netstat -tan | grep "\<LISTEN\>[[:space:]]*"

原创文章,作者:N24-执念,如若转载,请注明出处:http://www.178linux.com/64285

(0)
N24-执念N24-执念
上一篇 2016-12-20 15:03
下一篇 2016-12-20 16:55

相关推荐

  • CentOS启动流程及Shell脚本编程练习

    一、请详细描述CentOS系统的启动流程(详细到每个过程系统做了哪些事情) 第一步:POST加电自检 主要实现的功能是检测各个外围硬件设备是否存在而且能够正常运行起来,实现这一自检功能的是固化在主板上的ROM(主要代表为CMOS)芯片上的BIOS(Basic Input/Output System)程序。 第二步:Boot Sequence(选择启动设备以加…

    2017-11-26
  • 软件包管理

    一、软件管理程序rpm 简介:RPM是通过预编译并打包成为RPM文件格式后再加以安装的一种方式,并且还能够进行数据库的记载。 1、优点:     1、RPM内含已经编译过的程序与设置文件等数据,可以让用户免除重新编译的困扰;     2、RPM在被安装之前,会先检查系统的硬盘容量…

    Linux干货 2016-08-24
  • linux软件包管理

    linux软件包管理 简介     在Linux系统中,软件包的安装和管理是很重要的知识,而linux/unix一个麻烦的地方就是软件安装程序比较麻烦和复杂,尤其是当所安装的软件包要处理较多的包依赖关系,这就更让人头疼了,最常见linux软件安装方式有三种:     本文主要介绍Linux中RedHat或CentOS发…

    系统运维 2016-05-05
  • 网络服务之Apache

      互联网这个历史已经不算很短了,它大大方便了人类获取信息,开阔了人类的眼界,使得让这个世界变得小了起来,人与人之间的距离感也不会存在了,娱乐也更加丰富,听音乐、看电影等等这一系列,都能从网上进行,这些功能,都是由www服务器来提供服务,在Linux中,提供网络的服务器有很多种,那么今天我们就讲一个比较老牌,且依然能存活的服务器“阿帕奇”…

    Linux干货 2017-01-13
  • linux基础学习-第六天

    2016-08-02 授课内容: 用户和组管理命令 理解并设置文件权限 默认权限 特殊权限 文件ACL 用户和组管理命令 用户和组的配置文件:/etc/default/useradd(相当于useradd -D)、/etc/skel(创建用户的家目录配置文件)、/etc/login.defs(修改用户的密码策略配置) /etc/default/useradd…

    Linux干货 2016-08-04
  • 马哥教育网络班22期+第9周课程练习 忍者乱太郎喻成

    1、写一个脚本,判断当前系统上所有用户的shell是否为可登录shell(即用户的shell不是/sbin/nologin);分别这两类用户的个数;通过字符串比较来实现; #!/bin/bash declare -i user_can_not_login_count; declare -i user_can_login…

    Linux干货 2017-01-03