Linux运维学习历程-第七天-Linux文本工具及正则表达式

文本处理工具:

Linux文本处理三剑客:

  grep、egrep、fgrep:文本过滤工具(模式:pattern)工具

     grep:基本正则表达式 -E -F

     egrep:扩展正则表达式 -G -F

     fgrep:不支持正则表达式 -E -G 仅仅进行字符匹配,没有模式只有文本,推荐使用速度快

  sed:stream editor,流编辑器;文本编辑工具

  gawk(awk):Linux上的实现为gawk,文本报告生成器(格式化文本)

  正则表达式:Regual Expression,REGEXP

      有一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能

    分两类:

       基本正则表达式:BRE

       扩展正则表达式:ERE

       元字符:不能够被切割,表示控制和通配的功能

grep:Global search REgular expression and Print out the line.

  作用:文本搜索工具,根据用户指定的“模式(过滤条件)”对目标文本逐行进行匹配检查;打印匹配到的行;

  模式:由正则表达式的元字符及文本字符所编写出的过滤条件;

  正则表达式引擎

  

grep:

  grep [OPTIONS] PATTERN [FILE…]

  grep [OPTIONS] [-e PATTERN | -f FILE] [FILE…]

      OPTIONS:

        –color=auto:对匹配到的文本着色后高亮显示

        -i:ignore-case:忽略字符的大小写

        -o:仅显示匹配到的字符串本身

        -v:–invert-match:显示不能被模式匹配到的行

        -E:支持使用扩展的正则表达式元字符

        -q,–quiet,–silent:静默模式,既不输出任何信息(匹配到就匹配返回值0,没匹配到就不匹配返回值1)

        -A#:after,后#行

        -B#:before,前#行

        -C#:context,前后各#行

  基本正则表达式元字符:

      字符匹配:

        .:匹配任意单个字符

        []:匹配指定范围内的任意单个字符;

        [^]:匹配指定范围外的任意单个字符

        以上[]当中的范围有以下几种表示方法:

        [:digit:]:表示所有数字

        [:lower:]:表示所有小写字母  

        [:upper:]:表示所有大写字母

        [:alpha:]:表示所有大小写字母

        [:alnum:]:表示所有字母和数字

        [:punct:]:表示所有的标点符号

        [:space:]:表示所有的空白字符

        [:graph:]:匹配打印字符。[[:graph:]] 等效于 [[:alnum:][:punct:]]。

        [:cntrl:]:匹配顺序值小于32或字符值为127的ASCII字符(控制字符)。控制字符包括换行符、换页符、退格符,等等。

        [:xdigit:]:匹配字符类[0-9A-Fa-f]中的字符

        [:print:]:匹配打印字符和空格。[[:print:]]等效于[[:graph:][:space:]]

        匹配次数:用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数;

        *:匹配前面的字符任意次

        .*:匹配任意长度的任意字符

        \?:匹配其前面的字符0或1次,即前面的可有可无;   

        \+:匹配其前面的字符至少1次

       \{m\}:匹配其前面的字符m次

       \{m,n\}:匹配其前面的字符至少m次,至多n次

       \{0,n\}:匹配前面的字符至多n次 

       \{m,\}:匹配前面的字符至少m次

       

       位置锚定:

          ^:行首锚定:用于模式的最左侧;

          $:行尾锚定:用于模式的最右侧;

          ^PATTERN$:用于PATTERN来匹配整行

              ^$:空行;不包括空白字符的行

              ^[[:space:]]*$:空白行或包含空白字符的行

          单词:非特殊字符组成的连续字符(字符串)都称为单词

          \<或\b:词首锚定,用于单词模式的左侧

          \>或\b:词尾锚定,用于单词模式的右侧

          \<PATTERN\>:匹配完整单词;

      练习:

          1、显示/etc/passwd文件中不以/bin/bash结尾的行;

          group -v "/bin/bash$" /etc/passwd

          2、找出/etc/passwd文件中两位或三位数;

          group "\<[0-9]\{2,3\}\>" /etc/passwd

          3、找出/etc/rc.d/rc.sysinit或/etc/grub2.cfg文件中,以至少一个空白字符开头,且后面非空白字符的行

          group "^[[:space:]]\+[^[space]]" /etc/grub2.cfg

          4、找出"netstat-tan"命令的结果中以'LISTEN'后面跟0、1或多个空白字符结尾的行

          netstat -tan |grep "LISTEN[[:space:]]*$"

       

       分组及引用:

           \(\):将一个或多个字符捆绑在一起,当作一个整体进行处理

          Note:分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中,这些变量为:

              \1:模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

              \2:模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

              \3:模式从左侧起,第三个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

              …

        后向引用:引用前面的分组括号中的模式所匹配到的字符,而非模式本身

        egrep:支持扩展的正则表达式实现类似于grep文本过滤功能;grep -E

               egrep [OPTIONS] PATTERN [FILE…]

               egrep [OPTIONS] [-e PATTERN | -f FILE] [FILE…]        

               选项:

                  OPTIONS:

                  –color=auto:对匹配到的文本着色后高亮显示

                  -i:ignore-case:忽略字符的大小写

                  -o:仅显示匹配到的字符串本身

                  -v:–invert-match:显示不能被模式匹配到的行

                  -E:支持使用扩展的正则表达式元字符

                  -q,–quiet,–silent:静默模式,既不输出任何信息(匹配到就匹配返回值0,没匹配到就不匹配返回值1)

                  -A#:after,后#行

                  -B#:before,前#行

                  -C#:context,前后各#行

      扩展正则表达式元字符:

      字符匹配:

        .:匹配任意单个字符

        []:匹配指定范围内的任意单个字符;

        [^]:匹配指定范围外的任意单个字符

        以上[]当中的范围有以下几种表示方法:

        [:digit:]:表示所有数字

        [:lower:]:表示所有小写字母  

        [:upper:]:表示所有大写字母

        [:alpha:]:表示所有大小写字母

        [:alnum:]:表示所有字母和数字

        [:punct:]:表示所有的标点符号

        [:space:]:表示所有的空白字符

        [:graph:]:匹配打印字符。[[:graph:]] 等效于 [[:alnum:][:punct:]]。

        [:cntrl:]:匹配顺序值小于32或字符值为127的ASCII字符(控制字符)。控制字符包括换行符、换页符、退格符,等等。

        [:xdigit:]:匹配字符类[0-9A-Fa-f]中的字符

        [:print:]:匹配打印字符和空格。[[:print:]]等效于[[:graph:][:space:]]

        匹配次数:用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数;

        *:匹配前面的字符任意次

        ?:匹配其前面的字符0或1次,即前面的可有可无;   

        +:匹配其前面的字符至少1次

       {m}:匹配其前面的字符m次

       {m,n}:匹配其前面的字符至少m次,至多n次

       {0,n}:匹配前面的字符至多n次 

       {m,}:匹配前面的字符至少m次

       

          分组及引用:

           ():将一个或多个字符捆绑在一起,当作一个整体进行处理

          Note:分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中,这些变量为:

              \1:模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

              \2:模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

              \3:模式从左侧起,第三个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

              …

        后向引用:引用前面的分组括号中的模式所匹配到的字符,而非模式本身

        或

          a|b:a或者b;

             C|cat:C或cat

             (C|c)at:Cat或cat

    练习:

       1、找出/proc/meminfo文件中,所有以大写或小写s开头的行;至少有三种实现方式;

          grep -i "^s" /proc/memsinfo

          grep "^[Ss]"  /proc/memsinfo

          egrep "^(S|s)" /proc/memsinfo

      

       2、显示当前系统上root、centos或user1用户的相关信息;

          egrep "^(root|centos|user1)\>" /etc/passwd

      

       3、找出/etc/rc.d/init.d/functions文件中某单词后面跟一个小括号的行

       egrep -o "[_[:alnum:]]+\(\)" /etc/rc.d/init.d/functions

       

       4、使用echo命令输出一个绝对路径,使用egrep取出基名;

       echo "/tmp/dir"|egrep -o "[^/]+/?$"

       echo "/tmp/dir"|grep -o "[^/]\+\/\?$"

       进一步:取出其路径;类似于对其执行dirname命令的结果

       5、找出ifconfig命令结果中的1-255之间的数值;

         ifconfig|egrep -o "\<[1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]\>"

       

       6、添加用户bash,testbash,basher以及nologin(其shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行

       egrep "^(bash|testbash|basher|nologin):.*\1$" /etc/passwd

       egrep "^(bash|testbash|basher|nologin)\b.*\1$" /etc/passwd

       egrep "^([^:]+\>).*\1$" /etc/passwd

       fgrep:不支持正则表达式元字符

             当无需要用到元字符去编写模式时,使用fgrep必能更好;

文本查看及处理工具:wc、cut、sort、uniq、diff、patch

    wc:word count显示每个文件的换行符、 字和字节计数

       wc [OPTION]… [FILE]…

       wc [OPTION]… –files0-from=F

   显示数据含义:

       行数 单词数  字节数

            -l:仅lines行数

            -w:仅works单词数

            -c:仅bytes字节数

    

    cut:从文件的每一行中删除节

       cut OPTION… [FILE]…

                       -dCHAR:以指定的字符为分隔符,默认为空白字符例如-d:、-d|

                       -fFIELDS:挑选出的字符

                           #:显示第#行

                           #-#:显示#到#行

                           #,#:显示#和#行

    

    sort:按行排序

        sort [OPTION]… [FILE]…

        sort [OPTION]… –files0-from=F

               -n:基于数值大小而非字符进行排序

               -t CHAR:指定分隔符

               -k#:用于排序比较的字段

               -r:逆序排序

               -f:忽略字符大小写

               -u:重复的行只保留一份(重复:连续且相同)

   

    uniq:报告或忽略重复的行

          uniq [OPTION]… [INPUT [OUTPUT]]

                 -c:统计每行重复的次数

                 -u:仅显示未重复的行

                 -d:仅显示重复过的行

    diff:逐行比较文件(生成补丁)

         diff [OPTION]… FILES

                -u:使用unfied机制,即显示要修改的行的上下文,默认为3行

          diff /PATH/TO/OLDFILE /PATH/TONEWFILE >/PATH/TO/PATCH_FILE

          例如 :diff file file.new > file.patch

   

    patch:补丁更改应用的文件(向文件打补丁)

          patch [-blNR][ -c| -e| -n][-d dir][-D define][-i patchfile][-o outfile][-p num][-r rejectfile][file]

          patch [OPTIAONS] -i  /PATH/TO/PATCH_FILE /PATH/TO/OLDFILE

          patch /PATH/TO/OLDFILE < /PATH/TO/PATCH_FILE

          安装patch:yum install patch

           -i:打补丁

          patch -i file.patch file

           -R:还原补丁

          patch -R -i file.patch file

原创文章,作者:NameLess,如若转载,请注明出处:http://www.178linux.com/31834

(0)
上一篇 2016-08-10 10:27
下一篇 2016-08-10 10:27

相关推荐

  • nginx+keepalived构建负载均衡代理服务器

    实验环境: 1、centos7.3 centos6.82、两台VS提供nginx代理和keepalived3、两台RS提供httpd服务并部署wordpress4、另外一台提供Mysql数据库服务 实验拓扑图: 拓扑图 实验步骤 1、在vs1(172.18.251.4)上配置,用yum安装keepalived和nginx yum install -y kee…

    Linux干货 2017-05-21
  • Clonezilla(再升龙)系统备份还原使用

      实验一、单机Centos 系统利用Clonezilla手动备份和还原(VMware vSphere) 实验二、利用Clonezilla+DRBL网络备份和还原   一、简介 DRBL(Diskless Remote Boot in Linux)中文名“企鹅龙”,是基于GNU GPL协议授权下的开源项目,可以实现客户机的远程启动及多客户…

    Linux干货 2015-10-27
  • shell编写的linux命令练习工具

    linux常用命令加选项,有成百上个,仅仅靠背诵忘记得太快,所以写了此脚本,便于对linux命令的练习,希望能帮助到大家。 运行脚本效果如下: 上边两图一个是运行脚本时的截图,另一个为题库的格式(@做分隔符,所以如果题目中有@一定要替换掉) 下面附上源码 #!/bin/bash#版本号:1.0 #作者:Mr.L #WX:504498722FILE=/root…

    2017-03-19
  • OpenSSL:实现创建私有CA、签署证书请求详解

    一、OpenSSL:CA默认配置信息     1.证书签发机构CA:公共信任CA、私有CA                建立私有CA方式如下: 小范围测试使用openssl、 大…

    Linux干货 2016-04-30
  • Bash基本特性之命令状态返回值和命令行展开

    Bash基本特性之命令状态返回值和命令行展开 Bash的工作特性 命令执行状态返回值 bash中一条命令的执行,会产生两种返回结果:命令结果及命令执行状态结果。一条命令成功执行,其执行状态返回值为0。如果未能成功执行,其返回值为1-255。 ~]# echo $? 用于查看命令执行状态返回值 引用命令的执行结果$(COMMAND…

    Linux干货 2016-11-06