Linux中的文本处理工具

本章内容:

  一、各种文本工具来查看、分析,统计文本文件

  二、grep

  三、正则表达式

  四、扩展正则表达式

  五、Sed


具体内容如下:


一、抽取文本的工具:

     文件内容:lesscat

     文件截取:headtail

     按列抽取:cut

     按关键字抽取:grep


  1.文件查看命令cat, tac,rev

   cat [OPTION]… [FILE]…

       -E: 显示行结束符$

       -T:显示Tab键

wKiom1enBv7BTh_5AAAZoUMJ0zs211.png

      -v:显示Windows的空格字符

wKiom1enB02ytBZ5AAARLysOr7Y342.png

      -A:显示所有控制符

wKiom1enBMuQM1rgAAARt6anBOI366.png

     -n: 对显示出的每一行进行编号 

wKioL1enBPuiD_1wAAAcq_qZtvU387.png

     -b:非空行编号

wKiom1enBRvzcrXbAAAV5vnDOwE861.png     

   -s:压缩连续的空行成一行

wKioL1enBUGBN7eiAAATV3WUPNc368.png

    cat 也可以作为一个简单的文本编辑器

wKiom1enB-eimISMAAEia6gXeNw291.png  

   rev命令,可以逆序显示字符

wKiom1enCEjQgymuAAAezgqO_m8717.png


  2.分页查看内容:more,less


    more [OPTIONS…] FILE…

        -d: 显示翻页及退出提示 (空格 是继续看下一屏,q是退出)

         !command在看文件的时候可以执行命令

   less:一页一页地查看文件或STDIN输出

   查看时有用的命令包括:

        /,文本搜索文本

         n/N跳到下一个or 上一个匹配

         less命令是man命令使用的分页器


  3.head,tail显示文本前行或后行内容

    head

    head [OPTION]… [FILE]…

      -c #: 指定获取前#字节

       -n #: 指定获取前#行

       -#  指定行数

wKioL1enCNWwOr1jAAAkzQpXq9U710.png

    tail

    tail [OPTION]… [FILE]…

       -c #: 指定获取后#字节

        -n #: 指定获取后#行

        -# 同上

wKiom1enCQzyrZvrAAAV7xOleYA423.png

      -f: 跟踪显示文件新追加的内容,常用日志监控

wKioL1enCR6zVoWgAAImpqICppE677.png

   4.按列抽取文本cut和合并文件paste

    cut 显示文件或STDIN数据的指定列

    cut [OPTION]… [FILE]…

      -d DELIMITER: 指明分隔符,默认tab

      -f FILEDS:

           #: 第#个字段

           #,#[,#]:离散的多个字段,例如1,3,6

           混合使用:1-3,7

wKiom1enCujjkWo4AAAhMDbXdX0571.png

    –output-delimiter=STRING指定输出分隔符(也可以用tr命令转换分隔符

wKioL1enCwii2IwcAAAYyHTHTR4578.png         

     -c按字符切割

        举例:

       cut -d: -f1 /etc/passwd

          cat /etc/passwd|cut -d: -f7

          cut -c2-5 /usr/share/dict/words

    paste 合并两个文件同行号的列到一行

    paste [OPTION]… [FILE]…

        -d 分隔符:指定分隔符,默认用TAB

        -s : 所有行合成一行显示

     如:paste f1 f2

         paste -s f1 f2


  5.wcsort ,diff和path 分析文本工具

 wc (word count)收集文本统计数据

      计数单词总数、行总数、字节总数和字符总数

      可以对文件或STDIN中的数据运行,不跟任何选项,直接根文档,则会把行数、次数、和字符数依次输出。

    选项:

      使用-l来只计数行数

       使用-w来只计数单词总数

       使用-c来只计数字节总数

       使用-m来只计数字符总数

wKiom1enDGWxLJNuAAAa-PckbOY620.png

  6.sort文本排序

   把整理过的文本对列进行排序,显示在STDOUT,不改变原始文件。

     $sort [options] file(s)

   常用选项:

       -r执行反方向(由上至下)整理

       -n执行按数字大小整理

       -f选项忽略(fold)字符串中的字符大小写

       -u选项(独特,unique)删除输出中的重复行

       -t c选项使用c做为字段界定符

       -k X选项按照使用c字符分隔的X列来整理能够使用多次

wKiom1enDYDDyhGGAAAy0CDCyyw929.png

  7.uniq命令:

   从输入中删除重复的前后相接的(相邻的行)

    uniq[OPTION]… [FILE]…

      -c: 显示每行重复出现的次数

wKioL1enDi7BM0UeAAAIWmNw02Q238.png 

      

        -d: 仅显示重复过的行;

        -u: 仅显示不曾重复的行;

        连续且完全相同方为重复

   常和sort 命令一起配合使用:

    sort userlist.txt | uniq-c

wKioL1enDm_wnWb-AAAkm9pjG2Y079.png

  8.diff命令

  比较两个文件之间的区别

    举例如下:

     $diff foo.conf-brokenfoo. conf-works

      5c5

      <use_widgets=no

      —

      >use_widgets=yes

   注明第5行有区别(改变)


 9.patch 复制对文件的改变

   diff命令的输出被保存在一种叫做“补丁”的文件中

    使用-u选项来输出“统一的(unified)”diff格式文件,最适用于补丁文件。

   patch命令复制在其它文件中进行的改变(要谨慎使用 !)

   用-b选项来自动备份改变了的文件

wKioL1enD-vBSgZpAAI0LGWKcsg891.png

 

二、Linux上文本处理三剑客

    grep:文本过滤(模式:pattern)工具;

    grep, egrep, fgrep(不支持正则表达式搜索)

    sed:stream editor,文本编辑工具;

    awk:Linux上的实现gawk,文本报告生成器;

 

  1.grep

    grep: Global search REgularexpression and Print out the line.(全球搜索正则表达式,并打印成一行)

    作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行

    模式:由正则表达式字符及文本字符所编写的过滤条件

wKioL1enFXqzshLvAAAj8LPkzdg050.png

     grep [OPTIONS] PATTERN [FILE…]

      grep root /etc/passwd

      grep "$USER" /etc/passwd

      grep '$USER' /etc/passwd

      grep `whoami` /etc/passwd

wKiom1enFgLzrEXwAAAihQ-S-cs285.png

  2.grep命令表达式:

     –color=auto: 对匹配到的文本着色显示

      -v: 显示不能够被pattern匹配到的行;

       -i: 忽略字符大小写

wKiom1enFkqhoB99AAARoZ2Np1M917.png

      -n:显示匹配的行号

wKioL1enFmnx5fuCAAAQIkpz0ao289.png

     -c: 统计匹配的行数

wKiom1enFo_yyLI_AAAUvf9MKIY047.png

      -o: 仅显示匹配到的字符串;

wKioL1enFr7wLmwUAAALNegOQLE414.png

      -q: 静默模式,不输出任何信息

wKiom1enFuCTRXzOAAAl6qGgPeE013.png

      -A #:after, 后#行

wKioL1enFv2D4VKBAAAm27cQHqw005.png

      -B #: before, 前#行

      -C #:context, 前后各#行

      -e:实现多个选项间的逻辑or关系

         如:grep –e ‘cat ’ -e ‘dog’ file

wKiom1enF-WTCHYXAAAf4nsaX30269.png

      -w:整行匹配整个单词

wKioL1enGAWiViK8AAAduCj0OX0073.png

      -E:使用ERE

 

三、正则表达式

   REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能

   程序支持:grep, vim, less,nginx

   分两类:

     基本正则表达式:BRE

     扩展正则表达式:ERE

      grep -E, egrep

   正则表达式引擎:

     采用不同算法,检查处理正则表达式的软件模块

     PCRE(Perl Compatible Regular Expressions)

   元字符分类:字符匹配、匹配次数、位置锚定、分组

   man 7 regex


  1.基本正则表达式元字符

    字符匹配:

      . :匹配任意单个字符;

wKiom1enHcrRqhUxAAANe8ggU84204.png

       [] :匹配指定范围内的任意单个字符

wKioL1enHf-BuWexAAAVr3BtNdQ340.png

       [^] :匹配指定范围外的任意单个字符

wKiom1enHlPyH6NCAAAQwAlnNjY674.png

       [:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、 

       [:punct:]、[:space:]

    匹配次数

     匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数

         * 匹配前面的字符任意次,包括0

            贪婪模式:尽可能长的匹配

         .* :任意长度的任意字符

           \? :匹配其前面的字符01

          \+  :匹配其前面的字符至少1

          \{m\} :匹配前面的字符m

          \{m,n\}:匹配前面的字符至少m次,至多n

          \{,n\}:匹配前面的字符至多n

          \{m,\}:匹配前面的字符至少m次 

    位置锚定

      位置锚定:定位出现的位置

       ^:行首锚定,用于模式的最左侧

          $:行尾锚定,用于模式的最右侧

wKioL1enHubQfh44AAAtdqFRs8k264.png

         ^PATTERN$: 用于模式匹配整行

         ^$: 空行,不包含有空格的行

wKioL1enH0egspXqAAEWwREczjM325.png

         ^[[:space:]]*$ :空白行,包含有空格的行

wKiom1enH6jirLgsAAFxv_iAwYY509.png

         \< 或\b:词首锚定,用于单词模式的左侧

wKioL1enH-6iL5baAAAQGiAIxFc107.png

         \> 或\b:词尾锚定;用于单词模式的右侧

wKioL1enIALD56SSAAAVmBgV3qc191.png

         \<PATTERN\>:匹配整个单词

wKiom1enICXBg_DIAAAUBcaaVDA026.png

    分组

     (1)分组:\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+

    (2)分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, …

    (3)\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;

       实例:\(string1\+\(string2\)*\)

        \1: string1\+\(string2\)*

        \2: string2

    (4)后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)

wKiom1enINKz1-JqAAD3WOugbI4925.png

wKioL1enINLBW7CPAACaAHhi4AA264.png

   2.egrep和扩展的正则表达式

     egrep= grep -E

      egrep[OPTIONS] PATTERN [FILE…]

    扩展正则表达式的元字符

      字符匹配:

         . 代表任意单个字符

         [] 指定范围的字符

         [^] 不在指定范围的字符

      次数匹配:

        *:匹配前面字符任意次

         ?: 0或1次

         +:1次或多次

        {m}:匹配m次

        {m,n}:至少m,至多n次

      位置锚定:

        ^ :行首

         $ :行尾

        \<, \b:语首

        \>, \b:语尾

      分组:

       ()

        后向引用:\1, \2,

      或者:

        a|b

         C|cat: Ccat

        (C|c)at:Catcat


原创文章,作者:zhumengxiaotao,如若转载,请注明出处:http://www.178linux.com/30751

(0)
zhumengxiaotaozhumengxiaotao
上一篇 2016-08-08
下一篇 2016-08-08

相关推荐

  • N26-第二周博客作业

    1、Linux上的文件管理类命令都有哪些,其常用的使用方法及其相 关示例演示。 文件管理类命令:mkdir rmdir cp rm mv ①mkdir命令:创建目录 格式:mkdir [OPTION]… DIRECTORY… option -m, –mode=MODE -p, –paren…

    Linux干货 2017-02-02
  • 马哥教育21期网络班—第11周课程+练习—-成长进行时–不退步–上

    1、详细描述一次加密通讯的过程,结合图示最佳。 对称加密: 加密和解密使用同一个密钥; 缺点:如何通信方多的话,需要保存多组密钥 公钥加密:密钥是成对儿出现 公钥:公开给所有人;pubkey 私钥:自己留存,必须保证其私密性;secret key 特点:用公钥加密的数据,只能使用与之配对儿的私钥解密;反之亦然; 数字签名:主要在于让接收方确认发送方…

    Linux干货 2016-09-19
  • shell脚本的if语句

                                  第一篇  shell脚本中的if语句 一、shell脚本的语句控制        □前面提到了过程式…

    Linux干货 2016-08-19
  • DNS介绍及资源记录

    DNS查询 第一段:主机到运营商的DNS服务器(递归) 第二段:运营商的DNS再去解析(根域名服务器/),在一层一层的查找(迭代) DNS名称解析方式:名称–>IP,IP–>名称 注意:二者的名称空间非同一个空间,即不是一个数据库; 域: www.magedu.com. ftp.magedu.com. bbs.magedu…

    Linux干货 2017-02-12
  • 内核编译及制作Linux系统

        用自己编译的linux内核自己制作一个很简单的启动盘,能够成功启动且能有简单的shell环境。     第一步:从内核官网www.kernel.org 下载相应的内核版本,现在到本地后,将它解压(我是解压到/usr/src目录下),解压后进入目录。由于编译的选项太多,为了…

    Linux干货 2016-11-24
  • bash脚本编程class3

    bash脚本编程class3—函数定义与数组使用相关     一.函数的使用以及数组的定义   我们通过学习知道,当编辑一个shell脚本的时候,可以在这个shell脚本中调用其他的shell脚本来实现特定的功能。在实际工作环境中,用很多shell实现的功能是我们常常使用到的,如果一次一次的调用这些shell脚本会显得非常麻烦。…

    Linux干货 2016-08-24