Linux中的文本处理工具

本章内容:

  一、各种文本工具来查看、分析,统计文本文件

  二、grep

  三、正则表达式

  四、扩展正则表达式

  五、Sed


具体内容如下:


一、抽取文本的工具:

     文件内容:lesscat

     文件截取:headtail

     按列抽取:cut

     按关键字抽取:grep


  1.文件查看命令cat, tac,rev

   cat [OPTION]… [FILE]…

       -E: 显示行结束符$

       -T:显示Tab键

wKiom1enBv7BTh_5AAAZoUMJ0zs211.png

      -v:显示Windows的空格字符

wKiom1enB02ytBZ5AAARLysOr7Y342.png

      -A:显示所有控制符

wKiom1enBMuQM1rgAAARt6anBOI366.png

     -n: 对显示出的每一行进行编号 

wKioL1enBPuiD_1wAAAcq_qZtvU387.png

     -b:非空行编号

wKiom1enBRvzcrXbAAAV5vnDOwE861.png     

   -s:压缩连续的空行成一行

wKioL1enBUGBN7eiAAATV3WUPNc368.png

    cat 也可以作为一个简单的文本编辑器

wKiom1enB-eimISMAAEia6gXeNw291.png  

   rev命令,可以逆序显示字符

wKiom1enCEjQgymuAAAezgqO_m8717.png


  2.分页查看内容:more,less


    more [OPTIONS…] FILE…

        -d: 显示翻页及退出提示 (空格 是继续看下一屏,q是退出)

         !command在看文件的时候可以执行命令

   less:一页一页地查看文件或STDIN输出

   查看时有用的命令包括:

        /,文本搜索文本

         n/N跳到下一个or 上一个匹配

         less命令是man命令使用的分页器


  3.head,tail显示文本前行或后行内容

    head

    head [OPTION]… [FILE]…

      -c #: 指定获取前#字节

       -n #: 指定获取前#行

       -#  指定行数

wKioL1enCNWwOr1jAAAkzQpXq9U710.png

    tail

    tail [OPTION]… [FILE]…

       -c #: 指定获取后#字节

        -n #: 指定获取后#行

        -# 同上

wKiom1enCQzyrZvrAAAV7xOleYA423.png

      -f: 跟踪显示文件新追加的内容,常用日志监控

wKioL1enCR6zVoWgAAImpqICppE677.png

   4.按列抽取文本cut和合并文件paste

    cut 显示文件或STDIN数据的指定列

    cut [OPTION]… [FILE]…

      -d DELIMITER: 指明分隔符,默认tab

      -f FILEDS:

           #: 第#个字段

           #,#[,#]:离散的多个字段,例如1,3,6

           混合使用:1-3,7

wKiom1enCujjkWo4AAAhMDbXdX0571.png

    –output-delimiter=STRING指定输出分隔符(也可以用tr命令转换分隔符

wKioL1enCwii2IwcAAAYyHTHTR4578.png         

     -c按字符切割

        举例:

       cut -d: -f1 /etc/passwd

          cat /etc/passwd|cut -d: -f7

          cut -c2-5 /usr/share/dict/words

    paste 合并两个文件同行号的列到一行

    paste [OPTION]… [FILE]…

        -d 分隔符:指定分隔符,默认用TAB

        -s : 所有行合成一行显示

     如:paste f1 f2

         paste -s f1 f2


  5.wcsort ,diff和path 分析文本工具

 wc (word count)收集文本统计数据

      计数单词总数、行总数、字节总数和字符总数

      可以对文件或STDIN中的数据运行,不跟任何选项,直接根文档,则会把行数、次数、和字符数依次输出。

    选项:

      使用-l来只计数行数

       使用-w来只计数单词总数

       使用-c来只计数字节总数

       使用-m来只计数字符总数

wKiom1enDGWxLJNuAAAa-PckbOY620.png

  6.sort文本排序

   把整理过的文本对列进行排序,显示在STDOUT,不改变原始文件。

     $sort [options] file(s)

   常用选项:

       -r执行反方向(由上至下)整理

       -n执行按数字大小整理

       -f选项忽略(fold)字符串中的字符大小写

       -u选项(独特,unique)删除输出中的重复行

       -t c选项使用c做为字段界定符

       -k X选项按照使用c字符分隔的X列来整理能够使用多次

wKiom1enDYDDyhGGAAAy0CDCyyw929.png

  7.uniq命令:

   从输入中删除重复的前后相接的(相邻的行)

    uniq[OPTION]… [FILE]…

      -c: 显示每行重复出现的次数

wKioL1enDi7BM0UeAAAIWmNw02Q238.png 

      

        -d: 仅显示重复过的行;

        -u: 仅显示不曾重复的行;

        连续且完全相同方为重复

   常和sort 命令一起配合使用:

    sort userlist.txt | uniq-c

wKioL1enDm_wnWb-AAAkm9pjG2Y079.png

  8.diff命令

  比较两个文件之间的区别

    举例如下:

     $diff foo.conf-brokenfoo. conf-works

      5c5

      <use_widgets=no

      —

      >use_widgets=yes

   注明第5行有区别(改变)


 9.patch 复制对文件的改变

   diff命令的输出被保存在一种叫做“补丁”的文件中

    使用-u选项来输出“统一的(unified)”diff格式文件,最适用于补丁文件。

   patch命令复制在其它文件中进行的改变(要谨慎使用 !)

   用-b选项来自动备份改变了的文件

wKioL1enD-vBSgZpAAI0LGWKcsg891.png

 

二、Linux上文本处理三剑客

    grep:文本过滤(模式:pattern)工具;

    grep, egrep, fgrep(不支持正则表达式搜索)

    sed:stream editor,文本编辑工具;

    awk:Linux上的实现gawk,文本报告生成器;

 

  1.grep

    grep: Global search REgularexpression and Print out the line.(全球搜索正则表达式,并打印成一行)

    作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行

    模式:由正则表达式字符及文本字符所编写的过滤条件

wKioL1enFXqzshLvAAAj8LPkzdg050.png

     grep [OPTIONS] PATTERN [FILE…]

      grep root /etc/passwd

      grep "$USER" /etc/passwd

      grep '$USER' /etc/passwd

      grep `whoami` /etc/passwd

wKiom1enFgLzrEXwAAAihQ-S-cs285.png

  2.grep命令表达式:

     –color=auto: 对匹配到的文本着色显示

      -v: 显示不能够被pattern匹配到的行;

       -i: 忽略字符大小写

wKiom1enFkqhoB99AAARoZ2Np1M917.png

      -n:显示匹配的行号

wKioL1enFmnx5fuCAAAQIkpz0ao289.png

     -c: 统计匹配的行数

wKiom1enFo_yyLI_AAAUvf9MKIY047.png

      -o: 仅显示匹配到的字符串;

wKioL1enFr7wLmwUAAALNegOQLE414.png

      -q: 静默模式,不输出任何信息

wKiom1enFuCTRXzOAAAl6qGgPeE013.png

      -A #:after, 后#行

wKioL1enFv2D4VKBAAAm27cQHqw005.png

      -B #: before, 前#行

      -C #:context, 前后各#行

      -e:实现多个选项间的逻辑or关系

         如:grep –e ‘cat ’ -e ‘dog’ file

wKiom1enF-WTCHYXAAAf4nsaX30269.png

      -w:整行匹配整个单词

wKioL1enGAWiViK8AAAduCj0OX0073.png

      -E:使用ERE

 

三、正则表达式

   REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能

   程序支持:grep, vim, less,nginx

   分两类:

     基本正则表达式:BRE

     扩展正则表达式:ERE

      grep -E, egrep

   正则表达式引擎:

     采用不同算法,检查处理正则表达式的软件模块

     PCRE(Perl Compatible Regular Expressions)

   元字符分类:字符匹配、匹配次数、位置锚定、分组

   man 7 regex


  1.基本正则表达式元字符

    字符匹配:

      . :匹配任意单个字符;

wKiom1enHcrRqhUxAAANe8ggU84204.png

       [] :匹配指定范围内的任意单个字符

wKioL1enHf-BuWexAAAVr3BtNdQ340.png

       [^] :匹配指定范围外的任意单个字符

wKiom1enHlPyH6NCAAAQwAlnNjY674.png

       [:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、 

       [:punct:]、[:space:]

    匹配次数

     匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数

         * 匹配前面的字符任意次,包括0

            贪婪模式:尽可能长的匹配

         .* :任意长度的任意字符

           \? :匹配其前面的字符01

          \+  :匹配其前面的字符至少1

          \{m\} :匹配前面的字符m

          \{m,n\}:匹配前面的字符至少m次,至多n

          \{,n\}:匹配前面的字符至多n

          \{m,\}:匹配前面的字符至少m次 

    位置锚定

      位置锚定:定位出现的位置

       ^:行首锚定,用于模式的最左侧

          $:行尾锚定,用于模式的最右侧

wKioL1enHubQfh44AAAtdqFRs8k264.png

         ^PATTERN$: 用于模式匹配整行

         ^$: 空行,不包含有空格的行

wKioL1enH0egspXqAAEWwREczjM325.png

         ^[[:space:]]*$ :空白行,包含有空格的行

wKiom1enH6jirLgsAAFxv_iAwYY509.png

         \< 或\b:词首锚定,用于单词模式的左侧

wKioL1enH-6iL5baAAAQGiAIxFc107.png

         \> 或\b:词尾锚定;用于单词模式的右侧

wKioL1enIALD56SSAAAVmBgV3qc191.png

         \<PATTERN\>:匹配整个单词

wKiom1enICXBg_DIAAAUBcaaVDA026.png

    分组

     (1)分组:\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+

    (2)分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, …

    (3)\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;

       实例:\(string1\+\(string2\)*\)

        \1: string1\+\(string2\)*

        \2: string2

    (4)后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)

wKiom1enINKz1-JqAAD3WOugbI4925.png

wKioL1enINLBW7CPAACaAHhi4AA264.png

   2.egrep和扩展的正则表达式

     egrep= grep -E

      egrep[OPTIONS] PATTERN [FILE…]

    扩展正则表达式的元字符

      字符匹配:

         . 代表任意单个字符

         [] 指定范围的字符

         [^] 不在指定范围的字符

      次数匹配:

        *:匹配前面字符任意次

         ?: 0或1次

         +:1次或多次

        {m}:匹配m次

        {m,n}:至少m,至多n次

      位置锚定:

        ^ :行首

         $ :行尾

        \<, \b:语首

        \>, \b:语尾

      分组:

       ()

        后向引用:\1, \2,

      或者:

        a|b

         C|cat: Ccat

        (C|c)at:Catcat


原创文章,作者:zhumengxiaotao,如若转载,请注明出处:http://www.178linux.com/30751