Linux中的文本处理工具

本章内容:

  一、各种文本工具来查看、分析,统计文本文件

  二、grep

  三、正则表达式

  四、扩展正则表达式

  五、Sed


具体内容如下:


一、抽取文本的工具:

     文件内容:lesscat

     文件截取:headtail

     按列抽取:cut

     按关键字抽取:grep


  1.文件查看命令cat, tac,rev

   cat [OPTION]… [FILE]…

       -E: 显示行结束符$

       -T:显示Tab键

wKiom1enBv7BTh_5AAAZoUMJ0zs211.png

      -v:显示Windows的空格字符

wKiom1enB02ytBZ5AAARLysOr7Y342.png

      -A:显示所有控制符

wKiom1enBMuQM1rgAAARt6anBOI366.png

     -n: 对显示出的每一行进行编号 

wKioL1enBPuiD_1wAAAcq_qZtvU387.png

     -b:非空行编号

wKiom1enBRvzcrXbAAAV5vnDOwE861.png     

   -s:压缩连续的空行成一行

wKioL1enBUGBN7eiAAATV3WUPNc368.png

    cat 也可以作为一个简单的文本编辑器

wKiom1enB-eimISMAAEia6gXeNw291.png  

   rev命令,可以逆序显示字符

wKiom1enCEjQgymuAAAezgqO_m8717.png


  2.分页查看内容:more,less


    more [OPTIONS…] FILE…

        -d: 显示翻页及退出提示 (空格 是继续看下一屏,q是退出)

         !command在看文件的时候可以执行命令

   less:一页一页地查看文件或STDIN输出

   查看时有用的命令包括:

        /,文本搜索文本

         n/N跳到下一个or 上一个匹配

         less命令是man命令使用的分页器


  3.head,tail显示文本前行或后行内容

    head

    head [OPTION]… [FILE]…

      -c #: 指定获取前#字节

       -n #: 指定获取前#行

       -#  指定行数

wKioL1enCNWwOr1jAAAkzQpXq9U710.png

    tail

    tail [OPTION]… [FILE]…

       -c #: 指定获取后#字节

        -n #: 指定获取后#行

        -# 同上

wKiom1enCQzyrZvrAAAV7xOleYA423.png

      -f: 跟踪显示文件新追加的内容,常用日志监控

wKioL1enCR6zVoWgAAImpqICppE677.png

   4.按列抽取文本cut和合并文件paste

    cut 显示文件或STDIN数据的指定列

    cut [OPTION]… [FILE]…

      -d DELIMITER: 指明分隔符,默认tab

      -f FILEDS:

           #: 第#个字段

           #,#[,#]:离散的多个字段,例如1,3,6

           混合使用:1-3,7

wKiom1enCujjkWo4AAAhMDbXdX0571.png

    –output-delimiter=STRING指定输出分隔符(也可以用tr命令转换分隔符

wKioL1enCwii2IwcAAAYyHTHTR4578.png         

     -c按字符切割

        举例:

       cut -d: -f1 /etc/passwd

          cat /etc/passwd|cut -d: -f7

          cut -c2-5 /usr/share/dict/words

    paste 合并两个文件同行号的列到一行

    paste [OPTION]… [FILE]…

        -d 分隔符:指定分隔符,默认用TAB

        -s : 所有行合成一行显示

     如:paste f1 f2

         paste -s f1 f2


  5.wcsort ,diff和path 分析文本工具

 wc (word count)收集文本统计数据

      计数单词总数、行总数、字节总数和字符总数

      可以对文件或STDIN中的数据运行,不跟任何选项,直接根文档,则会把行数、次数、和字符数依次输出。

    选项:

      使用-l来只计数行数

       使用-w来只计数单词总数

       使用-c来只计数字节总数

       使用-m来只计数字符总数

wKiom1enDGWxLJNuAAAa-PckbOY620.png

  6.sort文本排序

   把整理过的文本对列进行排序,显示在STDOUT,不改变原始文件。

     $sort [options] file(s)

   常用选项:

       -r执行反方向(由上至下)整理

       -n执行按数字大小整理

       -f选项忽略(fold)字符串中的字符大小写

       -u选项(独特,unique)删除输出中的重复行

       -t c选项使用c做为字段界定符

       -k X选项按照使用c字符分隔的X列来整理能够使用多次

wKiom1enDYDDyhGGAAAy0CDCyyw929.png

  7.uniq命令:

   从输入中删除重复的前后相接的(相邻的行)

    uniq[OPTION]… [FILE]…

      -c: 显示每行重复出现的次数

wKioL1enDi7BM0UeAAAIWmNw02Q238.png 

      

        -d: 仅显示重复过的行;

        -u: 仅显示不曾重复的行;

        连续且完全相同方为重复

   常和sort 命令一起配合使用:

    sort userlist.txt | uniq-c

wKioL1enDm_wnWb-AAAkm9pjG2Y079.png

  8.diff命令

  比较两个文件之间的区别

    举例如下:

     $diff foo.conf-brokenfoo. conf-works

      5c5

      <use_widgets=no

      —

      >use_widgets=yes

   注明第5行有区别(改变)


 9.patch 复制对文件的改变

   diff命令的输出被保存在一种叫做“补丁”的文件中

    使用-u选项来输出“统一的(unified)”diff格式文件,最适用于补丁文件。

   patch命令复制在其它文件中进行的改变(要谨慎使用 !)

   用-b选项来自动备份改变了的文件

wKioL1enD-vBSgZpAAI0LGWKcsg891.png

 

二、Linux上文本处理三剑客

    grep:文本过滤(模式:pattern)工具;

    grep, egrep, fgrep(不支持正则表达式搜索)

    sed:stream editor,文本编辑工具;

    awk:Linux上的实现gawk,文本报告生成器;

 

  1.grep

    grep: Global search REgularexpression and Print out the line.(全球搜索正则表达式,并打印成一行)

    作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行

    模式:由正则表达式字符及文本字符所编写的过滤条件

wKioL1enFXqzshLvAAAj8LPkzdg050.png

     grep [OPTIONS] PATTERN [FILE…]

      grep root /etc/passwd

      grep "$USER" /etc/passwd

      grep '$USER' /etc/passwd

      grep `whoami` /etc/passwd

wKiom1enFgLzrEXwAAAihQ-S-cs285.png

  2.grep命令表达式:

     –color=auto: 对匹配到的文本着色显示

      -v: 显示不能够被pattern匹配到的行;

       -i: 忽略字符大小写

wKiom1enFkqhoB99AAARoZ2Np1M917.png

      -n:显示匹配的行号

wKioL1enFmnx5fuCAAAQIkpz0ao289.png

     -c: 统计匹配的行数

wKiom1enFo_yyLI_AAAUvf9MKIY047.png

      -o: 仅显示匹配到的字符串;

wKioL1enFr7wLmwUAAALNegOQLE414.png

      -q: 静默模式,不输出任何信息

wKiom1enFuCTRXzOAAAl6qGgPeE013.png

      -A #:after, 后#行

wKioL1enFv2D4VKBAAAm27cQHqw005.png

      -B #: before, 前#行

      -C #:context, 前后各#行

      -e:实现多个选项间的逻辑or关系

         如:grep –e ‘cat ’ -e ‘dog’ file

wKiom1enF-WTCHYXAAAf4nsaX30269.png

      -w:整行匹配整个单词

wKioL1enGAWiViK8AAAduCj0OX0073.png

      -E:使用ERE

 

三、正则表达式

   REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能

   程序支持:grep, vim, less,nginx

   分两类:

     基本正则表达式:BRE

     扩展正则表达式:ERE

      grep -E, egrep

   正则表达式引擎:

     采用不同算法,检查处理正则表达式的软件模块

     PCRE(Perl Compatible Regular Expressions)

   元字符分类:字符匹配、匹配次数、位置锚定、分组

   man 7 regex


  1.基本正则表达式元字符

    字符匹配:

      . :匹配任意单个字符;

wKiom1enHcrRqhUxAAANe8ggU84204.png

       [] :匹配指定范围内的任意单个字符

wKioL1enHf-BuWexAAAVr3BtNdQ340.png

       [^] :匹配指定范围外的任意单个字符

wKiom1enHlPyH6NCAAAQwAlnNjY674.png

       [:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、 

       [:punct:]、[:space:]

    匹配次数

     匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数

         * 匹配前面的字符任意次,包括0

            贪婪模式:尽可能长的匹配

         .* :任意长度的任意字符

           \? :匹配其前面的字符01

          \+  :匹配其前面的字符至少1

          \{m\} :匹配前面的字符m

          \{m,n\}:匹配前面的字符至少m次,至多n

          \{,n\}:匹配前面的字符至多n

          \{m,\}:匹配前面的字符至少m次 

    位置锚定

      位置锚定:定位出现的位置

       ^:行首锚定,用于模式的最左侧

          $:行尾锚定,用于模式的最右侧

wKioL1enHubQfh44AAAtdqFRs8k264.png

         ^PATTERN$: 用于模式匹配整行

         ^$: 空行,不包含有空格的行

wKioL1enH0egspXqAAEWwREczjM325.png

         ^[[:space:]]*$ :空白行,包含有空格的行

wKiom1enH6jirLgsAAFxv_iAwYY509.png

         \< 或\b:词首锚定,用于单词模式的左侧

wKioL1enH-6iL5baAAAQGiAIxFc107.png

         \> 或\b:词尾锚定;用于单词模式的右侧

wKioL1enIALD56SSAAAVmBgV3qc191.png

         \<PATTERN\>:匹配整个单词

wKiom1enICXBg_DIAAAUBcaaVDA026.png

    分组

     (1)分组:\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+

    (2)分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, …

    (3)\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;

       实例:\(string1\+\(string2\)*\)

        \1: string1\+\(string2\)*

        \2: string2

    (4)后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)

wKiom1enINKz1-JqAAD3WOugbI4925.png

wKioL1enINLBW7CPAACaAHhi4AA264.png

   2.egrep和扩展的正则表达式

     egrep= grep -E

      egrep[OPTIONS] PATTERN [FILE…]

    扩展正则表达式的元字符

      字符匹配:

         . 代表任意单个字符

         [] 指定范围的字符

         [^] 不在指定范围的字符

      次数匹配:

        *:匹配前面字符任意次

         ?: 0或1次

         +:1次或多次

        {m}:匹配m次

        {m,n}:至少m,至多n次

      位置锚定:

        ^ :行首

         $ :行尾

        \<, \b:语首

        \>, \b:语尾

      分组:

       ()

        后向引用:\1, \2,

      或者:

        a|b

         C|cat: Ccat

        (C|c)at:Catcat


原创文章,作者:zhumengxiaotao,如若转载,请注明出处:http://www.178linux.com/30751

(0)
zhumengxiaotaozhumengxiaotao
上一篇 2016-08-08
下一篇 2016-08-08

相关推荐

  • N26-第六周博客

    vim编辑器及简单shell脚本示例 请详细总结vim编辑器的使用并完成以下练习题 1、复制/etc/rc.d/rc.sysinit文件至/tmp目录,将/tmp/rc.sysinit文件中的以至少一个空白字符开头的行的行首加#; [root@localhost tmp]# vim rc.sysinit:%s@^[[:space:]]\+[^[:s…

    系统运维 2017-02-16
  • 文本处理工具-awk

    文本处理工具awk awk的名字由来:创始人Aho, Weinberger, Kernighan三人的首字母 有多种版本:New awk(nawk),GNU awk(gawk)  一.gawk   模式扫描和处理语言   基本用法: awk [options] ‘program’ var=value…

    Linux干货 2016-11-29
  • 马哥教育网络班22期+第6周课程练习 忍者乱太郎喻成

    请详细总结vim编辑器的使用并完成以下练习题 1、复制/etc/rc.d/rc.sysinit文件至/tmp目录,将/tmp/rc.sysinit文件中的以至少一个空白字符开头的行的行首加#cp /etc/rc.d/rc.sysinit /tmp方法一 vim法在vim下用 : 进入命令行模式     %s/^&nbs…

    Linux干货 2016-10-24
  • Redis的编译安装

    介绍     redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更…

    Linux干货 2015-02-28
  • 万能的AWK

    awk:文本三剑客之一 #报告生成器,主要用来实现格式化文本输出,它能够实现在处理文本文件时对文档中的某字段有条件显示并以非常美观的文本; 它是编程语言的解释器;它也是一种完整的编程语言,它支持条件判断、循环、变量、数组、函数等等各种各样的编程语言所能实现的功能。 用法:awk [options] ‘program’ FILE &#8…

    2017-04-22
  • Nginx基本使用方法及各模块基本功能

    一、Nginx介绍     Nginx是由俄罗斯软件工程师Igor Sysoev开发的一个高性能的HTTP和反向代理服务器,具备IMAP/POP3和SMTP服务器功能,Nginx最大的特点是对高并发的支持和高效的负载均衡,在高并发的需求场景下,是Apache服务器不错的替代品。目前,包括新浪、腾讯等知名网站都已使用Nginx作为Web应用…

    Linux干货 2016-01-21