文本处理、正则表达式、cut、grep、egrep、fgrep

文本处理、正则表达式、cut、grep、egrep、fgrep

Linux中文本处理工具最常用的就是文本处理三剑客grep、sed、awk再配合正则表达式,可以实现足够多的文本处理功能。工具的强大之处是因为使用它的人,如何才能发挥文本处理工具的作用呢?答案就是正则表达式,其实正则表达式,只是一种思想,一种表示方法,只要我们使用的工具支持表示这种思想那么这个工具就可以处理正则表达式的字符串。这部分内容可以说是学习shell脚本之前必学的内容,理解越深刻那么shell脚本编写能力就会越强。

文本处理

  1. 文本查看工具 

    • cat -n(包含了$回车符),-b-A(-vTE),-e(-vE),-v(有^M无^T),-s-E(回车)

    • tac -n-b-A(-vTE),-e(-vE),-v(有^M无^T),-s-E(回车)

    • rev

    • more -d(加提示),只能下翻,能命令

    • less PgUP翻页,能搜,能命令

    • head -n 前几行,默认10行

    • tail -n 后几行,默认10行,-f /var/log/messages前端监控日志,tail -n 0 -f

    • /var/log/message &后端显示新日志,不影响使用,fg 1切换前台,ctrl c终止

  2. cut 

    • cut -d-f1-5,6,7 /etc/passwd # : 号截取,第几段 –output-delimiter=+ # 替换分隔符

    • cut -c44-46 file #字符截取,监控磁盘

  3. paste 横向合并两个文件 

    • paste -d: #指定横向分隔的符号,默认Tab

    • paste -s #一个文件的内容合并成一行显示

  4. wc (word count) #字符收集统计数据 

    • wc file #行、单词、字节

    • wc -m #统计字符数

    • wc -l #统计行数

    • wc -w #统计以标点或space隔开的单词数

    • wc -c #统计字节数

    • wc 输入字符,最后输入空格开的被统计字符,再ctrl d

  5. sort #文本排序 

    • sort -t ‘.’ #使用 . 做为字段界定符

    • sort -r #反序

    • sort -f #忽略字符串中的大小写

    • sort -n #按数字排序

    • sort -u #去除重复行

    • sort -k3 #按 . 分隔符根据第3列来整理,可重复多次

    • sort -ut ‘.’ -k3 #按 . 分隔符根据第3列来整理并归类,去除不属于该类的行

  6. uniq #从输入中山城重复的前后相接的行 

    • uniq file #合并相邻的重复行

    • uniq -c file #显示合并的重复次数

    • uniq -d file #只显示重复的行

    • uniq -u file #显示不重复的行

  7. diff #比较两个文件之间的区别 

    • diff xx yy

    • diff -c xx yy

    • diff.jpg

    • 其中1-3表示行号c表示不同,常用的a表示多余的行,d表示删除的行,即少的行,<表示第一个文件,>表示第二个文件。。diff -c 会以上下文的形式显示两个文件的不同之处,文件时间不同也会进行比较,行中不同的地方会在此行前加”!”:

    • diff -u #选项来输出“统一的(unified)”diff格式文件,最适用于补丁文件

  8. patch #复制对文件改变 

    • patch -b #自动备份改变了的文

    • diff -u xx yy>zz.patch

    • patch -b xx zz.patch

  9. grep:global serarch REgular expressin and print out the line 

    • grep -E = egrep、grep -F fgrep(不支持正则表达式)

    • .bashrc加入alias grep=’grep –color=auto’

    • grep xxxx /etc/passwd /etc/group …. 在centos7上带颜色

    • grep ‘$USER’ / “$USER” / whoami /etc/passwd

    • grep -v string #显示不包含string的行,排除

    • grep -i String #忽略大小写

    • grep -n string #显示包含string的行号

    • grep -c string #统计string的行数

    • grep -o strng #仅显示string,配合正则表达式,精确匹配

    • grep -q string #静默模式,echo $?看看返回值

    • grep -A3 string #显示string与string后面(After)3行,可作为string辅助过滤,

    • grep -C3 #string前后的3行

    • grep -e ‘root’ -e ‘sbin’ file #实现多个选项的逻辑或关系,类似正则中’root|sbin’

    • grep -w string #完全匹配string,匹配单词,以标点符号或者空格Tab分隔,类似正则中\bstring\b或\<string\>,具有同等效果,但这是不同的概念,必须加以区分

    • grep -E = egrep #使用扩展的正则表达式

  10. 标准的正则表达式 

    • 由一类特殊字符及文本字符编写的模式,这些字符有控制或匹配的功能

    • man 7 regex #看正则表达式

    • 程序支持grepvimlessnginx

    • 匹配次数

    • grep r.t #匹配任意单个字符

    • grep r[a-z]t #匹配任一指定范围内的任一个字符,如[aBc]表示匹配a或B或c

    • grep r[^[1-7]]t #不在指定范围内的任一个字符

    • [:alpha:]、[:digital:]、[:alnum:]、[:punct:]、[:space:]、[:lower:]、[:upper:]

    • \* # *号前的字符重复任意次数,尽可能长匹配

    • .* # 任意长度的字符\? #前面的字符0次或1次,有和没有都会匹配

    • \+ #前面的字符至少1次

    • \{n\} #n次

    • \{m,n\} #至少m次,至多n次

    • \{,n\} #至多n次

    • \{m,\} #至少m次

    • 位置锚定

    • ^ #句子的行首锚定

    • $ #句子的行尾锚定

    • ^\$ 空行锚定,用cat-A看到的号表示换行,^I表示Tab

    • grep -v “^ *\$” #不显示以空格开头的空行

    • grep -v “^[[:space:]]*$” #不显示以空格和Tab开头的空行

    • grep '\bstr’ 或 ‘\<str’ #str开头单词的词首锚定

    • grep ‘st\b’ 或 ‘\>str’ #str结尾单词的词尾锚定

    • \<string\> #匹配整个单词

    • 分组

    • \(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如:(root)+分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为:\1, \2, \3, …

    • \1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符

    • 实例`:(string1+(string2)*)

    • \1: string1+(string2)*

    • \2: string2

    • 后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)

    • 逻辑或

    • (root|bash)’ #匹配root或bash

    • \(ba|c\)sh’ #匹配bash或csh

  11. egrep及扩展的正则表达式,省略了转义符 

    • egrep = grep -E #可使用扩展的正则表达式

    • 字符匹配: . [] [^]

    • 次数匹配: * ? + {n} {m,n}

    • 位置锚定: ^ $ \< \> \b

    • 分组: (``) 后向引用:\1,\2...

    • 逻辑或: (a|b) (a|b)c

    • + 与 * 的区别:* 匹配的是零次或者多次,被重复的内容可能并不会出现;+ 至少出现一次如ca+t会匹配cat和caaat,但不会匹配ct

    • 注意:使用grep -E或者egrep时不要添加上述符号的转义符

练习

8.5练习.jpg

原创文章,作者:helloc,如若转载,请注明出处:http://www.178linux.com/30332

(0)
上一篇 2016-08-07 22:05
下一篇 2016-08-07 22:06

相关推荐

  • 网络属性配置(二)

    本文接上篇。。。 ip address -protocol address management. ip address add -add new protocol address   ip addr add IFADDR   label NAME :为额外添加的地址指明接口别名    [broadcast ADDRE…

    Linux干货 2017-01-02
  • 文本三剑客之grep

    文本编辑三剑客之grep 目录 一、正则表达式 二、grep:文本过滤器 一、正则表达式 REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面上的意义,而表示控制或者通配的功能。分类: 基本正则表达式:BRE 扩展正则表达式:ERE 元字符的分类: 字符匹配 匹配次数 位置锚定 分组 (1)基本正则表达式元字符 1>…

    2017-03-26
  • n22-第一次作业-对Linux基础知识的回顾

    1、描述计算机的组成及其功能   根据冯诺依曼计算机体系结构模型,计算机由运算器、控制器、存储器、输入设备、输出设备五大部分组成。如上图:    运算器主要由算数逻辑单元ALU和通用寄存器组成,主要用于完成算术运算和逻辑运算。      控制器是整个计算机的控制中心,它的主要功能是周而复始…

    Linux干货 2016-08-15
  • N22-冥界之王-第7周作业

    1、创建一个10G分区,并格式为ext4文件系统;   (1) 要求其block大小为2048, 预留空间百分比为2, 卷标为MYDATA, 默认挂载属性包含acl;       在虚拟机里新添加一块磁盘20G,/dev/sdb     &…

    Linux干货 2016-09-26
  • ps查看进程

    ps命令 ps [OPTION]支持三种选项UNIX选项 如-A -eBSD选项 如aGNU选项 如–help选项:默认显示当前终端中的进程a 选项包括所有终端中的进程x 选项包括不连接终端的进程u 选项显示进程所有者的信息f 选项显示进程树,相当于 –forestk|–sort 属性 对属性排序,属性前加- 表示倒序o …

    2017-12-19
  • Linux文件系统-基础学习-文件管理-20160727

    Linux文件系统–基础学习–文件管理 Linux下的文件类型 –:普通文件 :这些文件一般是用一些相关的应用程序创建。它的第一个字符是 – d: 目录文件 :目录在Linux是一个比较特殊的文件。它的第一个字符是 d b: 块设备 :这个种类的文件,是用mknode来创建,用rm来删除,它的第一个字符是b c…

    Linux干货 2016-08-04