Linux文本处理三剑客之grep 和正则表达式

bican813 • 2018-04-17 15:46 • Linux笔记

本文主要介绍：1、文本处理工具grep 2、正则表达式

Linux文本处理三剑客：

1、grep ：文本过滤（模式：pattern）工具

2、sed ：（stream editor），文本编辑工具

3、awk ： Linux上的实现gawk，文本报告生成器

1、文本处理工具grep

作用：文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行。

模式：由正则表达式字符及文本字符所编写的过滤条件。

（grep 支持标准正则表达式； egrep 支持扩展正则表达式，相当于grep -E ； fgrep 不支持正则表达式）

语法：grep [OPTIONS] PATTERN [FILE…]

    选项：

–color=auto: 对匹配到的文本着色显示

-v: 显示不能够被pattern匹配到的行

-i: 忽略字符大小写常用

-n：显示匹配的行号，匹配到的是第几行  常用

-c: 统计匹配的行数，匹配到了多少行常用

-o: 仅显示匹配到的字符串  常用

-q: 静默模式，不输出任何信息

-A #： after, 后#行，包含匹配到的行，还显示匹配到的行的后几行

-B #: before, 前#行，包含匹配到的行，还显示匹配到的行的前几行

-C #： context, 前后各#行，包含匹配到的行外，还显示匹配到的行的前后各几行

-e：实现多个选项间的逻辑or关系 ,多个-e 之间是或关系（grep –e ‘cat’ -e ‘dog’ file）常用

-w：整行匹配整个单词，只能匹配整个单词(字母、数字、下划线都算单词一部分)

-E：使用ERE，相当于egrep  常用

-F：相当于fgrep，不支持正则

2、正则表达式

REGEXP：由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能。（man 7 regex）

分为两类：基本正则表达式：BRE

扩展正则表达式：ERE

基本正则表达式元字符：字符匹配、匹配次数、位置锚定、分组

字符匹配:

. 匹配任意单个字符；

[] 匹配指定范围内的任意单个字符

[^] 匹配指定范围外的任意单个字符

[:digit:] 十进制数字（[0-9]也可，匹配10-19之间的数字不能写成[10-29]，要每一位分别写[1-2][0-9]）

[:lower:] 小写字母

[:upper:] 大写字母

[:alpha:] 任何英文大小写字符

[:alnum:] 字母和数字

[:space:] 空白字符（水平和垂直的空白字符，比[:blank:] 包含范围广）

[:punct:] 标点符号

[:blank:] 空白字符(空格和制表符)

[:cntrl:] 不可打印的控制字符（退格、删除、警铃…）

[:graph:] 可打印的非空白字符

[:print:] 可打印字符

匹配次数：用在要指定次数的字符后面，用于指定前面的字符要出现的次数

* 匹配前面的字符任意次，包括0次（贪婪模式：尽可能长的匹配）

.* 任意长度的任意字符

\? 匹配其前面的字符0或1次

\+ 匹配其前面的字符至少1次

\{m\} 匹配前面的字符m次

\{m,n\} 匹配前面的字符至少m次，至多n次

\{,n\} 匹配前面的字符至多n次

\{m,\} 匹配前面的字符至少m次

位置锚定：定位出现的位置

^ 行首锚定，用于模式的最左侧(^PATTERN)

$ 行尾锚定，用于模式的最右侧(PATTERN$)

^PATTERN$ 用于模式匹配整行( ^$ 空行 ^[[:space:]]*$ 水平或垂直空白行 )

\< 或 \b 词首锚定，用于单词模式的左侧

\> 或 \b 词尾锚定；用于单词模式的右侧

\<PATTERN\> 匹配整个单词

分组： \(\)：将一个或多个字符捆绑在一起，当作一个整体进行处理，如\(root\)\+表示root至少出现一次。

后向引用：引用前面的分组括号中的模式所匹配字符(而非模式本身)

利用: \1, \2, \3, …来引用前面从左到右第一个括号、第二个括号…匹配到的内容

如： \(bican\+\(bc\)*\)

\1 匹配 bican\+\(bc\)*

\2 匹配 bc

或者：\|

示例： a\|b 表示a或b C\|cat 表示C或cat \(C\|c\)at 表示Cat或cat

扩展正则表达式元字符

字符匹配（同基本正则表达式）
匹配次数

* 匹配前面的字符任意次，包括0次（贪婪模式：尽可能长的匹配）

? 匹配其前面的字符0或1次

+ 匹配其前面的字符至少1次

{m} 匹配前面的字符m次

{m,n} 匹配前面的字符至少m次，至多n次

{,n} 匹配前面的字符至多n次

{m,} 匹配前面的字符至少m次

位置锚定（同基本正则表达式）
分组 : （）后向引用： \1 \2
或者： | 示例： (C|c)at 表示Cat或cat

本文来自投稿，不代表Linux运维部落立场，如若转载，请注明出处：http://www.178linux.com/96487

赞 (1)

0

文本处理工具

上一篇 2018-04-16 21:57

linux通配符和正则表达式

下一篇 2018-04-17 17:44

Linux笔记

Linux_bash基础特性_命令行展开

Linux_bash基础特性_命令行展开

2018-06-08
linux程序包管理，定时计划以及sed简介

week5

Linux笔记 2018-07-22
Linux笔记

第三周作业20180528

1、列出登录用户登录用户去重 2、显示最后登录用户信息 3、查看使用最多的SHELL 4、 5 6 7、 8、 9、 10、

2018-05-28
Linux笔记

DNS服务及相关实验

DNS（Domain Name Server，域名服务器）是进行域名(domain name)和与之相对应的IP地址 (IP address)转换的服务器。

2018-06-02
Linux笔记

N31Linux第三周

1、列出当前系统上所有已经登录的用户的用户名，注意：同一个用户登录多次，则只显示一次即可。 [root@localhost ~]#who |cut -d ‘ ‘ -f1 |sort -u 2、列出最后登录到当前用户系统的用户相关信息。 [root@localhost ~]#w |cut -d ‘ ‘ -f1 |…

2018-07-16
Linux笔记

加/与不加/的显示区别

ll /bin加/与不加/的显示区别

2018-03-30