Linux中的文本处理工具

本章内容：

一、各种文本工具来查看、分析，统计文本文件

二、grep

三、正则表达式

四、扩展正则表达式

五、Sed

具体内容如下：

一、抽取文本的工具：

文件内容:less和cat

文件截取：head和tail

按列抽取：cut

按关键字抽取：grep

1.文件查看命令：cat, tac,rev

cat [OPTION]… [FILE]…

-E: 显示行结束符$

-T：显示Tab键

-v：显示Windows的空格字符

-A：显示所有控制符

-n: 对显示出的每一行进行编号

-b：非空行编号

-s：压缩连续的空行成一行

cat 也可以作为一个简单的文本编辑器

rev命令，可以逆序显示字符

2.分页查看内容：more，less

more [OPTIONS…] FILE…

-d: 显示翻页及退出提示（空格是继续看下一屏，q是退出）

！command：在看文件的时候可以执行命令

less：一页一页地查看文件或STDIN输出

查看时有用的命令包括：

/，？文本搜索文本

n/N跳到下一个or 上一个匹配

less命令是man命令使用的分页器

3.head，tail显示文本前行或后行内容

head

head [OPTION]… [FILE]…

-c #: 指定获取前#字节

-n #: 指定获取前#行

-# ： 指定行数

tail

tail [OPTION]… [FILE]…

-c #: 指定获取后#字节

-n #: 指定获取后#行

-# ：同上

-f: 跟踪显示文件新追加的内容,常用日志监控

4.按列抽取文本cut和合并文件paste

cut 显示文件或STDIN数据的指定列

cut [OPTION]… [FILE]…

-d DELIMITER: 指明分隔符，默认tab

-f FILEDS:

#: 第#个字段

#,#[,#]：离散的多个字段，例如1,3,6

混合使用：1-3,7

–output-delimiter=STRING指定输出分隔符（也可以用tr命令转换分隔符）

-c按字符切割

举例：

cut -d: -f1 /etc/passwd

cat /etc/passwd|cut -d: -f7

cut -c2-5 /usr/share/dict/words

paste 合并两个文件同行号的列到一行

paste [OPTION]… [FILE]…

-d 分隔符:指定分隔符，默认用TAB

-s : 所有行合成一行显示

如：paste f1 f2

paste -s f1 f2

5.wc，sort ，diff和path 分析文本工具

wc （word count）收集文本统计数据

计数单词总数、行总数、字节总数和字符总数

可以对文件或STDIN中的数据运行，不跟任何选项，直接根文档，则会把行数、次数、和字符数依次输出。

选项：

使用-l来只计数行数

使用-w来只计数单词总数

使用-c来只计数字节总数

使用-m来只计数字符总数

6.sort文本排序

把整理过的文本对列进行排序，显示在STDOUT，不改变原始文件。

$sort [options] file(s)

常用选项：

-r执行反方向（由上至下）整理

-n执行按数字大小整理

-f选项忽略（fold）字符串中的字符大小写

-u选项（独特，unique）删除输出中的重复行

-t c选项使用c做为字段界定符

-k X选项按照使用c字符分隔的X列来整理能够使用多次

7.uniq命令：

从输入中删除重复的前后相接的行（相邻的行）

uniq[OPTION]… [FILE]…

-c: 显示每行重复出现的次数；

-d: 仅显示重复过的行；

-u: 仅显示不曾重复的行；

连续且完全相同方为重复

常和sort 命令一起配合使用：

sort userlist.txt | uniq-c

8.diff命令

比较两个文件之间的区别

举例如下：

$diff foo.conf-brokenfoo. conf-works

5c5

<use_widgets=no

—

>use_widgets=yes

注明第5行有区别（改变）

9.patch 复制对文件的改变

diff命令的输出被保存在一种叫做“补丁”的文件中

使用-u选项来输出“统一的（unified）”diff格式文件，最适用于补丁文件。

patch命令复制在其它文件中进行的改变（要谨慎使用！）

用-b选项来自动备份改变了的文件

二、Linux上文本处理三剑客

grep：文本过滤(模式：pattern)工具;

grep, egrep, fgrep（不支持正则表达式搜索）

sed：stream editor，文本编辑工具；

awk：Linux上的实现gawk，文本报告生成器；

1.grep

grep: Global search REgularexpression and Print out the line.（全球搜索正则表达式，并打印成一行）

作用：文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行；

模式：由正则表达式字符及文本字符所编写的过滤条件

grep [OPTIONS] PATTERN [FILE…]

grep root /etc/passwd

grep "$USER" /etc/passwd

grep '$USER' /etc/passwd

grep `whoami` /etc/passwd

2.grep命令表达式：

–color=auto: 对匹配到的文本着色显示；

-v: 显示不能够被pattern匹配到的行；

-i: 忽略字符大小写

-n：显示匹配的行号

-c: 统计匹配的行数

-o: 仅显示匹配到的字符串；

-q: 静默模式，不输出任何信息

-A #：after, 后#行

-B #: before, 前#行

-C #：context, 前后各#行

-e：实现多个选项间的逻辑or关系

如：grep –e ‘cat ’ -e ‘dog’ file

-w：整行匹配整个单词

-E：使用ERE

三、正则表达式

REGEXP：由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能

程序支持：grep, vim, less,nginx等

分两类：

基本正则表达式：BRE

扩展正则表达式：ERE

grep -E, egrep

正则表达式引擎：

采用不同算法，检查处理正则表达式的软件模块

PCRE（Perl Compatible Regular Expressions）

元字符分类：字符匹配、匹配次数、位置锚定、分组

man 7 regex

1.基本正则表达式元字符

字符匹配：

. ：匹配任意单个字符；

[] ：匹配指定范围内的任意单个字符

[^] ：匹配指定范围外的任意单个字符

[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、

[:punct:]、[:space:]

匹配次数

匹配次数：用在要指定次数的字符后面，用于指定前面的字符要出现的次数

* 匹配前面的字符任意次，包括0次

贪婪模式：尽可能长的匹配

.* ：任意长度的任意字符

\? ：匹配其前面的字符0或1次

\+ ：匹配其前面的字符至少1次

\{m\} ：匹配前面的字符m次

\{m,n\}：匹配前面的字符至少m次，至多n次

\{,n\}：匹配前面的字符至多n次

\{m,\}：匹配前面的字符至少m次

位置锚定

位置锚定：定位出现的位置

^：行首锚定，用于模式的最左侧

$：行尾锚定，用于模式的最右侧

^PATTERN$: 用于模式匹配整行

^$: 空行，不包含有空格的行

^[[:space:]]*$ ：空白行，包含有空格的行

\< 或\b：词首锚定，用于单词模式的左侧

\> 或\b：词尾锚定；用于单词模式的右侧

\<PATTERN\>：匹配整个单词

分组

（1）分组：：将一个或多个字符捆绑在一起，当作一个整体进行处理，如：$root$\+

（2）分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名方式为: \1, \2, \3, …

（3）\1: 从左侧起，第一个左括号以及与之匹配右括号之间的模式所匹配到的字符；

实例：$string1\+\(string2$*\)

\1: string1\+$string2$*

\2: string2

（4）后向引用：引用前面的分组括号中的模式所匹配字符(而非模式本身)

2.egrep和扩展的正则表达式

egrep= grep -E

egrep[OPTIONS] PATTERN [FILE…]

扩展正则表达式的元字符

字符匹配：

. 代表任意单个字符

[] 指定范围的字符

[^] 不在指定范围的字符

次数匹配：

*：匹配前面字符任意次

?: 0或1次

+：1次或多次

{m}：匹配m次

{m,n}：至少m，至多n次

位置锚定：

^ :行首

$ :行尾

\<, \b:语首

\>, \b:语尾

分组：

()

后向引用：\1, \2, …

或者：

a|b

C|cat: C或cat

(C|c)at:Cat或cat

原创文章，作者：zhumengxiaotao，如若转载，请注明出处：http://www.178linux.com/30751

Linux中的文本处理工具

相关推荐

破坏grub实验之二

文本处理三剑客之Sed（行编辑器）

马哥教育网络班21期-第十周课程练习

第十周

ip命令详解

linux文件系统创建

分享到: