文本处理工具以及grep

我们在使用Linux系统的时候需要查看、分析或者统计文件，这时候我们就需要使用到文本处理工具。

我们先来看下几个文本处理工具的使用：

文件内容:less和 cat

文件截取：head和tail

按列抽取：cut

按关键字抽取：grep

我们先来看看less和cat

cat：查看文件命令

用法：

cat [OPTION]… [FILE]…

参数：

-E: 显示行结束符$

    [root@centos7 ~]# cat -E f1
    2390051ee07353113$
    1231238942389472341239847$
    0123weqeqqwe213312132123$
    039005170023123761$

-n: 对显示出的每一行进行编号

     [root@centos7 ~]# cat -n f1
     1	2390051ee07353113			
     2	   
     3	1231238942389472341239847
     4	0123weqeqqwe213312132123
     5	039005170023123761

-A：显示所有控制符

    [root@centos7 ~]# cat -A f1
    2390051ee07353113^I^I^I$    这里的^I就是Tab
       $

-b：非空行编号

-s：压缩连续的空行成一行（下面来看一下对比）

    [root@centos7 ~]# cat f2
    a
    
    
    
    a
    a
    [root@centos7 ~]# cat -s f2
    a
    
    a
    a

分页查看文件内容：

more: 分页查看文件

more [OPTIONS…] FILE…

-d: 显示翻页及退出提示

less：一页一页地查看文件或STDIN输出

查看时有用的命令包括：

/文本搜索文本

n/N 跳到下一个 or 上一个匹配 less

如下图，输入/of（搜索文中出现的of）

命令是man命令使用的分页器

显示文本前或后行内容：

head

用法：

head [OPTION]… [FILE]…

-c #: 指定获取前#字节

-n #: 指定获取前#行

-#：指定行数

tail

用法：

tail [OPTION]… [FILE]…

（默认显示10行）

-c #: 指定获取后#字节

-n #: 指定获取后#行

-#：指定行数

    [root@centos7 ~]# tail -3 /etc/passwd
    rootash:x:2010:2010::/home/rootash:/bin/bash
    roobash:x:2011:2011::/home/roobash:/bin/bash
    zzzz:x:2012:2012::/home/zzzz:/bin/bash

-f: 跟踪显示文件新追加的内容,常用日志监控

按列抽取文本cut和合并文件paste

cut

用法：

cut [OPTION]… [FILE]…

-d DELIMITER: 指明分隔符，默认tab

-f FILEDS: #: 第#个字段

#,#[,#]：离散的多个字段，例如1,3,6

#-#：连续的多个字段, 例如1-6 混合使用：1-3,7

-c 按字符切割

–output-delimiter=STRING指定输出分隔符

例如显示/etc/passwd前3行的用户名和shell类型：
    [root@centos7 ~]# head -3 /etc/passwd | cut -d: -f1,7
    root:/bin/bash
    bin:/sbin/nologin
    daemon:/sbin/nologin

paste

合并两个文件同行号的列到一行

用法：

paste [OPTION]… [FILE]…

-d 分隔符:指定分隔符，默认用TAB

-s : 所有行合成一行显示

paste f1 f2

paste -s f1 f2

分析文本的工具：

文本数据统计：wc

整理文本：sort

比较文件：diff和patch

收集文本统计数据wc：

计数单词总数、行总数、字节总数和字符总数可以对文件或STDIN中的数据运行

[root@centos7 ~]# wc f1
     32   31   383     f1
    行数 字数 字符数

使用 -l 来只计数行数

使用 -w 来只计数单词总数

使用 -c 来只计数字节总数

使用 -m 来只计数字符总数

文本排序sort：

把整理过的文本显示在STDOUT，不改变原始文件

用法：

$ sort [options] file(s)

常用选项

-r 执行反方向（由上至下）整理

-n 执行按数字大小整理

-f 选项忽略（fold）字符串中的字符大小写

-u 选项（独特，unique）删除输出中的重复行

-t c 选项使用c做为字段界定符

-k X 选项按照使用c字符分隔的X列来整理能够使用多次

 看下面的例子：
    [root@centos7 ~]# cat f2    先查f2文件的内容
    nologin:x:2009:2009::/home/nologin:/bin/bash
    rootash:x:2010:2010::/home/rootash:/bin/bash
    roobash:x:2011:2011::/home/roobash:/bin/bash
    zzzz:x:2012:2012::/home/zzzz:/bin/bash 
    [root@centos7 ~]# sort -r -t: -k3 f2    sort命令使用：做分隔符反向排列第三列
    zzzz:x:2012:2012::/home/zzzz:/bin/bash
    roobash:x:2011:2011::/home/roobash:/bin/bash
    rootash:x:2010:2010::/home/rootash:/bin/bash
    nologin:x:2009:2009::/home/nologin:/bin/bash

uniq命令：从输入中删除重复的前后相接的行

用法：

uniq [OPTION]… [FILE]…

-c: 显示每行重复出现的次数；

-d: 仅显示重复过的行；

-u: 仅显示不曾重复的行；

连续且完全相同方为重复 

常和sort 命令一起配合使用： sort userlist.txt | uniq -c

    [root@centos7 ~]# cat f2
    a
    a
    a
    
    
    a
    b
    a
    [root@centos7 ~]# sort f2 | uniq -c
      2 
      5 a
      1 b

比较文件：

diff:

    [root@centos7 ~]# diff f2 f3
    2c2
    <  Kernel \r on an \m
    ---
    > Kernel \r on an \m
    注明第2行有区别

grep和正则表达式：

grep: Global search REgular expression and Print out the line.即全局搜索正则表达式并打印出匹配的行。

作用：文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行；

模式：由正则表达式字符及文本字符所编写的过滤条件。

grep用法：

grep [OPTIONS] PATTERN [FILE…]

grep选项：

–color=auto: 对匹配到的文本着色显示；

-v: 显示不能够被pattern匹配到的行；

-i: 忽略字符大小写

-n：显示匹配的行号

-c: 统计匹配的行数

-o: 仅显示匹配到的字符串；

-q: 静默模式，不输出任何信息

-A #：after, 后#行

-B #: before, 前#行

-C #：context, 前后各#行

-e：实现多个选项间的逻辑or关系 grep –e ‘cat ’ -e ‘dog’ file

-w：整行匹配整个单词

正则表达式：

在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的，正则表达式就是用于描述这些规则的工具。REGEXP：由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能。程序支持：grep, vim,less,nginx等。分两类：基本正则表达式：BRE扩展正则表达式：ERE 。

元字符分类：

字符匹配

匹配次数

位置锚定

分组

基本正则表达式

字符匹配：

.：匹配任意单个字符；

    [root@centos7 ~]# grep "r..t" /etc/passwd
    root:x:0:0:root:/root:/bin/bash
    operator:x:11:0:operator:/root:/sbin/nologin
    ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
    rootash:x:2010:2010::/home/rootash:/bin/bash

[]：匹配指定范围内的任意单个字符

    [root@centos7 ~]# grep "r[a-z]t" /etc/passwd
    operator:x:11:0:operator:/root:/sbin/nologin
    sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin

（这里一定要注意的是单个字符）

[^]：匹配指定范围外的任意单个字符

[:digit:]数字 [:lower:]小写字母

[:upper:]大写字母 [:alpha:]大小写字母

[:alnum:]字母和数字[0-9a-zA-Z]

[:punct:]标点符号 [:space:]空白字符（空格和Tab）。

匹配次数：

用在要指定次数的字符后面，用于指定前面的字符要出现的次数

*：匹配前面的字符任意次，包括0次贪婪模式：尽可能长的匹配

.*：任意长度的任意字符

\?：匹配其前面的字符0或1次

\+：匹配其前面的字符至少1次

\{m\}：匹配前面的字符m次

\{m,n\}：匹配前面的字符至少m次，至多n次

\{,n\}：匹配前面的字符至多n次

\{m,\}：匹配前面的字符至少m次

位置锚定：

定位出现的位置

^：行首锚定，用于模式的最左侧

$：行尾锚定，用于模式的最右侧

^PATTERN$: 用于模式匹配整行

^$: 空行

^[[:space:]]*$ ：空白行

\< 或 \b：词首锚定，用于单词模式的左侧

\> 或 \b：词尾锚定；用于单词模式的右侧

\<PATTERN\>：匹配整个单词

分组：：将一个或多个字符捆绑在一起，当作一个整体进行处理

分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名方式为: \1, \2, \3, …

\1: 从左侧起，第一个左括号以及与之匹配右括号之间的模式所匹配到的字符；

实例： $string1\+\(string2$*\)

\1: string1\+$string2$*

\2: string2

后向引用：引用前面的分组括号中的模式所匹配字符(而非模式本身)

egrep及扩展的正则表达式:

egrep = grep -E

egrep [OPTIONS] PATTERN [FILE…]

字符匹配：

. 任意单个字符

[] 指定范围的字符

[^] 不在指定范围的字符

次数匹配：

*：匹配前面字符任意次

?: 0或1次

+：1次或多次

{m}：匹配m次

{m,n}：至少m，至多n次

位置锚定：

^:行首

$:行尾

\<,\b:语首

\>,\b:语尾

或者：a|b

C|cat: C或cat

(C|c)at:Cat或cat

我们先熟悉了grep与正则表达式，现在我们来做几个小实验来看一下用法：

显示/etc/passwd文件中不以/bin/bash结尾的行

    [root@centos7 ~]# grep -v "/bin/bash$" /etc/passwd 
    （-v选项显示不能够匹配的项） （&行尾锚定）
    bin:x:1:1:bin:/bin:/sbin/nologin
    daemon:x:2:2:daemon:/sbin:/sbin/nologin
    adm:x:3:4:adm:/var/adm:/sbin/nologin
    lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
    sync:x:5:0:sync:/sbin:/bin/sync
    ...

找出/etc/passwd中的两位或三位数

[root@centos7 ~]# grep "\<[0-9]\{2,3\}\>" /etc/passwd

显示当前系统root、mage或zang用户的UID和默认shell

[root@centos7 ~]# egrep "^\<(root|mage|zang)\>" /etc/passwd | cut -d: -f1,3,7
    root:0:/bin/bash
    zang:1000:/bin/bash
    mage:19999:/bin/csh

找出/etc/rc.d/init.d/functions文件中行首为某单词(包括下划线)后面跟一个小括号的行

[root@centos7 ~]# cat /etc/rc.d/init.d/functions | egrep "^[[:alnum:]_]+\(\)" 
checkpid() {
__pids_var_run() {
__pids_pidof() {
daemon() {
killproc() {
pidfileofproc() {
pidofproc() {
status() {
echo_success() {
echo_failure() {
echo_passed() {
echo_warning() {
update_boot_stage() {
success() {
failure() {
passed() {
warning() {
action() {
strstr() {
is_ignored_file() {
is_true() {
is_false() {

原创文章，作者：zanghonglei，如若转载，请注明出处：http://www.178linux.com/31255

文本处理工具以及grep

文本处理工具以及grep

相关推荐

Linux之DNS服务

文件通配符与命令行扩展

8月3日作业

First Day

bash脚本编程实例

日志管理

分享到: