16 文本处理工具

文本处理工具一

一、杂项知识整理

1、ps axo user，ruser，cmd 查看命令发起者的身份和真正的登录身份：

[root@localhost test]# ps axo user,ruser,cmd
USER     RUSER    CMD
root     root     /usr/lib/systemd/systemd --switched-root --system --deserialize 21
root     root     [kthreadd]
root     root     [ksoftirqd/0]
root     root     [kworker/0:0H]
root     root     [migration/0]
root     root     [rcu_bh]
root     root     [rcuob/0]
root     root     [rcuob/1]

2、windows文本在Linux中，回车为^M$，linux文本中tab在文本当中表示为^I。

cat -n 加行号

-b 非空行编号

-s 压缩连续的空行成一行

[root@localhost test]# cat -s test.txt
abbcc abc ccabb
abc dd      
acbabc
      
aaccbbabcacbabc
abbccdba        c
bbb
aaa
     
ccc     
123456
abc123

-A 显示所有的控制符

-E 显示行结束符$

3、root的umask较大因此创建的文件权限较小，是为了限制其它用户访问。root可以随时更改自己的umask。

4、rev命令:每行的内容反向：

[root@localhost test]# rev test.txt
bbacc cba ccbba
      dd cba
      cbabca
cbabcacbabbccaa
c        abdccbba
bbb
     aaa
     ccc
654321
321cba

5、suid和sgid作用于二进制程序上有效，sgid可以作用于目录。echo为内置命令，使用sgid时不能与一般的二进制程序相同。

6、perl语言的发明人，拉里.沃尔，发明diff命令。awk是三个发明人的姓名首字母。

二、命令详解及事例

今天学习了文本处理工具，包括wc，cut，sort，more，less，uniq，diff，patch，rev，head，tail，grep，egrep以及fgrep。我们在/testdir中建立一个文件test.txt内容如下，来实现今天许多文本处理工具的一些命令演示，以加强认识。

[root@localhost test]# cat test.txt
abbcc abc ccabb
abc dd
acbabc


aaccbbabcacbabc

abbccdbac
bbb
aaa


ccc
123456
abc123

1、关于more：查看文件内容或者接收标准输入的内容，只能往下翻页，到底便退出，操作是回车一行一行查看，回车翻页。也可以通过管道接收文件列表。

2、less：查看文本信息，man默认调用的工具。同样可以接收文件列表。快捷键：空格翻屏，回车下一行，f翻屏，d翻半屏，u往上翻半屏，n默认翻三行，g回到顶部，q退出。

3、head命令：获取前几行的内容，默认为十行。

-c # 指定获取前#字节

-n # 指定获取前#行与 -# 指定行数相同：

[root@localhost test]# head test.txt 
abbcc abc ccabb
abc dd      
acbabc      
aaccbbabcacbabc
abbccdba        c
bbb
aaa     
[root@localhost test]# head -c 20 test.txt 
abbcc abc ccabb
abc [root@localhost test]# head -n3  test.txt 
abbcc abc ccabb
abc dd      
acbabc      
[root@localhost test]# head -3  test.txt 
abbcc abc ccabb
abc dd      
acbabc

4、tail命令:与head命令基本相反：显示后几行内容，比head更要常用。

-c # 指定获取后#字节

-n # 指定获取后#行与 -#相同

-f 跟踪显示文件新追加的内容，常用于日志监控：操作如下：找到日志文件执行命令，放入后台执行：

[root@centos68 testdir]# tail -n0 -f aaa.log & 
[1] 4180

在另一个终端执行任务改变了文件时，后台执行任务的终端就会出现新行信息但不影响操作：

[root@centos68 testdir]# echo "aaa" >> aaa.log  （console1）
[root@centos68 testdir]# aaa（console2）

关闭后台任务：

[root@centos68 testdir]# fg %1
tail -n0 -f aaa.log
^C

5、cut命令：

-d 分隔符：指明分隔符，默认tab

-f # ：第几个字段，可以是好几段如：-f1,3,5-10

-c 按字符切割 –output=delimiter=STRINGG指定输出分隔符

[root@localhost test]# cut -db -f 1,3  test.txt --output-delimiter=:
a:cc a
a
ac:c      
aacc:a
a:ccd
:
aaa     
ccc     
123456
a
[root@localhost test]# cut -c 2-4 test.txt 
bbc
bc 
cba
acc
bbc
bb
aa 
cc 
234
bc1

6、paste命令（粘贴）：合并两个文件同行号的列到一行：

-d 分隔符：指定分隔符，默认用tab

-s 所有行合成一行显示：每个文件自己的行合成

[root@localhost test]# paste -d:  aaa.log test.txt 
abc:abbcc abc ccabb
abc:abc dd      
abc:acbabc      
abc:
adfasdfadsf:
adfasdfadsf:aaccbbabcacbabc
[root@localhost test]# paste -s  aaa.log test.txt 
abcabcabcabcadfasdfadsfadfasdfadsf
abbcc abc ccabbabc dd      acbabc      aaccbbabcacbabcabbccdba 
       cbbbaaa     ccc     123456abc123

7、wc命令：计数单词总数、行总数、字节总数和字符总数：可以对文件或STDIN（标准输入）中的数据运行：

-l 只计数行数

-w 只计数单词总数

-c 只计数字节总数

-m 只计数字符总数

[root@localhost test]# wc aaa.log 
 6  6 40 aaa.log
[root@localhost test]# wc -l aaa.log 
6 aaa.log
[root@localhost test]# wc -w aaa.log 
6 aaa.log
[root@localhost test]# wc -c aaa.log 
40 aaa.log
[root@localhost test]# wc -m aaa.log 
40 aaa.log

8、sort命令：把整理过的文本显示在标准输出（STDOUT），不改变原始文件。

-r 反向整理

-n 按数字大小整理

-f （fold）选项忽略字符串中的字符大小写

-u 选项删除输出中的重复行，例子中其实是有空行的，多行空行被删除只留了一行

-t # 选项使用#作为字段界定符（文件中有的，类似cut -d）

-k N 选项按照使用#字符分隔的N列来整理，默认字符顺序排序。

[root@localhost test]# sort -r test.txt 
ccc     
bbb
acbabc      
abc dd      
abc123
abbccdba        c
abbcc abc ccabb
aaccbbabcacbabc
aaa     
123456
[root@localhost test]# sort -n test.txt 
aaa     
aaccbbabcacbabc
abbcc abc ccabb
abbccdba        c
abc123
abc dd      
acbabc      
bbb
ccc     
123456
[root@localhost test]# sort -f test.txt 
123456
aaa     
aaccbbabcacbabc
abbcc abc ccabb
abbccdba        c
abc dd      
abc123
acbabc      
bbb
ccc     
[root@localhost test]# sort -u test.txt 
123456
aaa     
aaccbbabcacbabc
abbcc abc ccabb
abbccdba        c
abc123
abc dd      
acbabc      
bbb
ccc  
[root@localhost test]# sort -t: -k 3 -n  /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin   
[root@localhost test]# sort -t: -k 3 -nr  /etc/passwd
bash:x:2231:2231::/home/bash:/bin/bash
tom:x:2230:3003::/home/tom:/bin/bash
alice:x:2229:3002::/home/alice:/bin/bash
user6:x:2228:2228::/home/user6:/bin/bash
user5:x:2227:2227::/home/user5:/bin/bash
user4:x:2226:2226::/home/user4:/bin/bash
user3:x:2225:2225::/home/user3:/bin/bash
user2:x:2224:2224::/home/user2:/bin/bash
user1:x:2223:2223::/home/user1:/bin/bash
sarah:x:1008:1010::/home/sarah:/bin/nologin
harry:x:1007:1009::/home/harry:/bin/bash
natasha:x:1006:1008::/home/natasha:/bin/bash
gentoo:x:1005:1006:gentoo distribution:/home/gentoo:/

9、uniq命令：从输入中删除重复的前后相接的行：

-c 显示每行重复出现的次数

-d 仅显示重复过的行

-u 仅显示不重复的行

常和sort一起配合使用

[root@localhost test]# uniq -c test.txt 
      1 abbcc abc ccabb
      1 abc dd      
      1 acbabc      
      1 
      1 aaccbbabcacbabc
      1 
      1 abbccdba        c
      3 bbb
      1 aaa     
      1 
      1 aaa
      1 ccc     
      1 123456
      1 abc123
[root@localhost test]# uniq -d test.txt
bbb
[root@localhost test]# uniq -u test.txt 
abbcc abc ccabb
abc dd      
acbabc      
aaccbbabcacbabc
abbccdba        c
aaa     
aaa
ccc     
123456

10、diff命令，比较文件。

[root@localhost test]# diff test.txt test1.txt 
2c2
< 
---
> abc dd      
3a4
> 
6a8
> bbb

diff用于恢复文件，同时使用patch，需要事先用命令-u（unified统一的）将diff比较后的结果输出至文件。

[root@localhost test]# diff -u test.txt test1.txt  >  testbak.txt
[root@localhost test]# rm -f test1.txt 
[root@localhost test]# patch -b test.txt 
aaa.log      testbak.txt  test.txt     
[root@localhost test]# patch -b test.txt testbak.txt 
patching file test.txt
[root@localhost test]# ls
aaa.log  testbak.txt  test.txt  test.txt.orig

首先将对比后的结果输入备份文件，diff -u FILE(BROKEN) FILE(WORKS) > FILE.PATCH

然后恢复原WORK文件：diff -b FILE(BROKEN) FILE.PATCH

三、练习及作业

1、统计/etc/init.d/functions中的每个单词的使用次数：一部分结果：

[root@centos68 testdir]# cat /etc/init.d/functions  |tr -cs [:alpha:] '\n'|sort  |uniq -c 
      1 
     31 a
      5 A
      1 aA
      2 above
     12 action
      2 all
     16 ALL
      2 ALLNETDEVMTAB
      2 already
      1 an
      5 and
      1 And
      5 answer
      3 any
      1 anywhere
      1 apply
      1 Apply
      4 are
      8 arg
      1 args
      1 as
      1 ask
      2 at
      1 avoid
     23 awk
     14 b
      3 back
      1 backup
      2 bak
     36 base

此命令中：tr -sc 是取补集c和合并所有空行为一行。[:alpha:]不能写为[[]]的原因：两个括号代表至匹配一个字符，连续出现好几个特殊字符的情况就不会成功，一个括号代表通配，指所有的。BUG：出现S.U.S.E.这种单词会被拆为四个单词。

原创文章，作者：SilencePavilion，如若转载，请注明出处：http://www.178linux.com/28994

16 文本处理工具

相关推荐

计算机的组成及其功能

文件权限管理

ansible学习笔记之1

varnish学习总结

bash进阶学习ing

N22-第一周作业