文本处理工具

文件 查看命令:cat, tac,rev
cat [OPTION]… [FILE]…
-E: 显示行结束符$
-n: 对显示出的每一行进行 编号
-A :显示所有控制符
-b: : 非空行编号
-s :压缩连续的空行成一行

分页查看文件内容
more: 分页查看文件
more [OPTIONS…] FILE…
-d: 显示翻页及退出提示
less :一页一页地查看文件或STDIN 输出

查看时有用的命令包括:
n/N 跳到下一个 个 或 或 上 一个匹配
less 命令是man

显示文本前或后行内容
head [OPTION]… [FILE]…
-c #: 指定获取前# 字节
-n #: 指定获取前#行 行
-#: : 指定行数
tail
tail [OPTION]… [FILE]…
-c #: 指定获取后# 字节
-n #: 指定获取后#行 行
-#: :
-f: 跟踪显示文件新追加的内容

按列抽取文本cut 和合并文件paste
cut [OPTION]… [FILE]…
-d DELIMITER: 指明分隔符,默认tab
-f FILEDS:

: 第# 个字段

,#[,#] :离散的多个字段,例如1,3,6

-# :连续的多个字段, 例如1-6

混合使用:1-3,7
-c 按字符切割
–output-delimiter=STRING 指定输出分隔符

cut 和paste
显示文件或STDIN 数据的指定列
cut -d: -f1 /etc/passwd
cat /etc/passwd | cut -d: -f7
cut -c2-5 /usr/share/dict/words
  paste 合并两个文件同行号的列到一行
paste [OPTION]… [FILE]…
-d 分隔符: 指定分隔符,默认用TAB
-s : 所有行合成一行显示
paste f1 f2
paste -s f1 f2

分析文本的工具
 文本数据统计:wc
 整理文本:sort
 比较文件:diff 和patch

收集文本统计数据wc
 计数单词总数、行总数、字节总数和字符总数
 可以对文件或STDIN 中的数据运行
$ wc story.txt
39 237 1901 story.txt
行数 字数 字符数
使用 -l 来只计数行数
使用 -w 来只计数单词总数
使用 -c 来只计数字节总数
使用 -m 来只计数字符总数

文本排序sort
 把整理过的文本显示在STDOUT ,不改变原始文件
sort [options] file(s)
  常用选项
  -n 执行按数字大小整理
  -f 选项忽略(fold )字符串中的字符大小写
  -u 选项(独特,unique )删除输出中的重复行
  -t c 选项使用c 做为字段界定符
  -k X 选项按照使用c 字符分隔的X

uniq
 uniq 命令:从输入 中删除前后相接的 重复的 行
 uniq [OPTION]… [FILE]…
-c: 显示每行重复出现 的次数
-d: 仅显示重复过 的行
-u: 仅显示不曾重复 的行
连续且完全相同方为重复
  常和sort 命令一起配合使用:
sort userlist.txt | uniq -c

比较文件
 比较两个文件之间的区别
$ diff foo.conf-broken foo.conf-works
5c5
< use_widgets = no

> use_widgets = yes
? 注明第5 行有区别(改变)

复制对文件改变patch
 diff 命令的输出被保存在一种叫做“补丁”的文件中
  使用 -u 选项来输出“统一的(unified )”diff 格式文件,最适用于补丁文件。
 patch 复制在其它文件中进行的改变(要谨慎使用)
  适用 -b 选项来自动备份改变了的文件
$ diff -u foo.conf-broken foo.conf-works > foo.patch
$ patch -b foo.conf-broken foo.patch

文件查找
 在文件系统上查找符合条件 的文件
 文件查找:locate, find
非实时查找( 数据库查找) :locate
实时查找:find

locate
  查询系统上预建的文件索引数据库
/var/lib/mlocate/mlocate.db
  依赖于事先构建 的索引
索引的构建是在系统较为空闲时自动进行( 周期性 任务),管理员 手动更新数据库(updatedb)
  索引构建过程需要遍历整个根文件系统,极 消耗资源
  工作特点:
? 查找 速度 快
? 模糊 查找
? 非实时查找
? 搜索的是文件的全路径,不仅仅是文件名
? 可能只搜索用户具备读取和执行权限的目录

locate 命令
  locate KEYWORD
  有用的选项
-i 不区分大小写的搜索
-n N 只列举前N 个匹配项目
  locate conf
搜索名称或路径中带有“conf ”的文件
  locate -r ‘.conf$’
使用Regex 来搜索以“.conf ”结尾的文件

find
  实时查找工具,通过遍历指定路径完成文件查找
  工作特点:
查找速度略慢
精确查找
实时查找
可能只搜索用户具备读取和执行权限的目录
find
  语法:
  find [OPTION]… [ 查找路径] [ 查找条件] [ 处理动作]
查找路径:指定具体目标路径;默认为当前目录
查找条件:指定的查找标准,可以文件名、大小、类型、
权限等标准进行;默认为找出指定路径下的所有文件
处理动作:对符合条件的文件做操作,默认输出至屏幕
查找条件
指搜索层级
-maxdepth level 最大搜索目录深度, 指定 目录为第1级 级
-mindepth level 最大 搜索目录深度
  根据文件名和inode 查找:
-name ” 文件名称” :支持使用glob
*, ?, [], [^]
-iname ” 文件名称” :不区分字母大小写
-inum n 按inode 号查找
-samefile name 相同inode 号的文件
-links n 链接数为n 的文件
-regex “PATTERN” :以PATTERN 匹配整个文件路径字符串,而不仅仅是文件名称
根据属主、属组查找:
-user USERNAME :查找属主为指定用户(UID) 的文件
-group GRPNAME: 查找属组为指定组(GID) 的文件
-uid UserID :查找属主为指定的UID 号的文件
-gid GroupID :查找属组为指定的GID 号的文件
-nouser :查找没有属主的文件
-nogroup
根据文件类型查找:
-type TYPE:
? f: 普通文件
? d: 目录文件
? l: 符号链接文件
? s :套接字文件
? b: 块设备文件
? c: 字符设备文件
? p: 管道文件
组合条件:
与:-a
或:-o
非:-not, !
  德 德· 摩根 定律:
(非 非 P) 或 或 (非 非 Q) = 非(P 且 且 Q)
(非 非 P) 且 且 (非 非 Q) = 非(P 或 或 Q)
  示例:
!A -a !B = !(A -o B)
!A -o !B = !(A -a B)

find 示例
  find -name snow.png
? 搜索名为snow.png 的文件
  find -iname snow.png
? 不分大小写地搜索名为snow.png 、Snow.png、 、
SNOW.PNG 等等的文件
  find / -name “.txt”
  find /var –name “
log
  find -user joe -group joe
  搜索被用户joe 以及组群joe
? find -user joe -not -group joe
? find -user joe -o -user jane
? find -not ( -user joe -o -user jane )
? find / -user joe -o -uid 500
找出/tmp 目录下,属主不是root ,且 文件名 不以f 开头的 文件
find /tmp ( -not -user root -a -not -name ‘f
‘ ) -ls
find /tmp -not ( -user root -o -name ‘f‘ ) –ls
  排除 目录
? 示例:查找/etc/ 下,除/etc/sane.d 目录的其它所有.conf 后缀的文件
find /etc -path ‘/etc/sane.d’ -a -prune -o -name “
.conf” -print
根据文件大小来查找:
-size [+|-]#UNIT
常用单位:k, M, G

UNIT: (#-1, #]

如:6k 表示(5k,6k]
-#UNIT :[0,#-1]
如: :-6k 表示[0,5k]
+#UNIT :(#, ∞ )
如: :+6k 表示(6k ,∞ )

根据时间戳:
以“天”为单位;
-atime [+|-]#,

: [#,#+1)

+#: [#+1, ∞ ]
-#: [0,#)
-mtime
-ctime
以“分钟”为单位:
-amin
-mmin
-cmin
根据权限查找:
-perm [/|-]MODE
MODE: 精确权限匹配
/MODE :任何一类(u,g,o) 对象的权限中只要能一位匹配即可,或关系,+ 从centos7 开始淘汰
-MODE :每一类对象都必须同时拥有指定权限,与关系0 表示不关注
? find -perm 755 会匹配权限模式恰好是755 的文件
? 只要当任意人有写权限时,find -perm +222 就会匹配
? 只有当每个人都有写权限时,find -perm -222 才会匹配
? 只有当其它人(other )有写权限时,find -perm -002才会匹配

处理动作
  -print :默认的处理动作,显示至屏幕
  -ls :类似于对查找到的文件执行“ls -l” 命令
  -delete :删除查找到的文件
  -fls file :查找到的所有文件的长格式信息保存至指定文件中
  -ok COMMAND {} \; 对查找到的每个文件执行由 COMMAND指定的命令,对于每个文件执行命令之前,都会交互式要求用户确认
-exec COMMAND {} \; 对查找到的每个文件执行由COMMAND 指定的命令
  {}: 用于引用查找到的文件名称自身
  find 传递查找到的文件至后面指定的命令时,查找到所有符合条件的文件一次性传递给后面的命令

参数 替换 换xargs
  用于 产生 某个命令的 参数, ,xargs 入 可以读入 stdin 的数据,并且以空格符 或 回车符将 将 stdin 的数据分隔 成为arguments
  注意:文件 名 或者是其他意义的名词内含有 空格符 的情况
  有些命令不能接受过多参数 ,命令执行 可能会 失败,xargs可以解决
  示例:
find | xargs COMMAND
find /sbin -perm +7000 | xargs ls -l

find 示例
  find -name “.conf” -exec cp {} {}.orig \;
? 备份配置文件,添加.orig 这个扩展名
  find /tmp -ctime +3 -user joe -ok rm {} \;
? 提示删除存在时间超过3天以上的joe 的临时文件
  find ~ -perm -002 -exec chmod o-w {} \;
? 在你的主目录中寻找可被其它用户写入的文件
  find /data –type f -perm 644 -name “
.sh” –exec
chmod 755 {} \;
  find /home –type d -ls

原创文章,作者:SDS,如若转载,请注明出处:http://www.178linux.com/71274

(0)
SDSSDS
上一篇 2017-03-17 19:28
下一篇 2017-03-18 02:41

相关推荐

  • Linux基础知识总结

    Linux基础知识 计算机系统 计算机硬件组成 1.控制器:计算机系统的控制中心,协调各部分工作,保证计算机按照预先规定的目标和步骤进行操作及处理。 2.运算器:对数据进行算数运算,逻辑判断以及数据的比较、移位等操作。 3.存储器:存取程序和各种数据信息。  4.输入设备:把信息,如数字、文字、图像等转换为数字形式的“编码”的设备(键盘,扫描仪) …

    2017-05-18
  • 文本及文件查找练习

    1、显示当前系统上root、fedora或user1用户的默认shell;     ~]# cat /etc/passwd | grep "^\(root\|fedora\|user1\)\>" | cut -d: -f1,7    root:/bin/…

    Linux干货 2016-10-24
  • tcp通讯的服务器和客户端解析

    服务器端编程步骤, 1.创建Socket对象,下文中的socket都表示一个socket对象 2.绑定IP地址和端口,服务器的IP和端口 3.开始监听,将在指定的端口上监听,listen() 如果对方申请连接这个IP和端口,将被听到,这个过程 4.获取用于传输数据的Socket对象 socket.accept() ->(socket object,ad…

    Linux干货 2018-01-01
  • Linux程序包编译安装

    程序包编译安装:      Application-VERSION-release.src.rpm–> 安装后,使用rpmbuild命令制作成二进制格式的rpm包,而后再安装      源代码–>预处理–>编译–>汇编–>链接–>执行      源代码…

    2017-04-25
  • 第九周

    统计可登录shell与不能登陆shell的个数 2. 写一个脚本 3.写一个脚本    4、写一个脚本,完成如下功能 脚本能够接受一个参数。 (1) 如果参数1为quit,则显示退出脚本,并执行正常退出。 (2) 如果参数1为yes,则显示继续执行脚本。 (3) 否则,参数1为其它任意值,均执行非正常退出。    5、…

    Linux干货 2016-12-26
  • Linux源程序包相关概念整理

    一、      Linux源程序包介绍 1)    linux源程序包基础 1.         遵循常用开源协议:BSD、Apache Licence 2.0、GPL、LGPL、MIT 2.&nbs…

    系统运维 2015-09-22