文本处理工具

文件 查看命令:cat, tac,rev
cat [OPTION]… [FILE]…
-E: 显示行结束符$
-n: 对显示出的每一行进行 编号
-A :显示所有控制符
-b: : 非空行编号
-s :压缩连续的空行成一行

分页查看文件内容
more: 分页查看文件
more [OPTIONS…] FILE…
-d: 显示翻页及退出提示
less :一页一页地查看文件或STDIN 输出

查看时有用的命令包括:
n/N 跳到下一个 个 或 或 上 一个匹配
less 命令是man

显示文本前或后行内容
head [OPTION]… [FILE]…
-c #: 指定获取前# 字节
-n #: 指定获取前#行 行
-#: : 指定行数
tail
tail [OPTION]… [FILE]…
-c #: 指定获取后# 字节
-n #: 指定获取后#行 行
-#: :
-f: 跟踪显示文件新追加的内容

按列抽取文本cut 和合并文件paste
cut [OPTION]… [FILE]…
-d DELIMITER: 指明分隔符,默认tab
-f FILEDS:

: 第# 个字段

,#[,#] :离散的多个字段,例如1,3,6

-# :连续的多个字段, 例如1-6

混合使用:1-3,7
-c 按字符切割
–output-delimiter=STRING 指定输出分隔符

cut 和paste
显示文件或STDIN 数据的指定列
cut -d: -f1 /etc/passwd
cat /etc/passwd | cut -d: -f7
cut -c2-5 /usr/share/dict/words
  paste 合并两个文件同行号的列到一行
paste [OPTION]… [FILE]…
-d 分隔符: 指定分隔符,默认用TAB
-s : 所有行合成一行显示
paste f1 f2
paste -s f1 f2

分析文本的工具
 文本数据统计:wc
 整理文本:sort
 比较文件:diff 和patch

收集文本统计数据wc
 计数单词总数、行总数、字节总数和字符总数
 可以对文件或STDIN 中的数据运行
$ wc story.txt
39 237 1901 story.txt
行数 字数 字符数
使用 -l 来只计数行数
使用 -w 来只计数单词总数
使用 -c 来只计数字节总数
使用 -m 来只计数字符总数

文本排序sort
 把整理过的文本显示在STDOUT ,不改变原始文件
sort [options] file(s)
  常用选项
  -n 执行按数字大小整理
  -f 选项忽略(fold )字符串中的字符大小写
  -u 选项(独特,unique )删除输出中的重复行
  -t c 选项使用c 做为字段界定符
  -k X 选项按照使用c 字符分隔的X

uniq
 uniq 命令:从输入 中删除前后相接的 重复的 行
 uniq [OPTION]… [FILE]…
-c: 显示每行重复出现 的次数
-d: 仅显示重复过 的行
-u: 仅显示不曾重复 的行
连续且完全相同方为重复
  常和sort 命令一起配合使用:
sort userlist.txt | uniq -c

比较文件
 比较两个文件之间的区别
$ diff foo.conf-broken foo.conf-works
5c5
< use_widgets = no

> use_widgets = yes
? 注明第5 行有区别(改变)

复制对文件改变patch
 diff 命令的输出被保存在一种叫做“补丁”的文件中
  使用 -u 选项来输出“统一的(unified )”diff 格式文件,最适用于补丁文件。
 patch 复制在其它文件中进行的改变(要谨慎使用)
  适用 -b 选项来自动备份改变了的文件
$ diff -u foo.conf-broken foo.conf-works > foo.patch
$ patch -b foo.conf-broken foo.patch

文件查找
 在文件系统上查找符合条件 的文件
 文件查找:locate, find
非实时查找( 数据库查找) :locate
实时查找:find

locate
  查询系统上预建的文件索引数据库
/var/lib/mlocate/mlocate.db
  依赖于事先构建 的索引
索引的构建是在系统较为空闲时自动进行( 周期性 任务),管理员 手动更新数据库(updatedb)
  索引构建过程需要遍历整个根文件系统,极 消耗资源
  工作特点:
? 查找 速度 快
? 模糊 查找
? 非实时查找
? 搜索的是文件的全路径,不仅仅是文件名
? 可能只搜索用户具备读取和执行权限的目录

locate 命令
  locate KEYWORD
  有用的选项
-i 不区分大小写的搜索
-n N 只列举前N 个匹配项目
  locate conf
搜索名称或路径中带有“conf ”的文件
  locate -r ‘.conf$’
使用Regex 来搜索以“.conf ”结尾的文件

find
  实时查找工具,通过遍历指定路径完成文件查找
  工作特点:
查找速度略慢
精确查找
实时查找
可能只搜索用户具备读取和执行权限的目录
find
  语法:
  find [OPTION]… [ 查找路径] [ 查找条件] [ 处理动作]
查找路径:指定具体目标路径;默认为当前目录
查找条件:指定的查找标准,可以文件名、大小、类型、
权限等标准进行;默认为找出指定路径下的所有文件
处理动作:对符合条件的文件做操作,默认输出至屏幕
查找条件
指搜索层级
-maxdepth level 最大搜索目录深度, 指定 目录为第1级 级
-mindepth level 最大 搜索目录深度
  根据文件名和inode 查找:
-name ” 文件名称” :支持使用glob
*, ?, [], [^]
-iname ” 文件名称” :不区分字母大小写
-inum n 按inode 号查找
-samefile name 相同inode 号的文件
-links n 链接数为n 的文件
-regex “PATTERN” :以PATTERN 匹配整个文件路径字符串,而不仅仅是文件名称
根据属主、属组查找:
-user USERNAME :查找属主为指定用户(UID) 的文件
-group GRPNAME: 查找属组为指定组(GID) 的文件
-uid UserID :查找属主为指定的UID 号的文件
-gid GroupID :查找属组为指定的GID 号的文件
-nouser :查找没有属主的文件
-nogroup
根据文件类型查找:
-type TYPE:
? f: 普通文件
? d: 目录文件
? l: 符号链接文件
? s :套接字文件
? b: 块设备文件
? c: 字符设备文件
? p: 管道文件
组合条件:
与:-a
或:-o
非:-not, !
  德 德· 摩根 定律:
(非 非 P) 或 或 (非 非 Q) = 非(P 且 且 Q)
(非 非 P) 且 且 (非 非 Q) = 非(P 或 或 Q)
  示例:
!A -a !B = !(A -o B)
!A -o !B = !(A -a B)

find 示例
  find -name snow.png
? 搜索名为snow.png 的文件
  find -iname snow.png
? 不分大小写地搜索名为snow.png 、Snow.png、 、
SNOW.PNG 等等的文件
  find / -name “.txt”
  find /var –name “
log
  find -user joe -group joe
  搜索被用户joe 以及组群joe
? find -user joe -not -group joe
? find -user joe -o -user jane
? find -not ( -user joe -o -user jane )
? find / -user joe -o -uid 500
找出/tmp 目录下,属主不是root ,且 文件名 不以f 开头的 文件
find /tmp ( -not -user root -a -not -name ‘f
‘ ) -ls
find /tmp -not ( -user root -o -name ‘f‘ ) –ls
  排除 目录
? 示例:查找/etc/ 下,除/etc/sane.d 目录的其它所有.conf 后缀的文件
find /etc -path ‘/etc/sane.d’ -a -prune -o -name “
.conf” -print
根据文件大小来查找:
-size [+|-]#UNIT
常用单位:k, M, G

UNIT: (#-1, #]

如:6k 表示(5k,6k]
-#UNIT :[0,#-1]
如: :-6k 表示[0,5k]
+#UNIT :(#, ∞ )
如: :+6k 表示(6k ,∞ )

根据时间戳:
以“天”为单位;
-atime [+|-]#,

: [#,#+1)

+#: [#+1, ∞ ]
-#: [0,#)
-mtime
-ctime
以“分钟”为单位:
-amin
-mmin
-cmin
根据权限查找:
-perm [/|-]MODE
MODE: 精确权限匹配
/MODE :任何一类(u,g,o) 对象的权限中只要能一位匹配即可,或关系,+ 从centos7 开始淘汰
-MODE :每一类对象都必须同时拥有指定权限,与关系0 表示不关注
? find -perm 755 会匹配权限模式恰好是755 的文件
? 只要当任意人有写权限时,find -perm +222 就会匹配
? 只有当每个人都有写权限时,find -perm -222 才会匹配
? 只有当其它人(other )有写权限时,find -perm -002才会匹配

处理动作
  -print :默认的处理动作,显示至屏幕
  -ls :类似于对查找到的文件执行“ls -l” 命令
  -delete :删除查找到的文件
  -fls file :查找到的所有文件的长格式信息保存至指定文件中
  -ok COMMAND {} \; 对查找到的每个文件执行由 COMMAND指定的命令,对于每个文件执行命令之前,都会交互式要求用户确认
-exec COMMAND {} \; 对查找到的每个文件执行由COMMAND 指定的命令
  {}: 用于引用查找到的文件名称自身
  find 传递查找到的文件至后面指定的命令时,查找到所有符合条件的文件一次性传递给后面的命令

参数 替换 换xargs
  用于 产生 某个命令的 参数, ,xargs 入 可以读入 stdin 的数据,并且以空格符 或 回车符将 将 stdin 的数据分隔 成为arguments
  注意:文件 名 或者是其他意义的名词内含有 空格符 的情况
  有些命令不能接受过多参数 ,命令执行 可能会 失败,xargs可以解决
  示例:
find | xargs COMMAND
find /sbin -perm +7000 | xargs ls -l

find 示例
  find -name “.conf” -exec cp {} {}.orig \;
? 备份配置文件,添加.orig 这个扩展名
  find /tmp -ctime +3 -user joe -ok rm {} \;
? 提示删除存在时间超过3天以上的joe 的临时文件
  find ~ -perm -002 -exec chmod o-w {} \;
? 在你的主目录中寻找可被其它用户写入的文件
  find /data –type f -perm 644 -name “
.sh” –exec
chmod 755 {} \;
  find /home –type d -ls

原创文章,作者:SDS,如若转载,请注明出处:http://www.178linux.com/71274

(0)
上一篇 2017-03-17 19:28
下一篇 2017-03-18 02:41

相关推荐

  • 部分基本的文本处理工具

    一、   抽取文本的命令     1、cat     cat [option]… [file]…     常用选项:         -E &nb…

    Linux干货 2016-08-05
  • linux bash环境变量简单总结

    一.环境变量简介Linux是一个多用户的操作系统。每个用户登录系统后,都会有一个专用的运行环境。通常每个用户默认的环境都 是相同的,这个默认环境实际上就是一组环境变量的定义。 环境变量是全局的,设置好的环境变量可以被所有当前用户所运行的程序所使用。 用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。 …

    Linux干货 2015-09-14
  • Linux的发展史和Linux的终端类型

    Linux的发展史和Linux的终端类型 前言:    随着时代的发展,Linux所占的市场份额越来越大,目前几乎百分之九十的服务器市场都被Linux占据。接下来我们来聊聊Linux的发展史。 简单的说:Linux操作系统是1998年的8月芬兰的一个叫Linus Torvalds的大学生写出来的一个类minix的系统。 具体分析: Lin…

    Linux干货 2016-10-17
  • Linux Sysadmin–part4

    一、请详细描述CentOS系统的启动流程(详细到每个过程系统做了哪些事情) A.POST加电自检 主板在接通电源后,系统首先由POST程序来对内部各个设备进行检查,自检中如发现有错误,将按两种情况处理:对于严重故障(致命性故障)则停机,此时由于各种初始化操作还没完成,不能给出任何提示或信号;对于非严重故障则给出提示或声音报警信号,等待用户处理。 B.BIOS…

    2017-10-10
  • N22-第四周作业

    1、复制/etc/skel目录为/home/tuser1,要求/home/tuser1及其内部文件的属组和其它用户均没有任何访问权限。      2、编辑/etc/group文件,添加组hadoop。 3、手动编辑/etc/passwd文件新增一行,添加用户hadoop,其基本组ID为hadoop组的id号;其家目录为…

    Linux干货 2016-09-05