linux中文本处理工具

  对于linux来讲,文本处理是非常重要的,因为linux系统就是由无数的文件组成的,linux中一切皆文件。文件的处理方式有很多种,所以就有众多的文本处理工具,各自作用于不同的文本处理方式。


一、查看文件命令:

   cat命令:处理显示文件内容,不改变原文件

   cat命令常用于查看文件内容,也可通过不同的选项实现不同的显示效果,只执行cat命令是会提供给用户一个交互式的界面,输入什么内容就显示什么内容。

 格式:cat [选项] …文件…

 常用选项:

      -n:在显示的内容前加上行号

      -A:显示所有的控制符

      -E:显示行结束符$

      -b:非空行编号

      -s:压缩连续的空行为一行

示例:

[root@host ~]# cat f1

abcd 

aabbccdd

[root@host ~]# cat -n f1

     1 abcd 

     2 aabbccdd

     3

[root@host ~]# cat -A f1

abcd $

aabbccdd$

$

[root@host ~]# cat -E f1

abcd $

aabbccdd$

$

[root@host ~]# cat -b f1

     1 abcd 

     2 aabbccdd


二、分页查看文件命令:


  more命令:分页查看文件内容,在查看文件时,用时候会遇到文件特别大,一屏根本显示不完,这时我们就用到了分页查看工具,可以方便的把文件进行分页,从而方便查看

 格式:  more [选项…] 文件..

 常用选项:

      -d:屏幕下方显示提示信息

  用法:使用回车键向下翻一行,使用空格键向下翻一屏

截图:

所示.png

 

less命令:一页页地查看文件内容标准输出,提供了比more更为强大的功能

查看使用的命令有:

  可以向上和向下查看,也可进行搜索,

  PgUp:向上翻一屏

  PgDn:向下翻一屏

  回车键、下箭头:向下翻一行

  上箭头:向上翻一行

  搜索功能

  也可插入 / 或 ?在其后输入要查找的内容

  /从光标向下搜索

  ?从光标处向上搜索

   可结合n/N跳到下一个或上一个匹配的项


三、显示文件前几行、后几行的内容的命令


  head命令:显示文件的前几行内容(默认显示前十行)

   格式:head [选项].. 文件..

   常用选项;

        -c #:指定获取前#个字节

        -n #:指定获取钱#行

        -#:指定行数


示例:

[root@host ~]# head -c 100 /etc/passwd

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin

daemon:x:2:2:daemon:/sbin:/sbin/nol[root@host ~]# head -n 3 /etc/passwd

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin

daemon:x:2:2:daemon:/sbin:/sbin/nologin

[root@host ~]# head -3 /etc/passwd

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin

daemon:x:2:2:daemon:/sbin:/sbin/nologin

[root@host ~]#


   tail命令:显示文件后几行的内容(默认为后十行)  

  格式: tail [选项]…文件…

  常用选项:

       -c #:指定后获取#个字节

       -n #:指定获取后#行

       -#:指定后#行

       -f:跟踪显示文件新添内容的变化,多用于监控日志

  用法与head命令相同


四、按列抽取文本命令与合并文本命令


     cut命令:按列抽取文件内容

   格式:cut [选项]…文件…

 常用选项:

       -d 分隔符:指明分隔符,默认为tab

       -f 数字:

         #:指定第#个字段

         #,#[#]:离散的多个字段,例如1,3,5

         #-#:连续的字段 例如1-4

         混合使用:1-3,5

       -c:按字符分割

       –output-delimiter=STRING 指定输出分割符

示例:

[root@host ~]# cut -d: -f1,3-5 /etc/passwd

root:0:0:root

bin:1:1:bin

daemon:2:2:daemon

adm:3:4:adm

[root@host ~]# cut -c1-10 /etc/passwd

root:x:0:0

bin:x:1:1:

daemon:x:2

adm:x:3:4:

[root@host ~]# cut -d: -f1,2 –output-delimiter=# /etc/passwd

root#x

bin#x

daemon#x

adm#x


   paste命令:合并两个文件同行号的列到一行


   格式: paste [选项]…文[件]…

   常用选项:

         -d 分隔符:指定分隔符,默认为tab

         -s:所用行合并成一行显示

示例:

[root@host ~]# cat f1 f2

abcd 

auuuuy

00000000000

abcd 

auuuuy

00000000000

[root@host ~]# paste f1 f2

abcd abcd 

auuuuy auuuuy

00000000000 00000000000

[root@host ~]# paste -s f1 f2

abcd auuuuy 00000000000

abcd auuuuy 00000000000



五、分析文本工具:

     wc命令:收集文本统计数据,能够统计出文件的单词数、行数、字符数、字节数,作用对象可以是文本也可以是标准输出,常与管道结合使用。

  格式:wc [选项]

默认不加选项将输出行数、单词数、字符数

   选项;

      -l:统计行数

      -c:统计字节数

      -w:统计单词数

      -m:统计字符数(当统计汉字时与-c选项有区别)

示例:

[root@host ~]# cat /etc/passwd | wc

     47      91    2448

[root@host ~]# cat /etc/passwd | wc -l

47

[root@host ~]# cat /etc/passwd | wc -c

2448

[root@host ~]# cat /etc/passwd | wc -w

91


     sort命令:文本排序命令,把处理过的内容显示出来,不会改变源文件内容

   格式: sort [选项] 文件

   常用选项:

        -r:反向排序(由上至下)

        -n:按数字大小排序

        -f:忽略字符大小写

        -u:删除输出中重复的行

        -t 分隔符:指定分割符

        -k 数字段:按照-t指定的分隔符确定以哪一列进行排序

示例:

[root@host ~]# cat f1

123

23

45

4

[root@host ~]# sort f1

123

23

4

45

[root@host ~]# sort -n f1

4

23

45

123

[root@host ~]# sort -nr f1

123

45

23

4

[root@host ~]# sort -t: -k 3 /etc/passwd

root:x:0:0:root:/root:/bin/bash

zhang:x:1000:1000:zhang:/home/zhang:/bin/bash

bash:x:1001:1001::/home/bash:/bin/bash

basher:x:1002:1002::/home/basher:/bin/bash


   uniq命令:从输入中删除重复的行(连续的且完全相同的为重复)

  格式: uniq [选项]…[文件]…

  选项:

    -c:显示重复的行的次数

    -d:仅显示重复的行

    -u:仅显示不重复的行

示例:

 

[root@host ~]# cat f1

45

23

45

45

[root@host ~]# uniq -c f1

      1 45

      1 23

      2 45

[root@host ~]# uniq -d f1

45

[root@host ~]# uniq -u f1

45

23

           

   diff命令:diff命令用于比较文件的内容,特别是比较两个版本不同的文件以找到改动的地方。diff在命令行中打印每一个行的改动。diff程序的输出被称为补丁 ,因为Linux系统中还有一个patch程序,可以根据diff的输出将误删除的diff格式的其中一个文件恢复回来,不过用于恢复的文件会飞改名。

  格式: diff [选项] 文件1 文件2…

    选项:

       -u:在恢复diff格式文件时选用

    patch命令:复制在其他文件中进行的改变

    选项:

        -b:自动备份改变了的文件

示例:

[root@host ~]# cat f1 f2

auuuuy

00000000000

abcd 

auuuuy

00000000000

[root@host ~]# diff f1 f2

0a1

> abcd 

1a3

[root@host ~]# diff -u f1 f2 > f.log

[root@host ~]# rm -f f1

[root@host ~]# patch -b f2 f.log 

patching file f2

Reversed (or previously applied) patch detected!  Assume -R? [n] y

[root@host ~]# ls

anaconda-ks.cfg  Documents  f2       f.log  Pictures  Templates  wc

Desktop          Downloads  f2.orig  Music  Public    Videos

[root@host ~]# cat f2 f2.orig 

auuuuy

00000000000

abcd 

auuuuy

00000000000


原创文章,作者:ZJM,如若转载,请注明出处:http://www.178linux.com/30079

(0)
上一篇 2016-08-08 16:15
下一篇 2016-08-08 16:15

相关推荐

  • CMDB内功心法,助我登上运维之巅

    很多70、80后甚至90后都在金庸、古龙、梁羽生先生等武林大家熏陶下成长的,这么多年过去了,我的武侠梦依然不曾散去。曾几何,梦想有一天练就一身绝学,搂着小师妹花前月下,仗剑走天涯,快意人生。可每次的酣睡美梦都被班主任大书板子给抽醒,在他们的鞭策之下,浑浑噩噩的成了一位IT骚年。我们都知道武功分为内功和招式,内功是气,而招式是形,以气御形。内功深厚,会让你的招…

    系统运维 2017-01-09
  • corosync + pacemaker + iscsi实现高可用mysql (上)

    一、实验图   二、准备实验环境:  1)确保sql服务器之间可以基于主机名通信 [root@SQL1 ~]# vim /etc/hosts 172.16.2.13  SQL1.linux.com  SQL1 172.16.2.14  SQL2.li…

    Linux干货 2015-07-09
  • sed的详细用法

    sed(Stream EDitor)是一款流编辑器,用来对文本进行过滤与替换操作。其原理是:通过文件或管道读取文件内容,但是sed默认并不直接修改源文件,而是一次仅读取文件的一行至模式空间(pattern space)根据sed指令进行编辑并输出结果后清除模式空间,即所有的操作都是在模式空间中进行的。 语法格式 sed [option]…&nb…

    Linux干货 2016-11-14
  • 马哥教育21期网络班—第15周课程+练习—-sed 总结

    sed:编辑器 流编辑器,文本流编辑 ed: Stream EDitor, 行编辑器; 介绍:sed是 一个非交换性文本流编辑器,它编辑文件或标准输入导出的文本拷贝。标准输入可能来自键盘、文件重定向、字符串或变量,或者管道的文本。 sed可以干什么? 别忘了vi也是一个文本编辑器。sed可以随意编辑小或大的文件,有许多…

    Linux干货 2016-11-14
  • 无插件Vim编程技巧

    相信大家看过《简明Vim教程》也玩了《Vim大冒险》的游戏了,相信大家对Vim都有一个好的入门了。我在这里把我日常用Vim编程的一些技巧列出来给大家看看,希望对大家有用,另外,也是一个抛砖引玉的过程,也希望大家把你们的技巧跟贴一下,我会更新到这篇文章中。另外,这篇文章里的这些技巧全都是vim原生态的,不需要你安装什么插件。我的Vim的版本是7.2。 浏览代码…

    Linux干货 2015-04-01
  • Linux文件系统

    Linux:glibc 程序编译方式: 动态链接 静态编译 进程的类型: 终端:硬件设备,关联一个用户接口 与终端相关:通过终端启动 与终端无关:操作引导启动过程当中自动启动 操作系统的组成: 静态:kernel, application 文件系统:层级结构 FHS: Filesystem Hierarchy Standard /bin:所有用户可用的基本命…

    Linux干货 2016-11-10