部分基本的文本处理工具

一、

  抽取文本的命令

    1、cat

    cat [option]… [file]…

    常用选项:

        -E  显示行尾结束符$

        -n  –number,对显示的每一行进行编号

        -A  显示所有控制符

         -b  –number-blank,对空白行不编号,只对非空白行编号

        -s  –squeeze-blank,压缩连续的空行成一行

   2、more分页查看文件

    more [option]… file…

        -d  显示翻页及退出提示

   3、less,与more类似,一页一页的查看本地文件或STDIN输出

        可以用/和?进行搜索

        n/N 可以配合搜索使用

   4、head

    head [option]… [file]…

  常用选项:

    -c#  指定获取前#字节

    -n#  指定获取前#行

    -#   指定行数

   5、tail 与head的选取顺序相反

    tail [option]… [file]…

  常用选项:

    -c#  指定获取后#字节

    -n#  指定获取后#行

    -#   指定行数

    -f   跟踪显示文件新追加的内容,常用作日志监控,tail -f -0 [file] &  后台应用刷新显示

    6、cut    对行进行分隔,然后切割对应的整列

    cut [option]… [file]…

    -d[分隔符]  指明分隔符,默认tab

    -f[Fields]:

        #  获取第#个字段

        #,#   离散的多个字段,例如1,3,5,6

        #-#   连续的多个字段  例如1-6

        #,#-#  混合使用  例如 1,3,5-7

    -c  按字符切割

    –output-delimiter=STRING 指定输出分隔符

    7、paste    合并两个文件同行号的列到一行

    paste [option]… [file]…

   常用选项

    -d[分隔符]   指定分隔符,默认用tab

    -s      所有行合成一行显示

   8、wc   计算单词总数、行总数、字节总数和字符总数

        可以对文件和STDIN中的数据运行

    wc [option]… [file]…

  常用选项

    -l  计算行数

    -w  计算单词总数

    -c  计算字节总数

    -m  计算字符总数

   9、文本排序sort   把整理过的文本显示在STDOUT上,不改变原始文件

    sort [option] file

  常用选项

    -r   执行反方向整理

    -n   按数字大小进行整理

    -f   忽略字符串中的字符大小写

    -u   删除输出中的重复行

    -t c  使用c作为字段定界符

    -k X  按照使用c字符分隔的X列来整理能够使用多次

   10、uniq   从输入中删除重复的前后相接的行

    uniq [option]… [file]…

    -c   count显示每行重复出现的次数

    -d   仅显示重复过的行

    -u   仅显示不曾重复的行,连续且完全相同方为重复

  常配合sort命令一起使用  sort file | uniq -c

   11、diff  比较两个文件之间的区别 

    diff命令的输出被保存在一种叫做“补丁”的文件中

    使用 -u 选项来输出“统一的”diff格式文件,最适用于补丁文件

    配合 patch 命令可以复制在其他文件中进行的改变,但是会覆盖原文件;配合 -b 选项使用,自动备份改变了的文件 

 

        

        

原创文章,作者:black_fish,如若转载,请注明出处:http://www.178linux.com/29424

(0)
上一篇 2016-08-05 10:18
下一篇 2016-08-05 12:59

相关推荐

  • 文本处理工具-2

    1、 sed 是一种行/流编辑器,它一次处理一行内容;处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space ),接着用sed 命令处理缓冲区中该行内容,处理完成后,把缓冲区的该行内容送往屏幕,接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出,Sed 可以用来自动编辑一个或多个文件。 2…

    Linux干货 2016-08-15
  • Hadoop简介

    Hadoop的概要介绍 Hadoop,是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。该平台使用的是面向对象编程语言Java实现的,具有良好的可移植性。 Hadoop的发展历史 &nbsp…

    Linux干货 2015-04-13
  • vsftpd基于mysql存储认证(centos7)

    (1)首先开发包组和服务器平平台开发包组 (2)yum安装需要的依赖包 (3)编译安装pam_mysql模块 (4)配置mysql,并添加mysql中的vsftpd进程用户,且创建vsftpd数据库,并将vsftpd数据库授权给vsftpd用户,且创建vsftpd.users表,并在表中添加用户tom (5)创建vsftpd要上传和下载的URL (6)创建基…

    Linux干货 2016-10-15
  • 笔记四、Linux基础入门-上半部

    前言 直接已经教大家如何创建虚拟机和安装CentOS 操作系统了,那么今天就来开始入门吧。linux对于新手来说并不难,linux的构造 http://www.178linux.com/68853 这篇博客里我已经讲解了,有兴趣最好看一下llinux下每个目录的作用。还有Linux的哲学思想。 这里我就开始介绍了。 一、用户登陆   &n…

    2017-02-23
  • BT雷人的程序语言

    这个世界从来都不会缺少另类的东西,人类自然世界如此,计算机世界也一样。编程语言方面,看过本站《6个变态的C语言Hello World程序》的朋友们一定对BT和另类不会陌生,但那都是些小儿科,真正的BT和另类要是从语言级上来完成。让我们来看看其中一个比较另类的语言BrainFuck。看到这个程序语言的名字,请不要以为这是一个搞笑的语言,这是一个“严肃事情”,请…

    Linux干货 2015-04-03
  • sed使用方法

      sed编辑器被称作流编辑器(stream editor)。流编辑器在处理数据之前基于预先提供的一组规则来编辑数据流。 一、命令格式   sed options '"地址""编辑命令"' file   常用选项:     -n:静默模式,不显示模式…

    Linux干货 2015-12-28