文本处理三剑客之sed

概述

    经过上篇对正则表达式和grep相关内容的学习,我们对文本处理有了一个初步的认识,本篇将简要介绍一下文本处理三剑客之sed。具体分为以下几个部分:

    1、sed原理概述

    2、sed命令详解

第一部分    sed原理概述

    1、sed是什么

        sed是一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为模式空间,接着用sed命令处理缓冲区中的内容,处理完成后,如果有需要进一步处理,就把模式空间的内容送到保持空间,如果不需要进一步处理,把模式空间的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出或者使用-i选项指定修改原文件。 sed主要用来自动编辑一个或多个文件,简化对文件的反复操作,编写转换程序等。

    2、sed的模式空间和保持空间的理解

        模式空间和保持空间,实际上就是sed用来完成数据处理的两段内存空间,其中模式空间用来存储从文档中读取出来的数据,根据指定的处理动作完成对数据的处理,如果在模式空间的数据一次处理后,无法满足要求或需要后续的行进行配合处理,就需再将该行数据放到保持空间,根据需要从模式空间和保持空间之间调度数据,完成更高一级的文件处理动作

    3、sed工作原理

    sed工作原理.png

第二部分    sed命令详解

    1、sed命令语法格式:

        语法:sed [OPTION]…'SCRIPT' FILE…

        SCRIPT:地址定界和编辑命令的集合

        常用选项:

            -n  不输出模式空间的内容至屏幕,也就是没被模式匹配到的行,不输出到屏幕(不指定的话,默认是输出到屏幕)

                一般如果编辑命令不是d,都应该指明该选项

            -e SCRIPT  可以实现多个SCRIPT一起编辑(默认只能用一个SCRIPT)

            -f /PATH/TO/FILE  将各个SCRIPT写到文件中,然后利用-f 导入sed,进行处理。该文件中的格式为每行一个编辑命令

            -r  表示支持使用扩展正则表达式

            -i  表示直接编辑原文件

                sed –iSTRING ‘s/dog/cat/g’ pets可以实现在改变原文件时,将原文件备份一份到原文件目录下取名为源文件名后跟指定的STRING为文件名的文件

            blob.png

    2、sed中的地址定界

        <1>空地址:表示对全文处理

        <2>单地址:表示只对指定行进行处理

            数字:表示指定的行

            /PATTERN/:表示被此模式匹配到的每一行

            $  最后一行

        <3>地址范围

            数字1,数字2  表示从第几行到第几行之间所有的行,包括数字指定的行本身

            数字1,+数字2  表示从第几行开始,往后的多少行

            数字,/PATTERN/  表示从第几行开始,到第一次能被模式匹配到的行结束

            /PATTERN1/,/PATTERN2/  表示第一次能被模式1匹配到的行开始,到第一次能被模式2匹配到的行结束

        <4>步进长度表示法:~

            1~2:表示从第1行开始,每次步进2(此例子表示的是奇数行)

            2~2:表示从第2行开始,每次步进2(此例子表示的是偶数行)

       

        地址定界示例:

        blob.png

        blob.png

    3、sed中的编辑命令

        d  表示删除(此命令一般不能加-n选项,除此命令之外的其他命令都应该加上-n选项)

        p  显示能够被匹配到的模式空间的内容(一般要加上-n选项)

             例如:sed ‘1~2p’ /etc/fstab

                 表示显示全部的内容,且奇数行显示两次,因为默认会显示模式空间中的内容

                 sed -n ‘1~2p’ /etc/fstab表示只显示奇数行的内容

        a  \TEXT 加在后面,表示在模式匹配到行后面追加指定的文本TEXT,支持使用\n(换行符)实现多行插入

        i  \TEXT 加在前面,表示在模式匹配到行前面加上指定的文本TEXT,支持使用\n(换行符)实现多行插入

        c  \TEXT 把匹配到的整行,替换为此处指定的文本TEXT

        w  /PATH/TO/FILE   保存模式空间中被模式匹配到的行另存为指定文件

        r  /PATH/TO/FILE   读取指定文件的内容,至当前文件中被模式匹配到的行后面,文件合并

        =   为模式匹配到的行,打印行号,在匹配到的行的上方另起一行标注行号

        !  条件取反,!的位置在地址定界之后,编辑命令之前

        s///   查找替换,其分隔符可执行指定,常用的有s@@@,s###

            支持替换标记:

                g  表示全局替换(默认表示只替换第一次出现的地方)

                w  /PATH/TO/FILE  将替换成成功的结果保存至指定文件

                p  显示替换成功的行

        blob.png 

        blob.png

        blob.png

        blob.png

    4、sed中的高级编辑命令

        h  表示把模式空间中的内容覆盖至保持空间中

        H  表示把模式空间中的内容追加至保持空间中

        g  表示把保持空间中的内容覆盖至模式空间中

        G  表示把保持空间中的内容追加至模式空间中

        x  表示把模式空间中的内容与保持空间中的内容互换

        n  表示读取匹配到的行的下一行至模式空间中,覆盖原行

        N  表示读取匹配到的行的下一行至模式空间中,追加到原行后面

        d  表示删除模式空间中的行

        D  表示删除多行模式空间中的所有行

        示例:sed ‘1!G;h;$!d’ /etc/fstab  相当于逆序显示文件内容

        分析此命令的过程:

        几个编辑动作的意思:如果不是第一行,就做G操作,然后做h操作,然后如果不是最后一行,就做d操作

        第1行,因为是第一行,不做G操作,然后做h,将第一行的内容覆盖到保持空间,然后不是第一行,删除模式空间的内容,模式空间没内容

        第2行,因为不是第一行,做G操作,将刚才保持空间中的第一行的信息追加到模式空间,此时模式空间有第2行和第1行,然后做h操作,将模式空间的第2行和第1行覆盖到保持空间,此时保持空间有第2行和第1行,然后做d操作,删除了模式空间的所有内容

        第3行,做G操作,故模式空间有了第3行,第2行和第1行,然后再进行h操作,此时保持空间中的内容有第3行第2行第1行,然后删除模式空间

        ….

        最后一行:做G操作,把保持空间的内容追加到模式空间,然后再做h,把模式空间的内容覆盖到保持空间,然后由于是最后一行,不做d操作,故,此时模式空间的内容是最后一行…第一行 ,逆序排序了

        然后sed的默认动作是把模式空间的内容输出,故显示的结果是将文件逆序排序

        blob.png

      

        

        sed ‘$!d’ FILE  表示显示最后一行

        blob.png

        sed ‘$!N;$!D’ FILE  显示文件的最后两行的内容

        blob.png

        sed ‘/^$/d;G’ FILE  删除原有的所有空白行,然后为每个非空白行后添加一个空白行

        blob.png

        sed ‘n;d’ FILE  显示奇数行

        blob.png

        sed ‘G’ FILE   表示在原有的每行后面都加上一个空白行

        blob.png

    

    

原创文章,作者:M20-1倪文超,如若转载,请注明出处:http://www.178linux.com/32100

(0)
上一篇 2016-08-10 10:15
下一篇 2016-08-10 10:22

相关推荐

  • Shell运算符

    Bash 支持很多运算符,包括算数运算符、关系运算符、布尔运算符、字符串运算符和文件测试运算符。 原生bash不支持简单的数学运算,但是可以通过其他命令来实现,例如 awk 和 expr,expr 最常用。 expr 是一款表达式计算工具,使用它能完成表达式的求值操作。 例如,两个数相加: #!/bin/bash val=`expr 2 + 2` echo …

    Linux干货 2017-04-18
  • Ansible

    Ansible简介 ansible是一种基于python语言开发的轻量级自动化运维工具,它可以自动化批量完成主机服务配置管理,软件部署,执行特定命令等工作 ansible的核心组件有ansible core(核心代码),host inventory(要管理的主机),core modules(核心模块),custom modules(用户可以自定义模块),pl…

    Linux干货 2016-11-14
  • 软链接和硬链接详解

    软连接和硬链接图解 硬链接 符号链接 软链接和硬链接详解 软链接和硬链接详解 Linux下的链接文件有点类似于Windows的快捷方式,但又不完全一样。链接文件有两种:一种是硬链接,另一种是符号链接(又称软链接)。 UNIX文件系统提供了一种将不同文件链接至同一个文件的机制,我们称这种机制为链接。它可以使得单个程序对同一文件使用不同的名字。这样的好处是文件系…

    Linux干货 2016-09-06
  • 如何在Java中避免equals方法的隐藏陷阱

    译者注 :你可能会觉得Java很简单,Object的equals实现也会非常简单,但是事实并不是你想象的这样,耐心的读完本文,你会发现你对Java了解的是如此的少。如果这篇文章是一份Java程序员的入职笔试,那么不知道有多少人会掉落到这样的陷阱中。原文转自http://www.artima.com/lejava/articles/equality….

    开发运维 2015-04-03
  • N26-第一周博客作业

    一:计算机的组成及其功能  1.运算器(CPU) 对数据进行各种运算;  2.控制器(CPU) 用来控制整个计算机操作系统;  3.存储器 内存(RAM)存储程序和各种数据信息;  4.输入装置 (Input)下达指令,提供数据,常见的输入装置有鼠标,键盘等;  5.输出设备 (Output)输出数据加工后的…

    Linux干货 2016-12-31
  • linux学习心得

    Linux学习心得 之前没怎么了解过linux运维,机缘巧合来到了这里,刚刚开始一脸蒙圈,或者说现在仍然是,不过最大的收获是我在这里真正认真学习了,有了一个端正的态度,一切都是好的开始。 这一周,我学习了linux的发展史,如何安装系统,一些简单的命令等。。。。下面我一一介绍一下,初学者,可能简单粗暴,多多指教! 系统安装: 1:首先用光盘进行linuxIS…

    2017-07-16