关于取路径名与基名的探讨和扩展-20160806

                      关于取路径名与基名的探讨和扩展

    这两天学习grep  ,   egrep  ,  sed   ,有一个问题一直在纠结,就是关于取基名和路径名的问题,虽然对于有的伙伴来说很简单,但有时候有的问题就是有点想不通,研究学习了两天,终于有点眉目,写写心得免得以后忘记了。

    由于一个练习题引发的纠结:(我一直没有搞懂如何通过识别分隔符或特使字段使得可以把任何基名曲出来,只知道一大堆符号就完成了,奇怪啊,奇怪啊……一天没吃饭的,智商问题?年纪大了?)

练习题一 :取出/etc/rc.d/init.d/functions中其基名?取出上面路径的目录名?分别使用grep  , egrep ,sed 给出解决办法?

    其实小伙伴都知道其基名就是 functions,路径名为/etc/rc.d/init.d/,:

§ grep解决办法

·grep取基名:(通过公式)

        [root@wCentos7 Packages]# echo "/etc/rc.d/init.d/functions" | grep  -o  ‘[^/]\+/\?$'
        functions

※详解:

             分析语句:我们需要的functions,我们可以想到在行尾一定会用$,匹配是从前面想后面匹配,到匹配到functions 前面的 / 时,我们就让为我们已经可以得到我们需要的基名了,但是我们不确定 functions到底有多少字符, 所以我们就可以使用  [^/]\+ 表示,后面的  /\? 表示最后面的 /可有可无 ,结束为 $.

 '[^/]\+/\?$'  : 起始位非 / 开始([^/]限定functions前面),并且后面可以由很多个非 / 的字符(\+/通用显示functions的字符数量),尾部有没有 /都无所谓(/\?$) ,限定尾部即可($)。

·grep取路径名名:(貌似取路径名没有通用的公式)

        [root@wCentos7 Packages]#echo "/etc/rc.d/init.d/functions/system" | grep  -o  '^.*/'
        /etc/rc.d/init.d/

§ egrep解决办法:

·egrep取基名:(通过公式)

        [root@wCentos7 Packages]#echo '/etc/rc.d/init.d/functions' |  egrep -o '[^/]+/?$'
        functions

·egrep取路径名名:(貌似取路径名没有通用的公式)

        [root@wCentos7 Packages]#echo "/etc/rc.d/init.d/functions/system" | grep  -o  '^.*/'        
        /etc/rc.d/init.d/

§ sed解决办法:

(sed的功能比较强大,有一点得注意,sed是一行一行数据的处理,当某个模式被匹配了,有删除的动作时删除整个行,不是匹配的模式;所以我们只能想办法替换调匹配的模式达到我们取出基明或路径名。)

·sed取基名:(通过公式)

        [root@wCentos7 Packages]# echo '/etc/rc.d/init.d/functions' |  sed  's@[^/]\+/\?$@12356 @'   #替换内容
        /etc/rc.d/init.d/12356

        #我们上面其实找出来我们需要的字段了functions被替换成为 123456,我们想办法让我们得到的结果成为我们的模式即可,

        在正则表达式中我们学习了分组和引用,所以我们就可以使用以下的命令即可:

        [root@wCentos7 Packages]# echo '/etc/rc.d/init.d/functions' |  sed  's@.*/\([^/]\+/\?$\)@\1@'
        functions

※详解:s@.*/\([^/]\+/\?$\)@\1@  :这个语句已经是匹配了整个语句,可以通过grep来查询实验

        [root@wCentos7 Packages]# echo "/etc/rc.d/init.d/functions" | grep '.*/\([^/]\+/\?$\)'
        /etc/rc.d/init.d/functions

        #.*/\([^/]\+/\?$\) 通过grep查询时匹配整个语句的;

        [root@wCentos7 Packages]# echo "/etc/rc.d/init.d/functions"  | grep -o '[^/]\+/\?$'
        functions

    #分组里面的[^/]\+/\?$ 通过测试时匹配基名的。 

    所以我们把分组内的数据 覆盖整个行即可显示我们需要的基名:

     s@.*/\([^/]\+/\?$\)@\1@  : 把分组1的数据替换调前面的数据;

    分组1的数据为: ([^/]\+/\?$\) 就是 基名 functions

    路径名: .*/\   /etc/rc.d/init.d/

    合成就是:functions替换掉 /etc/rc.d/init.d/functions

·sed取路径名名:(通过公式)

        [root@wCentos7 Packages]# echo '/etc/rc.d/init.d/functions/' |  sed  's@\([^/]\+/\?$\)@@'
        /etc/rc.d/init.d/

        #这个应该好理解的,就是把基名替换为空白就得到我们的路径名了,一定记得不是删除的。

§ ·扩展:理解以上的概念我们来做下面的题目,并写出通用的公式吧!

练习题:统计centos安装光盘中Package目录下的所有rpm文件的以.分隔倒数第二个字段的重复次数?

我们通过关盘可以看到Package的文件名大概都为:

    [root@wCentos7 Packages]# ls  #不一一列举 名称.版本.架构;平台.名称,我们就需要获得平台的数据统计
    yum-plugin-protectbase-1.1.31-34.el7.noarch.rpm
    yum-plugin-remove-with-leaves-1.1.31-34.el7.noarch.rpm
    yum-utils-1.1.31-34.el7.noarch.rpm
    zenity-3.8.0-5.el7.x86_64.rpm
    zip-3.0-10.el7.x86_64.rpm
    zlib-1.2.7-15.el7.i686.rpm
    zlib-1.2.7-15.el7.x86_64.rpm
    zziplib-utils-0.13.62-5.el7.x86_64.rpm

我们借鉴上面的思路,我们需要取出 noarch  x86_64  i686的字样,其实我们可以发现,我们取出两个小数点的数据统计就可以的,和去基名是不是一样的啊,思路有了我们就可以直接想办法取出倒数两个小数点的数据统计排序就行的。

我得到的命令如下:

    [root@wCentos7 Packages]# ls | sed   's@.*\.\([^.]\+\.rpm$\)@\1@'  | sort  | uniq -c
       2000 i686.rpm
       2938 noarch.rpm
          1 TRANS.TBL
       4069 x86_64.rpm

※详解: sed   's@.*\.\([^.]\+\.rpm$\)@\1@'

        s@ @ @ : 替换命令;分组1数据替换文件名称的完整名称

        ([^.]\+\.rpm$\) : 匹配 倒数2个小数点的数据 如:x86_64.rpm  noarch.rpm  i686.rpm;

        .*\.\([^.]\+\.rpm$\) :匹配文件名称的完整名称 如:zziplib-utils-0.13.62-5.el7.x86_64.rpm;

        \1    :即为x86_64.rpm  noarch.rpm  i686.rpm的数据。 

※通用公式:

    [root@wCentos7 Packages]# ls | sed  's@.*\.\([^.]\+\.[^.]\+$\)@\1@' | sort | uniq -c
       2000 i686.rpm
       2938 noarch.rpm
      1 TRANS.TBL
       4069 x86_64.rpm

    #把 .rpm 这一节换成 \.[^.]\+ 即可得到上面的表达式

 

    [root@wCentos7 Packages]# ls | sed  's@.*\(\.[^.]\+\.[^.]\+$\)@\1@' | sort | uniq -c
       2000 .i686.rpm
       2938 .noarch.rpm
          1 TRANS.TBL
       4069 .x86_64.rpm
    #把括号外面的 \. 移动括号

 

    [root@wCentos7 Packages]# ls | sed   's@.*\(\(\.[^.]\+\)\{2\}$\)@\1@'  | sort | uniq -c
       2000 .i686.rpm
       2938 .noarch.rpm
          1 TRANS.TBL
       4069 .x86_64.rpm

    #把两个 \.[^.]\+ 换成  \(\.[^.]\+\)\{2\} 即可得到上面的表达式

 

总结:

    grep   ,  egrep   , sed  等等命令实现复杂的功能都需要配合 正则表达式和扩展正则表达式,深入的理解正则表达式和扩展正则表达式对以后我们对工具的理解和使用有很好的帮助,个人感觉还可以提供我们对于程序的脚本编程有一定的理解。

    个人一直认为,理解其工作原理对于使用工具有很好的帮助,不能一味的按照教程上上敲,记住顺序还是会很快遗忘的,不过理解了其简单原理,还是需要多多的敲命令的,不让命令参数都忘记了如何是好。(笔者也是很多命令参数记不住啊,希望老师多出些练习题,实际实用的练习题的,呵呵)

 

 

 

原创文章,作者:linux_root,如若转载,请注明出处:http://www.178linux.com/30328

(0)
linux_rootlinux_root
上一篇 2016-08-07 22:06
下一篇 2016-08-07 22:06

相关推荐

  • 第一周作业

    1. 描述计算机的组成及其功能 CPU:CPU包括运算器和控制器,并采用大规模集成电路工艺制成的芯片,又称微处理器芯片。 运算器又称算术逻辑单元(Arithmetic Logic Unit简称ALU)。它是计算机对数据进行加工处理的部件,包括算术运算(加、减、乘、除等)和逻辑运算(与、或、非、异或、比较等)。 控制器负责从存储器中取出指令,并对指令进行译码;…

    Linux干货 2017-01-04
  • linux网络管理之二

     IP 地址由两部分组成:                        网络ID: 最前面连续位                …

    2017-03-18
  • Nginx+resin调优文档[原创]

    为什么不选择Apache/mod+resin?       前面一直使用该模式,mod_caucho暴露源码的bug一直未得到彻底的解决。因此切换到Nginx+resin平台。硬件上要求除了内存一定要足够大(建议>4G),无其它要求(当然也不能太破,呵呵)。操作系统强烈要求安装64位,32位操…

    Linux干货 2015-03-27
  • linux网络管理

    在 /etc/udev/rules.d/路径下有个70-persistent-ipoib.rules文件,;里边有关于网卡信息的配置,,,在里边可以更改网卡的名字 注意:修改完之后要在/etc/sysconfig/network-scripts/ifcfg-eth0中修改,不然不能使用。 在Centos6以后有一个服务NetworkManager,他可以自动…

    Linux干货 2016-09-06
  • 文件查找相关:whereis、find和locate

        本文将对find和locate进行详细讲解 命令简介 名称:whereis     功能:定位文件所在的目录     用法:whereis shell命令     注意:whereis是根据环境变量PATH来查找文件的,而PATH通常设置成存放命令的那些路径,如/bin、…

    Linux干货 2016-04-05
  • 搜索引擎的技术架构

    1. 搜索引擎的分类 搜索引擎按其工作方式主要可分为三种: 分别是全文搜索引擎(Full Text Search Engine) 目录索引类搜索引擎(Search Index/Directory) 元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎  全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/Al…

    Linux干货 2015-11-18