文本处理(1)

文本处理工具最全整理上半部

一.抽取文件的工具
1.文件内容查看
cat 按顺序输出文本到屏幕
-A 显示所有的控制符
-n 显示行号
-b 非空行编号
-s 压缩连续的空行成一行
tac : 行倒序查看(最后一行变为第一行显示)
rev : 列倒序查看(一行内最后一个字符变为第一个字符显示)
more 分页显示文件 Enter键翻页
less 分页显示 /文本 搜索文本 n/N 跳到下一个或上一个匹配
2.文件截取
head/tail 显示文本前或后行内容
-c # 获取前或后#字节
-n # 获取前或后#行
tail -f 跟踪显示文件新追加内容,常用于日志监控
3.按列抽取
cut -d :指明分割符,默认Tab
-f :# 第#个字段
#,# 离散的多个字段,例如1,3,6
#-# 连续的多个字段,例如1-6
混合使用1-3,7
-c 按字符切割
–output-delimiter=STRING指定输出分隔符
paste 合并两个同行号的行到一行
-d 指定分隔符,默认tab
4.按关键字抽取
grep
二、分析文本的工具
1.文本数据统计 wc
wc -l 只计数行数
-w 只计数单词总数
-c 只计数字节总数
-m 字符总数
-L 最长行的长度
2.整理文本 sort
sort -r 执行反方向(由上至下)整理
-n 执行按数字大小整理
-t c 用c作为字段界定符
-k x 与-t一起使用,按照使用c字符分隔的x行整理
-R 随机排序
uniq 从输出中删除前后相接的重复的行,常用于与sort配合使用
-c 显示每行重复出现的次数
-d 仅显示重复过的行
-u 仅显示不曾重复的行 注:连续且完全相同方为重复
常和sort 命令一起配合使用:
sort userlist.txt | uniq -c
3.比较文件 diff patch
Example:1.通过ifconfig取网卡eth0的ip地址
ifconfig eth0 | grep ‘inet addr’ |cut -d: -f2 |cut -d’ ‘ -f1
2.取分区利用率
df|tr -s ‘ ‘ ‘%’ |cut -d “%” -f5
3.分析access_log,分析出登陆ip和次数,并按访问次数从多到少排序
cut -d’ ‘ -f1 access_log | sort | uniq -c | sort -nr
4.按uid排列用户
sort -t: -k3 -nr /etc/passwd
三、Linux文本处理三剑客
1. grep 文本过滤工具
–color=auto 对匹配到的文本着色显示
-v 显示不被匹配到的行
-i 忽略大小写
-n 显示匹配的行号
-c 统计匹配的行数
-o 仅显示匹配到的字符串
-q 不输出任何信息,配合$?使用
-A # 后#行
-B # 前#行
-C # 前后各#行
-e 同时匹配多个选项。
-w 匹配整个单词
-E 使用ERE(扩展正则)
-F 相当于fgrep,不支持正则
2.正则表达式
元字符分类
1)字符匹配:
. 匹配任意单个字符
[] 匹配指定范围内的任意单个字符
[^] 匹配指定范围外的任意单个字符
[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母 [:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 水平和垂直的空白字符(比[:blank:]包含的范围广)
[:cntrl:] 不可打印的控制字符(退格、删除、警铃…)
[:digit:] 十进制数字 [:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
2) 匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
* 匹配前面的字符任意次,包括0次
贪婪模式:尽可能长的匹配
.* 任意长度的任意字符
\? 匹配其前面的字符0或1次
\+ 匹配其前面的字符至少1次
\{n\} 匹配前面的字符n次
\{m,n\} 匹配前面的字符至少m次,至多n次
\{,n\} 匹配前面的字符至多n次
\{n,\} 匹配前面的字符至少n次
3)位置锚定:定位出现的位置
^ 行首锚定,用于模式的最左侧
$ 行尾锚定,用于模式的最右侧
^PATTERN$ 用于模式匹配整行
^$ 空行
^[[:space:]]*$ 空白行
\< 或 \b 词首锚定,用于单词模式的左侧
\> 或 \b 词尾锚定;用于单词模式的右侧
\<PATTERN\> 匹配整个单词
4)分组:\(\) 将一个或多个字符捆绑在一起,当作一个整体进行处理,如:
\(root\)\+
分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这
些变量的命名方式为: \1, \2, \3, …
\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符
示例: \(string1\+\(string2\)*\)
\1 :string1\+\(string2\)*
\2 :string2
后向引用:引用前面的分组括号中的模式所匹配字符,而非模式本身
或者:\|
示例:a\|b: a或b C\|cat: C或cat \(C\|c\)at:Cat或cat
3.扩展的正则表达式:
egrep = grep -E
1)字符匹配:
. 任意单个字符
[] 指定范围的字符
[^] 不在指定范围的字符
2)次数匹配:
*:匹配前面字符任意次
?: 0或1次
+:1次或多次
{m}:匹配m次
{m,n}:至少m,至多n次
3)位置锚定:
^ :行首
$ :行尾
\<, \b :语首
\>, \b :语尾
4)分组:
()
后向引用:\1, \2, …
或者:
a|b: a或b
C|cat: C或cat
(C|c)at:Cat或cat
四、vim简介
命令模式光标跳转
行首行尾跳转:
^: 跳转至行首的第一个非空白字符
0: 跳转至行首
$: 跳转至行尾
行间移动:
#G、扩展模式:# :跳转至由#指定行
G:最后一行
1G, gg: 第一行
句间移动:
):下一句 (:上一句
段落间移动:
}:下一段 {:上一段
删除/剪切命令:
d: 删除命令,可结合光标跳转字符,实现范围删除
d$: 删除到行尾
d^:删除到非空行首
d0:删除到行首
dw:删除单词
dd: 删除光标所在的行
#dd:多行删除
D:从当前光标位置一直删除到行尾,留空行,等同于d
u:撤销最近的更改
使用多个“窗口”
多文件分割
vim -o|-O FILE1 FILE2 …
-o: 水平分割
-O: 垂直分割
在窗口间切换:Ctrl+w, Arrow
单文件窗口分割:
Ctrl+w,s: split, 水平分割
Ctrl+w,v: vertical, 垂直分割
ctrl+w,q:取消相邻窗口
ctrl+w,o:取消全部窗口
:wqall 退出

本文来自投稿,不代表Linux运维部落立场,如若转载,请注明出处:http://www.178linux.com/92462

(0)
上一篇 2018-03-15 16:33
下一篇 2018-03-15 16:33

相关推荐

  • LVS实现

    一 LVS-NAT实验前的准备 操作系统:CentOS 6.7 64位 配置防火墙,iptables –F 清理防火墙规则或者关闭iptables 关闭SELINUX, setenforce 0  #立即生效(实际是宽容模式) Director ip:172.16.2.1  VIP:192.168.1.8 RS1 ip:172.16.2….

    Linux干货 2016-12-29
  • Linux入门之文本处理三剑客之grep

    Linux入门之文本处理三剑客之grep  文本处理工具:  grep,sed(流编辑器),awk    grep简述及特点 简介:全局搜索正则表达式出来的行并打印 (Global search REgular expression and Print out  the line),一种按照特定模式(patt…

    Linux干货 2016-08-07
  • Linux的哲学思想和文件系统

    Linux的哲学思想 Linux是一个自由的操作系统,其内部也有着自己独特的一些特定的规则,就是我们所说的关于Linux的哲学思想。 Linux系统的哲学思想 1.一切皆文件:Linux系统把几乎所有的系统资源全部都抽象为文件形式,包括硬件设备,甚至通信的接口都是以文件形式存在的。 2.Linux系统是由许许多多的小程序组成的,这些小程序的功能性单一,组合这…

    Linux干货 2016-11-01
  • Shell 位置参数总结

    描述: 位置参数指的是shell脚本的命令行参数,同时也表示shell函数的额函数参数。 说明: 示例: #!/bin/sh echo "number:$#"     # 传给脚本的参数个数 echo "scname:$0" &n…

    Linux干货 2016-08-16
  • Linux进程篇16.2pstree命令:【进程树】

    pstree命令:【进程树】

    Linux干货 2017-12-18
  • crm命令行命令详解

    crm -status 显示当前集群状态 -configure 配置集群 a.show xml 显示当前集群配置信息(xml格式) b.property 显示集群可用的全局属性(键入之后按两下Tab) -verifiy 校验 -commit 提交 -node a.online 设置当前节点上线 b.show 显示当前节点状态 c.standby 将当前节点设…

    Linux干货 2017-11-04