文本处理(1)

文本处理工具最全整理上半部

一.抽取文件的工具
1.文件内容查看
cat 按顺序输出文本到屏幕
-A 显示所有的控制符
-n 显示行号
-b 非空行编号
-s 压缩连续的空行成一行
tac : 行倒序查看(最后一行变为第一行显示)
rev : 列倒序查看(一行内最后一个字符变为第一个字符显示)
more 分页显示文件 Enter键翻页
less 分页显示 /文本 搜索文本 n/N 跳到下一个或上一个匹配
2.文件截取
head/tail 显示文本前或后行内容
-c # 获取前或后#字节
-n # 获取前或后#行
tail -f 跟踪显示文件新追加内容,常用于日志监控
3.按列抽取
cut -d :指明分割符,默认Tab
-f :# 第#个字段
#,# 离散的多个字段,例如1,3,6
#-# 连续的多个字段,例如1-6
混合使用1-3,7
-c 按字符切割
–output-delimiter=STRING指定输出分隔符
paste 合并两个同行号的行到一行
-d 指定分隔符,默认tab
4.按关键字抽取
grep
二、分析文本的工具
1.文本数据统计 wc
wc -l 只计数行数
-w 只计数单词总数
-c 只计数字节总数
-m 字符总数
-L 最长行的长度
2.整理文本 sort
sort -r 执行反方向(由上至下)整理
-n 执行按数字大小整理
-t c 用c作为字段界定符
-k x 与-t一起使用,按照使用c字符分隔的x行整理
-R 随机排序
uniq 从输出中删除前后相接的重复的行,常用于与sort配合使用
-c 显示每行重复出现的次数
-d 仅显示重复过的行
-u 仅显示不曾重复的行 注:连续且完全相同方为重复
常和sort 命令一起配合使用:
sort userlist.txt | uniq -c
3.比较文件 diff patch
Example:1.通过ifconfig取网卡eth0的ip地址
ifconfig eth0 | grep ‘inet addr’ |cut -d: -f2 |cut -d’ ‘ -f1
2.取分区利用率
df|tr -s ‘ ‘ ‘%’ |cut -d “%” -f5
3.分析access_log,分析出登陆ip和次数,并按访问次数从多到少排序
cut -d’ ‘ -f1 access_log | sort | uniq -c | sort -nr
4.按uid排列用户
sort -t: -k3 -nr /etc/passwd
三、Linux文本处理三剑客
1. grep 文本过滤工具
–color=auto 对匹配到的文本着色显示
-v 显示不被匹配到的行
-i 忽略大小写
-n 显示匹配的行号
-c 统计匹配的行数
-o 仅显示匹配到的字符串
-q 不输出任何信息,配合$?使用
-A # 后#行
-B # 前#行
-C # 前后各#行
-e 同时匹配多个选项。
-w 匹配整个单词
-E 使用ERE(扩展正则)
-F 相当于fgrep,不支持正则
2.正则表达式
元字符分类
1)字符匹配:
. 匹配任意单个字符
[] 匹配指定范围内的任意单个字符
[^] 匹配指定范围外的任意单个字符
[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母 [:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 水平和垂直的空白字符(比[:blank:]包含的范围广)
[:cntrl:] 不可打印的控制字符(退格、删除、警铃…)
[:digit:] 十进制数字 [:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
2) 匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
* 匹配前面的字符任意次,包括0次
贪婪模式:尽可能长的匹配
.* 任意长度的任意字符
\? 匹配其前面的字符0或1次
\+ 匹配其前面的字符至少1次
\{n\} 匹配前面的字符n次
\{m,n\} 匹配前面的字符至少m次,至多n次
\{,n\} 匹配前面的字符至多n次
\{n,\} 匹配前面的字符至少n次
3)位置锚定:定位出现的位置
^ 行首锚定,用于模式的最左侧
$ 行尾锚定,用于模式的最右侧
^PATTERN$ 用于模式匹配整行
^$ 空行
^[[:space:]]*$ 空白行
\< 或 \b 词首锚定,用于单词模式的左侧
\> 或 \b 词尾锚定;用于单词模式的右侧
\<PATTERN\> 匹配整个单词
4)分组:\(\) 将一个或多个字符捆绑在一起,当作一个整体进行处理,如:
\(root\)\+
分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这
些变量的命名方式为: \1, \2, \3, …
\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符
示例: \(string1\+\(string2\)*\)
\1 :string1\+\(string2\)*
\2 :string2
后向引用:引用前面的分组括号中的模式所匹配字符,而非模式本身
或者:\|
示例:a\|b: a或b C\|cat: C或cat \(C\|c\)at:Cat或cat
3.扩展的正则表达式:
egrep = grep -E
1)字符匹配:
. 任意单个字符
[] 指定范围的字符
[^] 不在指定范围的字符
2)次数匹配:
*:匹配前面字符任意次
?: 0或1次
+:1次或多次
{m}:匹配m次
{m,n}:至少m,至多n次
3)位置锚定:
^ :行首
$ :行尾
\<, \b :语首
\>, \b :语尾
4)分组:
()
后向引用:\1, \2, …
或者:
a|b: a或b
C|cat: C或cat
(C|c)at:Cat或cat
四、vim简介
命令模式光标跳转
行首行尾跳转:
^: 跳转至行首的第一个非空白字符
0: 跳转至行首
$: 跳转至行尾
行间移动:
#G、扩展模式:# :跳转至由#指定行
G:最后一行
1G, gg: 第一行
句间移动:
):下一句 (:上一句
段落间移动:
}:下一段 {:上一段
删除/剪切命令:
d: 删除命令,可结合光标跳转字符,实现范围删除
d$: 删除到行尾
d^:删除到非空行首
d0:删除到行首
dw:删除单词
dd: 删除光标所在的行
#dd:多行删除
D:从当前光标位置一直删除到行尾,留空行,等同于d
u:撤销最近的更改
使用多个“窗口”
多文件分割
vim -o|-O FILE1 FILE2 …
-o: 水平分割
-O: 垂直分割
在窗口间切换:Ctrl+w, Arrow
单文件窗口分割:
Ctrl+w,s: split, 水平分割
Ctrl+w,v: vertical, 垂直分割
ctrl+w,q:取消相邻窗口
ctrl+w,o:取消全部窗口
:wqall 退出

本文来自投稿,不代表Linux运维部落立场,如若转载,请注明出处:http://www.178linux.com/92461

(0)
S_peiS_pei
上一篇 2018-03-15 14:20
下一篇 2018-03-15

相关推荐

  • mysql慢查询日志进行按库切割重写文件然后分析

    需求: 把每天的慢查询日志进行按库切割 对每个库的慢查询日志进行分析 思路: 工具/功能 一般统计信息 高级统计信息 脚本 优势 mysqldumpslow 支持 不支持 perl mysql官方自带 mysqlsla 支持 支持 perl 功能强大,数据报表齐全,定制化能力强. mysql-explain-slow-log 支持 不支持 perl 无 my…

    Linux干货 2015-04-03
  • Shell 变量类型及用法

    一、      什么是变量          变量源于数学,在计算机语言中能储存计算机结果或能表示值的抽象概念,变量可以由变量名访问,在指令语言中,变量通常是可变的。Linux是一个多用户的操作系统。每个用户登录系统后,都会有一个…

    Linux干货 2016-08-12
  • N24_huamao 学习计划

       每天会安排好时间按顺序看视频进行学习,由于基础比较差我会先进行笔记然后再做博客记录。需要操作的知识点会跟着视频和自己的理解去做,最后达到马哥所说的“技能”所需的要求。运维的知识点很广很多也很复杂。当然想学好后边的就要先打好基础从linux系统开始学习把重要的命令记牢应用灵活才可以。这第一步自己一定要迈好。

    Linux干货 2016-10-26
  • 第三周作业

    1、列出当前系统上所有已登录的用户的用户名,注意:同一个用户登录多次,则只显示一次即可。 ~]# who | cut -d ' ' -f 1 | sort -u 2、取出最后登录到当前系统的用户的相关信息。 ~]# la…

    Linux干货 2016-12-19
  • Shell脚本编程中作业

    一、作业: 1、1、编写服务脚本/root/bin/testsrv.sh,完成如下要求 (1) 脚本可接受参数:start, stop, restart, status (2) 如果参数非此四者之一,提示使用格式后报错退出 (3) 如是start:则创建/var/lock/subsys/SCRIPT_NAME, 并显示“启动成功” 考虑:如果事先已经启动过一…

    Linux干货 2016-08-24
  • Linux上获取命令帮助信息及man文档划分

    1.Linux上获取命令帮助信息的多种途径 Linux上获取命令帮助信息有多种途径,但不同的命令类型获取帮助信息也有不同,Linux命令类型主要分为两种: (1)内部命令:指的是集成于Shell解释器程序(如Bash)内部的一些特殊指令,也成为内建(BuiltIN)指令。 内部命令属于Shell的一部分,所以并没有单独对应的系统文件,只要Shell解释器被运…

    Linux干货 2016-10-30