文本处理(1)

文本处理工具最全整理上半部

一.抽取文件的工具
1.文件内容查看
cat 按顺序输出文本到屏幕
-A 显示所有的控制符
-n 显示行号
-b 非空行编号
-s 压缩连续的空行成一行
tac : 行倒序查看(最后一行变为第一行显示)
rev : 列倒序查看(一行内最后一个字符变为第一个字符显示)
more 分页显示文件 Enter键翻页
less 分页显示 /文本 搜索文本 n/N 跳到下一个或上一个匹配
2.文件截取
head/tail 显示文本前或后行内容
-c # 获取前或后#字节
-n # 获取前或后#行
tail -f 跟踪显示文件新追加内容,常用于日志监控
3.按列抽取
cut -d :指明分割符,默认Tab
-f :# 第#个字段
#,# 离散的多个字段,例如1,3,6
#-# 连续的多个字段,例如1-6
混合使用1-3,7
-c 按字符切割
–output-delimiter=STRING指定输出分隔符
paste 合并两个同行号的行到一行
-d 指定分隔符,默认tab
4.按关键字抽取
grep
二、分析文本的工具
1.文本数据统计 wc
wc -l 只计数行数
-w 只计数单词总数
-c 只计数字节总数
-m 字符总数
-L 最长行的长度
2.整理文本 sort
sort -r 执行反方向(由上至下)整理
-n 执行按数字大小整理
-t c 用c作为字段界定符
-k x 与-t一起使用,按照使用c字符分隔的x行整理
-R 随机排序
uniq 从输出中删除前后相接的重复的行,常用于与sort配合使用
-c 显示每行重复出现的次数
-d 仅显示重复过的行
-u 仅显示不曾重复的行 注:连续且完全相同方为重复
常和sort 命令一起配合使用:
sort userlist.txt | uniq -c
3.比较文件 diff patch
Example:1.通过ifconfig取网卡eth0的ip地址
ifconfig eth0 | grep ‘inet addr’ |cut -d: -f2 |cut -d’ ‘ -f1
2.取分区利用率
df|tr -s ‘ ‘ ‘%’ |cut -d “%” -f5
3.分析access_log,分析出登陆ip和次数,并按访问次数从多到少排序
cut -d’ ‘ -f1 access_log | sort | uniq -c | sort -nr
4.按uid排列用户
sort -t: -k3 -nr /etc/passwd
三、Linux文本处理三剑客
1. grep 文本过滤工具
–color=auto 对匹配到的文本着色显示
-v 显示不被匹配到的行
-i 忽略大小写
-n 显示匹配的行号
-c 统计匹配的行数
-o 仅显示匹配到的字符串
-q 不输出任何信息,配合$?使用
-A # 后#行
-B # 前#行
-C # 前后各#行
-e 同时匹配多个选项。
-w 匹配整个单词
-E 使用ERE(扩展正则)
-F 相当于fgrep,不支持正则
2.正则表达式
元字符分类
1)字符匹配:
. 匹配任意单个字符
[] 匹配指定范围内的任意单个字符
[^] 匹配指定范围外的任意单个字符
[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母 [:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 水平和垂直的空白字符(比[:blank:]包含的范围广)
[:cntrl:] 不可打印的控制字符(退格、删除、警铃…)
[:digit:] 十进制数字 [:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
2) 匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
* 匹配前面的字符任意次,包括0次
贪婪模式:尽可能长的匹配
.* 任意长度的任意字符
\? 匹配其前面的字符0或1次
\+ 匹配其前面的字符至少1次
\{n\} 匹配前面的字符n次
\{m,n\} 匹配前面的字符至少m次,至多n次
\{,n\} 匹配前面的字符至多n次
\{n,\} 匹配前面的字符至少n次
3)位置锚定:定位出现的位置
^ 行首锚定,用于模式的最左侧
$ 行尾锚定,用于模式的最右侧
^PATTERN$ 用于模式匹配整行
^$ 空行
^[[:space:]]*$ 空白行
\< 或 \b 词首锚定,用于单词模式的左侧
\> 或 \b 词尾锚定;用于单词模式的右侧
\<PATTERN\> 匹配整个单词
4)分组:\(\) 将一个或多个字符捆绑在一起,当作一个整体进行处理,如:
\(root\)\+
分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这
些变量的命名方式为: \1, \2, \3, …
\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符
示例: \(string1\+\(string2\)*\)
\1 :string1\+\(string2\)*
\2 :string2
后向引用:引用前面的分组括号中的模式所匹配字符,而非模式本身
或者:\|
示例:a\|b: a或b C\|cat: C或cat \(C\|c\)at:Cat或cat
3.扩展的正则表达式:
egrep = grep -E
1)字符匹配:
. 任意单个字符
[] 指定范围的字符
[^] 不在指定范围的字符
2)次数匹配:
*:匹配前面字符任意次
?: 0或1次
+:1次或多次
{m}:匹配m次
{m,n}:至少m,至多n次
3)位置锚定:
^ :行首
$ :行尾
\<, \b :语首
\>, \b :语尾
4)分组:
()
后向引用:\1, \2, …
或者:
a|b: a或b
C|cat: C或cat
(C|c)at:Cat或cat
四、vim简介
命令模式光标跳转
行首行尾跳转:
^: 跳转至行首的第一个非空白字符
0: 跳转至行首
$: 跳转至行尾
行间移动:
#G、扩展模式:# :跳转至由#指定行
G:最后一行
1G, gg: 第一行
句间移动:
):下一句 (:上一句
段落间移动:
}:下一段 {:上一段
删除/剪切命令:
d: 删除命令,可结合光标跳转字符,实现范围删除
d$: 删除到行尾
d^:删除到非空行首
d0:删除到行首
dw:删除单词
dd: 删除光标所在的行
#dd:多行删除
D:从当前光标位置一直删除到行尾,留空行,等同于d
u:撤销最近的更改
使用多个“窗口”
多文件分割
vim -o|-O FILE1 FILE2 …
-o: 水平分割
-O: 垂直分割
在窗口间切换:Ctrl+w, Arrow
单文件窗口分割:
Ctrl+w,s: split, 水平分割
Ctrl+w,v: vertical, 垂直分割
ctrl+w,q:取消相邻窗口
ctrl+w,o:取消全部窗口
:wqall 退出

本文来自投稿,不代表Linux运维部落立场,如若转载,请注明出处:http://www.178linux.com/92464

(0)
上一篇 2018-03-15 16:33
下一篇 2018-03-15 17:48

相关推荐

  • 网络基础

    什么是计算机网络? 是指将地理位置不同的具有独立功能的多台计算机及外部设备,借助于某种网络介质连接起来,实现资源共享和信息传递的计算机系统 计算机网络的特点? 1、能实现数据信息的快速传输和集中处理 2、可共享计算机系统资源 3、提高了计算机的可靠性及可用性 4、能均衡负载互相协作 常见的网络应用程序 Web 浏览器(Chrome、IE、Firef…

    Linux干货 2016-09-09
  • 初识shell脚本编程

    shell的编程三种分类方式介绍,如何使用nano命令编写一个脚本命令,及脚本命令运行的2种方式。bash的配置文件及系统启动时加载配置文件的顺序流程

    2017-12-14
  • 计划任务&脚本进阶练习

    1、每天的2点和12点整,将/etc备份至/testdir/backup目录中,保存的文件名称格式为“etcbak-yyyy-mm-dd-HH.tar.xz” mkdir /testdir/backup vim /root/bin/etcbak.sh tar cvf /testdir/backup/etcbak-`date “+%F-%H”`.tar.xz …

    Linux干货 2017-03-26
  • ps查看进程

    ps命令 ps [OPTION]支持三种选项UNIX选项 如-A -eBSD选项 如aGNU选项 如–help选项:默认显示当前终端中的进程a 选项包括所有终端中的进程x 选项包括不连接终端的进程u 选项显示进程所有者的信息f 选项显示进程树,相当于 –forestk|–sort 属性 对属性排序,属性前加- 表示倒序o …

    2017-12-19
  • 基于mysql虚拟用户认证​

    虚拟用户:                             用户账号存储于何处? …

    Linux干货 2016-10-17
  • LVM(重要)

    LVM   LVM(Logical Volume Manger),是一种磁盘分区管理机制,可以灵活的调整分区的大小。它是将多个硬盘组成卷组的形式实现的。说白了就是通过软件来实现对分区灵活管理。   LVM是将多块硬盘组成PV,再由PV组成VG,VG再组成lv,然后在lv上创建文件系统。   物理存储介:指的就是硬盘等,最基本的存储单元。   PV(physi…

    Linux干货 2016-08-30