马哥教育21期网络班—第15周课程+练习—-awk 总结

GNU awk：

文本处理三工具：grep, sed, awkgrep, egrep, fgrep：文本过滤工具；pattern
sed: 行编辑器
模式空间、保持空间
awk：报告生成器，格式化文本输出；
AWK: Aho, Weinberger, Kernighan --> New AWK, NAWK
GNU awk, gawk：文本格式化输出

gawk – pattern scanning and processing

awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。
它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。
它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性是awk最大的优势。
awk---->一次读取一行文本，$1~$#-->切片，$0：代表一行，读一行进行切片

基本用法：

gawk [options] 'program' FILE ...
program: PATTERN{ACTION STATEMENTS}模式{动作语句}
多个语句，语句之间用分号分隔
print, printf

选项：

-F：指明输入时用到的字段分隔符；
-v var=value: 自定义变量；
打印/etc/fstab的后行，第2和第4个字段
tail -n 5 /etc/fstab | awk '{print $2,$4}'

1、print

print item1, item2, ...
要点：
(1) 逗号分隔符；
(2) 输出的各item可以字符串，也可以是数值；当前记录的字段、变量或awk的表达式；
(3) 如省略item，相当于print $0; 
打印出以root开头的行
 awk -F : '/^root\>/{print $1}' /etc/passwd 
 在每个字段前加个hello
tail -n 5 /etc/fstab | awk '{print "hello",$2,$4}'

2、变量

2.1 内建变量
FS：input field seperator，默认为空白字符；
awk -v FS=':' '{print $1}' /etc/passwd指定分隔符
OFS：output field seperator，输出默认为空白字符；
awk -v FS=':' -v OFS=':' '{print $1,$3,$7}' /etc/passwd
RS：input record seperator，输入时的换行符；
awk -v RS=' ' '{print $1,$3,$7}' /etc/passwd 
ORS：output record seperator，输出时的换行符；
awk  -v RS=' ' -v ORS='#' '{print $1,$3,$7}' /etc/passwd 
NF：number of field，字段数量
{print NF}, {print $NF}--->显示最后一个字段
awk  '{print NF}' /etc/passwd
NR：number of record, 行数；
awk  '{print NR}' /etc/passwd
FNR：各文件分别计数；行数；
FILENAME：当前文件名；
ARGC：命令行参数的个数；
awk  'BEGIN{print ARGC}' /etc/passwd /etc/issue：只显示一次
ARGV：数组，保存的是命令行所给定的各参数；
awk  'BEGIN{print ARGV[0]}' /etc/passwd /etc/issue：只显示一次

2.2 自定义变量

(1) -v var=value
变量名区分字符大小写；
awk -v test='abc' 'BEGIN{print test}'
(2) 在program中直接定义
awk 'BEGIN{test="saaa"; print test}'

3、printf命令

格式化输出：printf FORMAT, item1, item2, ... 
(1) FORMAT必须给出; 
(2) 不会自动换行，需要显式给出换行控制符，\n
(3) FORMAT中需要分别为后面的每个item指定一个格式化符号；
格式符：
%c: 显示字符的ASCII码；
%d, %i: 显示十进制整数；
%e, %E: 科学计数法数值显示；
%f：显示为浮点数；
%g, %G：以科学计数法或浮点形式显示数值；
%s：显示字符串；
%u：无符号整数；
%%: 显示%自身；
awk -F: '{printf "username: %s\n",$1}' /etc/passwd
修饰符：
#[.#]：第一个数字控制显示的宽度；第二个#表示小数点后的精度；
%3.1f
-: 左对齐
+：显示数值的符号
awk -F: '{printf "username: %-15s\n",$1}' /etc/passwd

4、操作符

算术操作符：
x+y, x-y, x*y, x/y, x^y, x%y
-x：赋值
+x: 转换为数值；
字符串操作符：没有符号的操作符，字符串连接
赋值操作符：
=, +=, -=, *=, /=, %=, ^=
++, --
比较操作符：
>, >=, <, <=, !=, ==
模式匹配符：
~：是否匹配
!~：是否不匹配
逻辑操作符：
&&
||
!

			函数调用：
				function_name(argu1, argu2, ...)

			条件表达式：
				selector?if-true-expression:if-false-expression
                为真执行前面，为假后面的
				# awk -F: '{$3>=1000?usertype="Common User":usertype="Sysadmin or SysUser";printf "%15s:%-s\n",$1,usertype}' /etc/passwd

5、PATTERN

((1) empty：空模式，匹配每一行；
(2) /regular expression/：仅处理能够被此处的模式匹配到的行；
awk '/^UUID/{print $1}' /etc/fstab
(3) relational expression: 关系表达式；结果有“真”有“假”；结果为“真”才会被处理；
真：结果为非0值，非空字符串；
awk -F: '$3>=1000{print $1,$3}' /etc/passwd
awk -F: '$NF~/bash$/{print $1,$NF}' /etc/passwd
(4) line ranges：行范围，
startline,endline：/pat1/,/pat2/
awk -F: '/^root/,/^liudehan/{print $1}' /etc/passwd
注意： 不支持直接给出数字的格式
~]# awk -F: '(NR>=2&&NR<=10){print $1}' /etc/passwd
(5) BEGIN/END模式
BEGIN{}: 仅在开始处理文件中的文本之前执行一次；
awk -F: 'BEGIN{print " username    uid    \n-----------------"}'
END{}：仅在文本处理完成之后执行一次；
awk -F: 'BEGIN{print " username    uid    \n-----------------"}''{print $1,$3}''END{print" =================\n   end       "}' /etc/passwd

6、常用的action

(1) Expressions：表达式
2) Control statements：if, while等；控制语句
(3) Compound statements：组合语句；
(4) input statements：输入语句
(5) output statements：输出语句

7、控制语句

if(condition) {statments} 
if(condition) {statments} else {statements}
while(conditon) {statments}
do {statements} while(condition)
for(expr1;expr2;expr3) {statements}
break
continue
delete array[index]：数组删除一个元素 
delete array
exit 
{ statements }

7.1 if-else

语法：if(condition) statement [else statement]
~]# awk -F: '{if($3>=1000) {printf "Common user: %s\n",$1} else {printf "root or Sysuser: %s\n",$1}}' /etc/passwd
]# awk -F: '{if($NF=="/bin/bash") print $1}' /etc/passwd
~]# awk '{if(NF>5) print $0}' /etc/fstab
~]# df -h | awk -F[%] '/^\/dev/{print $1}' | awk '{if($NF>=20) print $1}'
使用场景：对awk取得的整行或某个字段做条件判断；

7.2 while循环

语法：while(condition) statement
条件“真”，进入循环；条件“假”，退出循环；
使用场景：对一行内的多个字段逐一类似处理时使用；对数组中的各元素逐一处理时使用；
~]# awk '/^[[:space:]]*linux16/{i=1;while(i<=NF) {print $i,length($i); i++}}' /etc/grub2.cfg
~]# awk '/^[[:space:]]*linux16/{i=1;while(i<=NF) {if(length($i)>=7) {print $i,length($i)}; i++}}' /etc/grub2.cfg

7.3 do-while循环

语法：do statement while(condition)
意义：至少执行一次循环体

7.4 for循环

语法：for(expr1;expr2;expr3) statement
for(variable assignment;condition;iteration process) {for-body}
~]# awk '/^[[:space:]]*linux16/{for(i=1;i<=NF;i++) {print $i,length($i)}}' /etc/grub2.cfg
特殊用法：
能够遍历数组中的元素；
语法：for(var in array) {for-body}

7.5 switch语句

语法：switch(expression) {case VALUE1 or /REGEXP/: statement; case VALUE2 or /REGEXP2/: statement; ...; default: statement}

7.6 break和continue

break [n]
continue

7.7 next

提前结束对本行的处理而直接进入下一行；

~]# awk -F: '{if($3%2!=0) next; print $1,$3}' /etc/passwd

8、array

关联数组：array[index-expression]
index-expression:
(1) 可使用任意字符串；字符串要使用双引号；
(2) 如果某数组元素事先不存在，在引用时，awk会自动创建此元素，并将其值初始化为“空串”；
若要判断数组中是否存在某元素，要使用"index in array"格式进行；
weekdays[mon]="Monday"
若要遍历数组中的每个元素，要使用for循环；
for(var in array) {for-body}
~]# awk 'BEGIN{weekdays["mon"]="Monday";weekdays["tue"]="Tuesday";for(i in weekdays) {print weekdays[i]}}'
注意：var会遍历array的每个索引；
state["LISTEN"]++	
state["ESTABLISHED"]++
~]# netstat -tan | awk '/^tcp\>/{state[$NF]++}END{for(i in state) { print i,state[i]}}'
~]# awk '{ip[$1]++}END{for(i in ip) {print i,ip[i]}}' /var/log/httpd/access_log
练习1：统计/etc/fstab文件中每个文件系统类型出现的次数；
~]# awk '/^UUID/{fs[$3]++}END{for(i in fs) {print i,fs[i]}}' /etc/fstab
练习2：统计指定文件中每个单词出现的次数；
~]# awk '{for(i=1;i<=NF;i++){count[$i]++}}END{for(i in count) {print i,count[i]}}' /etc/fstab

9、函数

9.1 内置函数
数值处理：
rand()：返回0和1之间一个随机数；
字符串处理：
length([s])：返回指定字符串的长度
sub(r,s,[t])：以r表示的模式来查找t所表示的字符中的匹配的内容，并将其第一次出现替换为s所表示的内容；
gsub(r,s,[t])：以r表示的模式来查找t所表示的字符中的匹配的内容，并将其所有出现均替换为s所表示的内容；
split(s,a[,r])：以r为分隔符切割字符s，并将切割后的结果保存至a所表示的数组中；
~]# netstat -tan | awk '/^tcp\>/{split($5,ip,":");count[ip[1]]++}END{for (i in count) {print i,count[i]}}'

原创文章，作者：N21_ Dominic，如若转载，请注明出处：http://www.178linux.com/57191

马哥教育21期网络班—第15周课程+练习—-awk 总结

相关推荐

对ssh的简单理解

lnmp部署实验

交换分区管理

grep、正则表达式

文本查看及处理工具

一些不起眼但非常有用的 Vim 命令