【php精品源码栏目提醒】:网学会员,鉴于大家对php精品源码十分关注,论文会员在此为大家搜集整理了“正则表达式awk - 软件工程”一文,供大家参考学习!
正则表达式 awk1. awk 简介awk 是一种编程语言, 用于在 linux/unix 下对文本和数据进行处理。
数据可以来自标准输入、一个或多个文件,或其它命令的输出。
它支持用户自定义函数和动态正则表达式等先进功能,是 linux/unix 下的一个强大编程工具。
它在命令行中使用,但更多是作为脚本来使用。
awk 的处理文本和数据的方式是这样的,它逐行扫描文件,从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行你想要的操作。
如果没有指定处理动作,则把匹配的行显示到标准输出屏幕,如果没有指定模式,则所有被操作所指定的行都被处理。
awk 分别代表其作者姓氏的第一个字母。
因为它的作者是三个人,分别是 Alfred Aho、BrianKernighan、Peter Weinberger。
gawk 是 awk 的 GNU 版本,它提供了 Bell实验室和 GNU 的一些扩展。
下面介绍的 awk 是以 GUN 的 gawk 为例的,在linux 系统中已把 awk 链接到 gawk,所以下面全部以 awk 进行介绍。
2. awk 命令格式和选项2.1. awk 的语法有两种形式 awk options script varvalue files awk options -f scriptfile varvalue files2.2. 命令选项-F fs or --field-separator fs 指定输入文件折分隔符,fs 是一个字符串或者是一个正则表达式,如 -F:。
-v varvalue or --asign varvalue 赋值一个用户定义变量。
-f scripfile or --file scriptfile 从脚本文件中读取 awk 命令。
-mf nnn and -mr nnn -mf 对 nnn 值设置内在限制, 选项限制分配给 nnn 的最大块数目; -mr 选项限制记录的最大数目。
这两个功能是 Bell 实验室版 awk 的扩展功 能,在标准 awk 中不适用。
-W compact or --compat -W traditional or --traditional 在兼容模式下运行 awk。
所以 gawk 的行为和标准的 awk 完全一样, 所有的 awk 扩展都被忽略。
-W copyleft or --copyleft -W copyright or --copyright 打印简短的版权信息。
-W help or --help -W usage or --usage 打印全部 awk 选项和每个选项的简短说明。
-W lint or --lint 打印不能向传统 unix 平台移植的结构的警告。
-W lint-old or --lint-old 打印关于不能向传统 unix 平台移植的结构的警告。
-W posix 打开兼容模式。
但有以下限制,不识别:x、函数关键字、func、换 码序列以及当 fs 是一个空格时,将新行作为一个域分隔符;操作符 和不能代替和;fflush 无效。
-W re-interval or --re-inerval 允许间隔正则表达式的使用,参考grep 中的 Posix 字符类,如括号 表达式:alpha:。
-W source program-text or --source program-text 使用 program-text 作为源代码,可与-f 命令混用。
-W version or --version 打印 bug 报告信息的版本。
3. 模式和操作awk 脚本是由模式和操作组成的: pattern action 如 awk /root/ test,或 awk 3 lt 100 test。
两者是可选的,如果没有模式,则 action 应用到全部记录,如果没有 action,则输出匹配全部记录。
默认情况下,每一个输入行都是一条记录,但用户可通过RS 变量指定不同的分隔符进行分隔。
3.1. 模式模式可以是以下任意一个: /正则表达式/:使用通配符的扩展集。
关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字 符串或数字的比较,如2gt1 选择第二个字段比第一个字段长的行。
模式匹配表达式:用运算符匹配和不匹配。
模式,模式:指定一个行的范围。
该语法不能包括 BEGIN 和 END 模式。
BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常 可在这里设置全局变量。
END:让用户在最后一条输入记录被读取之后发生的动作。
3.2. 操作操作由一人或多个命令、函数、表达式组成,之间由换行符或分号隔开,并位于大括号内。
主要有四部份: 变量或数组赋值 输出命令 内置函数 控制流命令4. awk 的环境变量Table 1. awk 的环境变量 变量 描述n 当前记录的第 n 个字段,字段间由 FS 分隔。
0 完整的输入记录。
ARGC 命令行参数的数目。
ARGIND 命令行中当