Linux 字符串处理命令有哪些常用技巧？-菜鸟科技网

Linux 系统提供了丰富的字符串处理命令，这些命令能够高效地完成文本的查找、替换、截取、统计等操作，是日常运维、脚本开发和数据处理中不可或缺的工具，以下将详细介绍几个常用的字符串处理命令及其使用方法。

（图片来源网络，侵删）

grep 是最常用的文本搜索命令，它能够根据指定的模式（正则表达式）在文件中匹配包含该模式的行，并将匹配结果输出。grep "error" log.txt 会在 log.txt 文件中搜索包含 "error" 的行并显示。grep 支持多种选项，如 -i 忽略大小写，-v 反向选择（即输出不匹配的行），-c 只输出匹配行的数量，-n 显示匹配行的行号，通过结合正则表达式，grep 可以实现复杂的模式匹配，如 grep "^[0-9]" file.txt 会匹配以数字开头的行。

sed（Stream Editor）是一个流编辑器，主要用于对文本进行过滤和转换处理，它能够逐行读取输入文件，并根据指定的命令对行进行编辑，然后将结果输出到标准输出。sed 的常用功能包括替换、删除、插入、追加等。sed 's/old/new/g' file.txt 会将 file.txt 中所有的 "old" 替换为 "new"，s 表示替换命令，g 表示全局替换。sed 还可以通过 -i 选项直接修改原文件，如 sed -i 's/old/new/g' file.txt。sed 可以使用地址来限制命令作用的范围，如 sed '2,5s/old/new/g' file.txt 只会替换第 2 到第 5 行中的内容。

awk 是一种强大的文本分析工具，它逐行扫描文件，从输入文本中提取数据并进行处理，最后生成格式化的报告。awk 的基本语法为 awk 'pattern {action}' file，pattern 是匹配模式，action 是执行的操作。awk '{print $1, $3}' file.txt 会输出 file.txt 中每行的第 1 和第 3 列字段，默认情况下字段以空格或制表符分隔。awk 还支持内置变量，如 NR 表示当前行号，NF 表示当前行的字段数，$0 表示整行内容。awk 'NR>=2 && NR<=5 {print $0}' file.txt 会输出第 2 到第 5 行的全部内容。awk 还可以进行数值计算和字符串操作，功能非常强大。

cut 命令用于从文件中提取指定的列或字段，它通常以制表符或空格为分隔符，提取指定的列并输出。cut -d ':' -f 1,3 /etc/passwd 会以冒号为分隔符，提取 /etc/passwd 文件中的第 1 和第 3 列（用户名和用户ID）。cut 的 -d 选项用于指定分隔符，-f 选项用于指定要提取的字段编号。-c 选项可以用于提取指定的字符，如 cut -c 1-5 file.txt 会提取每行的前 5 个字符。

（图片来源网络，侵删）

sort 命令用于对文本文件的行进行排序，默认情况下，sort 会按照字典序对行进行升序排序。sort file.txt 会对 file.txt 的内容进行排序。sort 支持多种选项，如 -r 表示降序排序，-n 表示按照数值大小排序，-k 指定排序的依据字段，如 sort -t ':' -k 3 -n /etc/passwd 会以冒号为分隔符，按照第 3 列（用户ID）的数值大小对 /etc/passwd 进行排序。-u 选项可以去除重复的行。

uniq 命令用于去除文件中相邻的重复行，在使用 uniq 之前，通常需要先使用 sort 对文件进行排序，因为 uniq 只处理相邻的行。sort file.txt | uniq 会先对 file.txt 排序，然后去除重复的行。uniq 的 -d 选项只输出重复的行，-u 选项只输出不重复的行，-c 选项会在每行前显示该行重复的次数。

tr 命令用于转换或删除字符，它可以从标准输入中读取字符，将某些字符替换为其他字符或删除指定字符。echo 'hello world' | tr 'a-z' 'A-Z' 会将小写字母转换为大写字母，输出 "HELLO WORLD"。tr 的 -d 选项可以删除指定的字符，如 echo 'hello 123' | tr -d '0-9' 会删除所有数字，输出 "hello "。

wc 命令用于统计文件的行数、字数和字节数。wc file.txt 会输出 file.txt 的行数、字数和字节数。wc 的 -l 选项只统计行数，-w 选项只统计字数，-c 选项只统计字节数。

（图片来源网络，侵删）

以下是部分字符串处理命令的总结表格：

命令	主要功能	常用选项	示例
grep	文本搜索	-i, -v, -c, -n	grep "error" log.txt
sed	流编辑，替换/删除/插入	s, -i, 2,5	sed 's/old/new/g' file.txt
awk	文本分析，提取字段	{print}, NR, NF, -F	awk '{print $1}' file.txt
cut	提取列或字符	-d, -f, -c	cut -d ':' -f 1 /etc/passwd
sort	排序行	-r, -n, -k	sort -n numbers.txt
uniq	去除重复行	-d, -u, -c	sort file.txt
tr	字符转换/删除	'a-z', 'A-Z', -d	echo 'abc'
wc	统计行数/字数/字节数	-l, -w, -c	wc -l file.txt

这些命令各有所长,在实际应用中，通常会将它们通过管道（）组合使用，以实现更复杂的文本处理任务，要统计一个日志文件中错误信息的数量，可以使用 grep "error" log.txt | wc -l；要提取一个 CSV 文件的第二列并去重，可以使用 cut -d ',' -f 2 data.csv | sort | uniq，熟练掌握这些字符串处理命令，能够极大地提高在 Linux 环境下处理文本数据的效率。

相关问答 FAQs

问题 1：如何使用 sed 命令在文件的特定行（例如第 3 行）插入一行文本 "This is a new line"？
解答：可以使用 sed 命令的 i 选项（插入）和行号来实现，具体命令为 sed '3i This is a new line' file.txt，这条命令会在 file.txt 的第 3 行之前插入 "This is a new line"，如果需要在第 3 行之后插入，可以使用 a 选项（追加），命令为 sed '3a This is a new line' file.txt，需要注意的是，这些默认情况下会将结果输出到标准输出，如果需要直接修改原文件，可以添加 -i 选项，如 sed -i '3i This is a new line' file.txt。

问题 2：awk 命令中如何使用条件判断来筛选满足特定条件的行并输出指定的字段？
解答：awk 命令支持使用 if 语句进行条件判断，假设有一个文件 data.txt，其内容为 "name,age,city"，要求筛选出 age 大于 30 的行，并输出 name 和 city 字段，可以使用以下命令：awk -F ',' '{if ($2 > 30) print $1, $3}' data.txt。-F ',' 指定分隔符为逗号，$2 表示 age 字段，$3 表示 city 字段。if ($2 > 30) 是条件判断，只有当 age 大于 30 时，才会执行 print $1, $3 输出 name 和 city，如果条件较复杂，还可以结合逻辑运算符（如 && 与、或）使用，awk -F ',' '{if ($2 > 30 && $3 == "Beijing") print $1}' data.txt 会筛选出 age 大于 30 且 city 为 "Beijing" 的行的 name 字段。