如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

你是否曾经有过要计算一个非常大的数据(几百GB)的需求？或在里面搜索，或其它操作——一些无法并行的操作。数据专家们，我是在对你们说。你可能有一个4核或更多核的CPU，但我们合适的工具，例如 grep, bzip2, wc, awk, sed等等，都是单线程的，只能使用一个CPU内核。

借用卡通人物Cartman的话，“如何我能使用这些内核”?

要想让Linux命令使用所有的CPU内核，我们需要用到GNU Parallel命令，它让我们所有的CPU内核在单机内做神奇的map-reduce操作，当然，这还要借助很少用到的–pipes 参数(也叫做–spreadstdin)。这样，你的负载就会平均分配到各CPU上，真的。

BZIP2

bzip2是比gzip更好的压缩工具，但它很慢！别折腾了，我们有办法解决这问题。

以前的做法：

cat bigfile.bin | bzip2 --best > compressedfile.bz2

现在这样：

cat bigfile.bin | parallel --pipe --recend '' -k bzip2 --best > compressedfile.bz2

尤其是针对bzip2，GNU parallel在多核CPU上是超级的快。你一不留神，它就执行完成了。

GREP

如果你有一个非常大的文本文件，以前你可能会这样：

grep pattern bigfile.txt

现在你可以这样：

cat bigfile.txt | parallel  --pipe grep 'pattern'

或者这样：

cat bigfile.txt | parallel --block 10M --pipe grep 'pattern'

这第二种用法使用了 –block 10M参数，这是说每个内核处理1千万行——你可以用这个参数来调整每个CUP内核处理多少行数据。

AWK

下面是一个用awk命令计算一个非常大的数据文件的例子。

常规用法：

cat rands20M.txt | awk '{s+=$1} END {print s}'

现在这样：

cat rands20M.txt | parallel --pipe awk \'{s+=\$1} END {print s}\' | awk '{s+=$1} END {print s}'

这个有点复杂：parallel命令中的–pipe参数将cat输出分成多个块分派给awk调用，形成了很多子计算操作。这些子计算经过第二个管道进入了同一个awk命令，从而输出最终结果。第一个awk有三个反斜杠，这是GNU parallel调用awk的需要。

WC

想要最快的速度计算一个文件的行数吗？

传统做法：

wc -l bigfile.txt

现在你应该这样：

cat bigfile.txt | parallel  --pipe wc -l | awk '{s+=$1} END {print s}'

非常的巧妙，先使用parallel命令‘mapping’出大量的wc -l调用，形成子计算，最后通过管道发送给awk进行汇总。

SED

想在一个巨大的文件里使用sed命令做大量的替换操作吗？

常规做法：

sed s^old^new^g bigfile.txt

现在你可以：

cat bigfile.txt | parallel --pipe sed s^old^new^g

…然后你可以使用管道把输出存储到指定的文件里。

[英文原文：Use multiple CPU Cores with your Linux commands ]

多核多核CPU 多核处理器并行| 2013年10月30日

你也许会喜欢这些文章：

外刊IT评论

You had mail. Paul read it, so ask him what it said.

26 Responses to 如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

Yifang Tan 对这篇文章的反应是赞一个
2014年10月2日 at 2:09 上午
SeekBar 这篇文章, 并对这篇文章的反应是赞一个，强
2014年11月14日 at 2:03 下午
yinandyi 对这篇文章的反应是赞一个
2014年12月4日 at 11:39 上午
Sean 对这篇文章的反应是赞一个
2015年03月2日 at 2:09 下午
oliver 对这篇文章的反应是强
2015年03月3日 at 2:36 下午
deepkolos 对这篇文章的反应是赞一个
2016年09月19日 at 8:06 下午
haitao says:

2013年10月30日 at 8:52 上午

parallel –block 10M===每个内核处理1千万行还是字节？
cat xxx还是单个过程吧？能让cat xxx也分别通过n个进程cat不同的位置的内容吗？

回复
- Oicebot says:
  
  2013年10月30日 at 9:33 上午
  
  这文一看就是机器翻译的……
  
  回复
  - Lax says:
    
    2013年10月30日 at 3:05 下午
    
    不要黑我机器翻译了。里面有个CPU写成CUP了，原文没错，机器翻译不会出这问题。
    
    回复
none says:

2013年10月30日 at 9:47 上午

对于后几个例子，真的能更快吗？awk求和、wc统计字数这些本身就不耗CPU吧。瓶颈都在前面cat的IO上了。

回复
yoncan says:

2013年10月30日 at 10:58 上午

[root@localhost data]# cat big2.txt |parallel –pipe wc -l
parallel: invalid option — ‘-‘
parallel [OPTIONS] command — arguments
for each argument, run command with argument, in parallel
parallel [OPTIONS] — commands
run specified commands in parallel

##
为什么执行出错了..

回复
- examyes says:
  
  2013年10月30日 at 12:38 下午
  
  请用parallel –pipe 而不是 parallel -pipe
  
  回复
CipherChen says:

2013年10月30日 at 1:20 下午

为什么删掉我的评论！
我发现wiki上有一片关于mapreduce的文章！

回复
- adamhuan says:
  
  2014年07月22日 at 4:21 下午
  
  mapreduce跟本文有关系？
  
  回复
hupantingxue says:

2013年10月30日 at 5:32 下午

cat xxx文件很慢吧，为何必须先cat xxx呢？

回复
- Shellexy says:
  
  2014年08月4日 at 4:12 下午
  
  用 time 对 333M 的文本测试速度
  
  $ seq 40000000 > seq.txt
  
  $ du -h seq.txt
  333M seq.txt
  
  $ time cat seq.txt > /dev/null
  
  real 0m0.203s
  user 0m0.004s
  sys 0m0.200s
  
  $ time wc -l seq.txt
  40000000 seq.txt
  
  real 0m1.487s
  user 0m1.180s
  sys 0m0.300s
  
  $ time cat seq.txt | parallel –pipe wc -l | awk ‘{s+=$1} END {print s}’
  40000000
  
  real 0m6.779s
  user 0m5.372s
  sys 0m6.964s
  
  回复
  - Shellexy says:
    
    2014年08月4日 at 4:13 下午
    
    我是在内存盘 /dev/shm 里做的测试，所以排除了 SSD 的影响。
    
    回复
优优 says:

2013年10月30日 at 9:56 下午

用命令用的不多。很少。。。好像是机器翻译的

回复
xyjprc says:

2013年10月31日 at 11:17 下午

实测cat bigfile.txt | parallel –pipe wc -l | awk ‘{s+=$1} END {print s}’比wc -l bigfile.txt慢好多倍。。。

回复
- xyjprc says:
  
  2013年11月1日 at 11:30 下午
  
  看了原文的讨论，可能和原博主用SSD有关
  
  回复
  - Shellexy says:
    
    2014年08月4日 at 4:14 下午
    
    我是在内存盘 /dev/shm 里做的测试，所以排除了 SSD 的影响。
    
    回复
Paull says:

2013年11月5日 at 3:36 下午

慢，更慢。。。。慢好几倍。。。

回复
liheng says:

2013年11月7日 at 7:09 下午

我的parallel –pipe awk怎么就不行了

回复
liheng says:

2013年11月7日 at 7:12 下午

我用的是cat RunInfo/vm3/StatementCov|parallel – -pipe awk \'{print \$1}\’|awk ‘{print $1}’显示的却是/bin/bash: -c: 选项需要一个参数。。。怎么回事

回复
- zzjin says:
  
  2013年12月9日 at 12:57 下午
  
  我也提示这个问题。。不知道怎么回事
  
  回复
ferstar says:

2016年07月4日 at 3:50 下午

实测cat bigfile.txt | parallel –pipe wc -l | awk ‘{s+=$1} END {print s}’比wc -l bigfile.txt慢好多倍，在内存盘里测试，所以不存在磁盘IO限制的说法，而且文件越大越慢。

回复

外刊IT评论

如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

BZIP2

GREP

AWK

WC

SED

你也许会喜欢这些文章：

26 Responses to 如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

发表回复取消回复

不懂技术的人不要对懂技术的人说这很容易实现

旅行，写作，编程

如果编程语言是女人

为什么谷歌要执行严格的代码编写规范

每天工作4小时的程序员

站着编程两年后我身体上的变化

如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

哪本书是对程序员最有影响、每个程序员都该阅读的书？

坐得越久死得越快

谷歌是如何做代码审查的

程序员必看的十大电影

程序员的样子

我的老公是个程序员

我跳槽是因为他们的显示器更大

老程序员的下场

外刊IT评论

网站导航

特色栏目

如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

BZIP2

GREP

AWK

WC

SED

你也许会喜欢这些文章：

对于这篇文章，你的反应是：

看样子你已经点过这个了！

抱歉，你最多只能点三个！

26 Responses to 如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

发表回复 取消回复

网站导航

特色栏目

发表回复取消回复