最近在学习TCP/IP,从网上下载了《TCP/IP详解》的电子书。电子书是分章节的若干个PDF文件,每章一个文件,文件名是如下面的文件1所示。

文件1:name.txt

01.pdf
02.pdf
03.pdf
04.pdf
05.pdf
……
……
……

从这些文件名中看不出每个文件的内容是什么。还好下载文件里里面有个目录文件,含有本书的详细目录,如下所示:
……
……
第3章 IP:网际协议
3.1 引言
3.2 IP首部
3.3 IP路由选择
第4章 ARP:地址解析协议
4.1 引言
4.2 一个例子
4.3 ARP高速缓存
……
……

我想通过这个目录文件把文件名转换成如下所示的结构:

想转换成的文件2:result.txt
01概述.pdf
02链路层.pdf
03IP网际协议.pdf
04ARP地址解析协议.pdf
05RARP逆地址解析协议.pdf

为了达成这个目的,第一步是把目录文件精简成如下所示的chapter.txt
可以利用命令grep -oP ‘(?<=(章)) .*' 目录.txt > chapter.txt

-o是指只显示匹配的部分。
-P是利用PERL的正则表达式形式。
(?<=)是后向匹配符号。 生成的文件如下所示: 文件3:chapter.txt 概述 链路层 IP网际协议 ARP地址解析协议 RARP逆地址解析协议 …… …… 再用awk命令处理这两个文件,以形成最后的结果(最重要的一个步骤): 命令如下: awk 'BEGIN{OFS=FS="."} NR==FNR{a[NR]=$0}NR>FNR{$1=$1 a[FNR];print}' chapter.txt name.txt > result.txt

首先设定域分隔符OFS=FS="."
NR:当前记录数。
FNR:同NR,但相对于当前文件。
首先单独扫描第一个文件chapter.txt,利用条件NR==FNR,是if条件语句的简写形式。也可写成{if(NR==$0) a[NR]=$0}.
之后单独扫描第二个文件name.txt,利用条件NR>FNR。
字符串连接直接用空格即可,即$1=$1 a[FNR]。如果用加号的话,系统会把字符串转换成数值后再进行数值的加减。
生成的文件是unix格式,要想在windows下正常显示,可以使用命令unix2dos result.txt.

最后利用TotalCommander软件的文件批量重命名中的“从文本文件中导入文件名”功能,将result.txt文件加载成电子书目录下的文件名,至此,大功告成。

0 Comments:

Post a Comment



较新的博文 较早的博文 主页