By Hero_hacker
简介
二十种文件格式转换,四种内码转换,文件合并,文件分割(按章节/按指定大小),乱码查找修复,格式整理,文件更名,广告查找删除,HTML 代码删除,Unicode 码替换,自动排版,文本搜索替换,正则表达式搜索替换,块搜索替换,通配符搜索替换.错别字搜索替换,章节标题整理,标点符号检查,屏蔽字检查还原,拼音检查还原等......全面支持 Unicode,Unicode Big Endian,UTF-8 格式文件,功能可扩展,支持批处理。文件体积小,纯绿色软件,不用安装直接运行。
用法
1 首先选择你的 txt/html 文件所在目录,该目录中的文件将显示在列表中
2 单击列表中的一个文件名来打开此文件
3 批处理就是一次性依次处理整个目录中的所有文件。
对于格式整理而言,通常情况下, 你只需使用"格式整理"就够了。
建议多进行一次“格式整理”处理。这样可以把广告清除得更彻底一些。
此外
巧用查找和替换功能,可以达到一些意想不到的效果。例如,当对一个文档进行了"格式整理"后,再进行如下替换:把“rn”全部替换成“rn ”(不含引号)
或者
把“rn”全部替换成“rnrn ”(不含引号)
呵呵,你自己看看处理效果吧!
另外,以上操作的逆操作是:
把“rn ”全部替换成“rn”(不含引号)
把“rnrn ”全部替换成“rn”(不含引号)
关于去除广告
你可以在你的 txt 文件所在的目录中创建一个名为 remove.txt 的文件,在其中写入你想要移除的广告内容,一行一条。
这样,txtFormat 会将 remove.txt 中的内容逐条、全部从你的 txt 文件中删除。
如果你在使用中有什么问题或是有什么需要增加的功能,要求及建议,可以给我发邮件。我的 email 是:
[email protected]
2008.12.08
==============================================================================================
2009.2.27 第19次更新,增加了PDB->TXT 格式转换
2009.2.28第20次更新,增加了对utf-8,unicode,unicode big endian 格式文档的支持
我日,很多吹得牛烘烘的阅读器未必能打开上述几种格式的文件
关于格式整理:
在“格式整理”功能中,程序将进行以下操作:
1 繁体转简体(GBK -> GB),有些比较长的小说,大部分内容是简体,但有些章节的内容确是繁体。为统一起见,对全部内容进行一次“繁转简”。
2 删除行首、尾空格及行与行之间的空格
3 章节标题检查及简单处理(标题与正文内容间保留一个空行)
4 全角字符、数字转半角(便于后面的去除广告处理)
5 删除正文中的空格(包括全角和半角空格)
6 去除广告
7 删除硬回车(相当于重新排版)
8 HTML 代码替换:在有些小说中或多或少混有一些没有处理好的 HTML 代码,该处理就是用于查找并替换这些代码的。
9 重复章节标题的删除。例如小说“庆余年”,开始一些卷的标题就有重复,该功能用于删除重复的章节标题。
10 简繁标点符号统一(如:「 『 转换为 “ 等)
明天偶要去曼谷,所以今天有点空时间,更新一下程序......
2009.3.9
//---------------------------------------------------------------------
说一下正则表达式搜索
在相当一部分小说中,存在着数量不等的广告.这给读小说的人带来了一定烦恼.
因此,我们需要把这些广告文本从小说中删除.
然而有些广告为了防止删除,故意对广告文本进行变形,在广告文字中插入了不规则的字符.
举例来说,某一段广告为
某某手打
但是它确可能存在着以下变形:
某某^$^$%r手打
某某#^#^#$$手打
某某#^@^$手打
这就使得采用简单的搜索替换方法删除广告变为不可能.
然而我们可以用"正则表达式替换"来简单地一次全部替换小说中的以上文本:
以上文本的的正则表达式为:
某某.{0,20}手打
因此,你可以在 txtFormat 中的 "将字符串" 文本框中输入 某某.{0,20}手打
然后复选"使用正则表达式进行" 复选框
然后单击"正则替换"按钮来进行以上广告文本的一次性删除
注意:最新更新的程序中已经内置了一小部分变形广告的正则表达式删除功能(内置在 "格式整理" 功能中)
2009.3.27
***************************************
* txtFormat 部分特殊用法举例
***************************************
1 查找(删除) 文件中用全角括号括起来的内容(包括全角括号)
在 "将字符串" 文本框中输入(.{0,1024})
"替换为" 文本框保持为空
复选 "使用正则表达式进行替换" 复选框
点 "查找*" 按钮,如果找到了小说用全角括号括起来的内容,光标将停留在该内容上。
如果需要删除找到的内容, 点 "替换此处" 按钮
如果不想删除找到的内容, 点 "查找下一个" 按钮
2 查找(删除) 文件中以特定内容开始的行
例如,查找小说中以 (ps: 开始的行:
在 "将字符串" 文本框中输入 rn(ps:
"替换为" 文本框保持为空
复选 "使用正则表达式进行替换" 复选框
点 "查找*" 按钮,如果找到了小说用全角括号括起来的内容,光标将停留在该内容上。
如果需要删除找到的内容, 点 "替换此处" 按钮
如果不想删除找到的内容, 点 "查找下一个" 按钮
3 查找(删除) 文件中以特定内容结束的行
例如,查找小说中以 "章" 字结束的行:
在 "将字符串" 文本框中输入 rn.{0,4096}章rn
"替换为" 文本框保持为空
复选 "使用正则表达式进行替换" 复选框
点 "查找*" 按钮,如果找到了小说用全角括号括起来的内容,光标将停留在该内容上。
如果需要删除找到的内容, 点 "替换此处" 按钮
如果不想删除找到的内容, 点 "查找下一个" 按钮
4 查找(删除) 文件中包含特定内容的行
例如,查找小说中包含 ps 开始的行:
在 "将字符串" 文本框中输入 rn.{0,4096}ps.{0,4096}rn
"替换为" 文本框保持为空
复选 "使用正则表达式进行替换" 复选框
点 "查找*" 按钮,如果找到了小说用全角括号括起来的内容,光标将停留在该内容上。
如果需要删除找到的内容, 点 "替换此处" 按钮
如果不想删除找到的内容, 点 "查找下一个" 按钮
过几天要回国了,快解放了,可能这是在国外的最后一次更新了
2009.5.10
2009.09.01 更新
修正了一些错误,增强了一些功能
2009.09.14 更新
添加 exe 转 htm 功能
2009.09.17 更新
增强了 exe 转 htm 功能
2009.12.30 更新
增强了 exe 转 htm 功能, 增强了文件多选功能
2010.01.01 更新
修正了 html 转 txt 时的一处错误
2010.01.12 更新
修正了一处 jar 转 txt 的错误,稍稍增强了广告删除功能
2010.01.22 更新
此次更新添加了 txt 转 jar 和 txt 转 umd 格式的功能。
还有就是现在程序运行时会在桌面上生成一个“派派首页”的快捷方式。这算是一个小小的广告吧,希望大家能体谅。这不会自动进入派派的页面,你不想访问派派时不理它就是了。如果你想访问派派或是想到派派来给我的程序提出改进的意见、建议那就双击它。再次对大家说声:对不起了!
2010.01.28日更新
添加全选/反选功能。单击 "批处理所有文件" 来选择全部文件或取消选择
2010.03.09日更新
提供三种整理格式方法供选择:
格式1:手机格式,段首无缩进,段间无空行。
格式2:电脑格式,段首缩进两个汉字,段间无空行。
格式3:电脑格式,段首缩进两个汉字,段间有空行。
2010.03.23日更新
1 增强了乱码修复功能
2 增强了广告删除功能
3 增强了查找替换功能
4 修改了一处程序错误
2011.03.03日更新
1 添加了.doc 转换为 .txt 功能
2 添加了 unicode,ansi,utf8 批量相转换功能
3 添加了广告查找功能:从"常用正则表达式"下拉列表中选择"查找广告",然后单击查找按钮......
2011.03.11日更新
1 添加了"查找硬回车" 功能
2 增强了"查找广告"功能
3 修正了一处 bug
2011.4.9日更新
1添加"格式整理选项"设置(右下角那个按钮)
2文件分割:添加了分割的文件保存位置选项
3应网友要求,文件分割后的文件名从XXXX 四位改为XXX三位
4文件合并:添加了合并后的文件保存位置选项
5修正了其它一些错误
6程序界面作了一些小的调整
2011.7.10日更新
修正了一些错误,添加了 epub 转换成 txt 功能
2011.11.18日更新
加快了文件读入和处理速度.修正了其它一些错误
正则表达式在 txtFormat中的应用:
一.规范化章节名
A.
--------------------------------------------
第一部分章一 aaa
……
第一部分章二 bbb
……
第一部分章三 ccc
……
1 复选“使用正则表达式进行替换”
2 "将字符串" 文本框中写入(不含引号):
"章(.{1,6}) "
3 "替换为" 文本框中写入(不含引号):
" 第$1章 "
替换后的结果:
第一部分 第一章 aaa
……
第一部分 第二章 bbb
……
第一部分 第三章 ccc
……
B.
--------------------------------------------
纯真的小白 001、千里杀人不留行
纯真的小白 002、千里杀人不留行
纯真的小白 003、千里杀人不留行
1 复选“使用正则表达式进行替换”
2 "将字符串" 文本框中写入(不含引号):
" ([0-9]d*)、"
3 "替换为" 文本框中写入(不含引号):
" 第$1章 "
替换后的结果:
纯真的小白 第001章 千里杀人不留行
纯真的小白 第002章 千里杀人不留行
纯真的小白 第003章 千里杀人不留行
C.
---------------------------------------------
【一、aaa】
【二、bbb】
【三、ccc】
1 复选“使用正则表达式进行替换”
2 "将字符串" 文本框中写入(不含引号):
"(【)([一二三四五六七八九十].{1,6})、(.*?)(】)"
3 "替换为" 文本框中写入(不含引号):
" 第$2章 $3"
替换后的结果:
第一章 aaa
第二章 bbb
第三章 ccc
D.
---------------------------------------------
(不安全,替换时请注意)
一
二
三
1 复选“使用正则表达式进行替换”
2 "将字符串" 文本框中写入(不含引号):
"rn([一二三四五六七八九十].{1,6})rn"
3 "替换为" 文本框中写入(不含引号):
"rn第$1章 rn"
替换后的结果:
第一章
第二章
第三章
E.
----------------------------------------------
01aaa
02bbb
03ccc
1 复选“使用正则表达式进行替换”
2 "将字符串" 文本框中写入(不含引号):
"rn([0-9]d*)"
3 "替换为" 文本框中写入(不含引号):
"rn第$1章 "
替换后的结果:
第01章 aaa
第02章 bbb
第03章 ccc
F.
----------------------------------------------
[一]
[二]
[三]
1 复选“使用正则表达式进行替换”
2 "将字符串" 文本框中写入(不含引号):
"rn[([一二三四五六七八九十].{1,6})]rn"
3 "替换为" 文本框中写入(不含引号):
"rn第$1章rn"
替换后的结果:
第一章
第二章
第三章
2012.03.26日更新内容:
修复问题
一、假死现象:按下shift+F3(向上查找)出现的错误;
二、删除文件列表时(整个界面会变灰)时出现的错误;
三、针对拖曳到文件列表中的文本,不能按鼠标右键选择删除的错误;
新增功能:
一、定义F4键为删除,等同Delete键;(选择正则表达进行查找/替换下“查找可能的广告内容”,按查找键(第一次必需按查找键,第二次及以下的查找步骤,可按F3键)查找广告内容,按下F4删除选中的内容;
二、若把remove.txt改为replace.txt,可转变为替换功能,按下“自定义替换键”替换,格式为“A→B”,表示A被B替换。其中“→”为分隔符;
三、赋予 “TAB”键新的功能,选中文本按TAB键,可令文本首行空格(按四下空两个中文字符);
四、在菜单栏中查看栏下,增加了阅读模式与整理模式(方便用户阅读);
五、増加“转到”(Ctrl+G)功能,可精确跳转到用户指定的行。
改进功能
一、增强了Remove(广告检查功能),能自动提取文中的广告到remove.txt文本中,按下自定义替换键可以删除remove.txt中的内容(慎用!需要手工鉴别remove.txt文本中的内容)
二、缩短了文本整理时间;
操作txtformat2.01技巧
1、双击“使用正则表达式进行查找/替换”可使查框中的内容消失。
2、勾选“使用正则表达式进行查找/替换”,在常用正则表达式中选择“查找章节名”按查找键,找到用户上次看书的章节,切换到阅读模式,可方便看书。
3、双击状态左下角,可迅速调出“转到”功能。
补充正则表达式三例
1、形如:2011-01-11 或 2011-1-11
用正则表达式:(?:d{4}-)?d{1,2}-d{1,2}
2、正则表达式验证时间小时和分钟
([0-1]d|2[0-3]):([0-5]d):([0-5]d)
3、形如:今天的第二更送到!
用正则表达式:查找框中输入“今天的第.*?更送到!”,替换框内容为空。可将“今天的第一更送到!,今天的第二更送到!……”等内容删除掉。
2012.4.8更新内容:
新增功能:
一、增加了mobi格式转txt格式,(使用方法:点击“文件转换格式”下面的mobi2txt按钮,弹出“请选择要转换的.mobi文件”窗口,选择mobi文件所在的目录,打开需转换的mobi文件即可,转换的文件自动出现在左边文件列表中。)
二、增加了prc格式转txt格式,(使用方法:点击“文件转换格式”下面的pdb2txt按钮,弹出“请选择要转换的pdb/prc文件” 窗口,文件类型第一行是选择“PDB File”,第二行是选择“PRC File”,接着选择PRC文件所在的目录,打开需转换的PRC文件即可,转换的文件自动出现在左边文件列表中。)
2012.4.15更新内容:
新增功能:
增加了meb格式转txt格式,(使用方法:点击“文件转换格式”下面的pdb2txt按钮,弹出“请选择要转换的pdb/prc/meb文件” 窗口,接着选择meb文件所在的目录,打开需转换的meb文件即可,转换的文件自动出现在左边文件列表中。)
2012.4.16更新内容:
修正了 janesun 发现的新版中的如下 bug:
在"选项设置"里,"标点符号处理"选择"转换为半角", 再用"格式整理"按钮,文件里的文字就全都消失了,只剩下每行一个的标点符号?
2012.5.9更新内容:
1 添加了 .ebk2 转 .txt 功能;
用法:点击 "Pdb2txt" 按钮,然后选择一个你想要转换的 .ebk2 文件, txtFormat 将把你选定的 .ebk2 文件转换成 .txt 文件,并显示出来.
2 修正了一些用户提及的和未提及的 bug
3 增强了广告查找和检查功能
在 "常用正则表达式" 下拉列表中的下端,有"一般广告"、"UUTXT 广告"、"云轩阁 广告"、"3G华夏网广告"、"16K广告" 等……
它们的用途是:当你能确定你当前打开的文件是从 "UUTXT、云轩阁、3G华夏网、16k"等网站下载的时候,你在查找广告和查找广告时,可以从 "常用正则表达式" 下拉列表中选择相应的网站对应的项。
如果你不能确定你正在处理的文件是从什么网站下载的,则选择 "一般广告" 或什么也不选择。这样,在查找和搜索广告时会更加准确。
当你打开了一个文件并选择了适当的正则表达式。然后点击工具栏上的"广告检查"按钮时,txtFormat 将会把你打开的文件中的广告内容全部找出来并写入一个名为 "remove.txt" 的文件中。
4 增强了写 remove.txt 文件的方式.
2012.7.8更新内容:
1.有书友要求增加章节检查功能。我想了一下,章节检查应该就是把章节标题、章节大小全部列出,让用户检查有没有重复、缺失的章节。这个功能在“文件分割”功能中已经有了。现在增强了一下,应该可以了。
2查找硬回车功能已经增强,现在在查找硬回车时不会把章节标题也找出来了。
3添加了“查找不规则的标点符号”
4修正了内码转换后不能保存的bug
5对多个正则表达式进行了增强
2012.8.13 更新内容:
1 添加了“章节标题顶格”正则表达式
2 格式整理后可以撤消(一般要撤消两次才能恢复到格式整理前的状态),批处理格式整理(一次格式整理多个文档)的文档不能撤消。
3 其它的一些修正和增强……
2012.9.4 更新
1 添加叠字查找正则表达式
2 添加 .sky 转 .txt 功能
3 其它增强......
2012.9.30 更新
1 增强了“章节整理”功能:
a 添加了重排章节顺序功能
b 添加了章节序数的中文-数字转换功能
2 把“查找 屏蔽字”功能单列出来,并增强了它的功能
3 增强了“查找 引号/括号不匹配”功能
4 其它一些小 bug 的修复......
5......
2012.10.08 更新
增强了"引号不匹配"正则表达式.在搜索不匹配的引号时,最好先替换掉嵌套的双引号.(从常用下则表达式列表中选择"嵌套的双引号",然后点击全部替换,最好多点击两次.直到全部替换完)
2012.10.11 更新
添加了“查找 常见错别字”功能.
2012.10.14 更新
添加了“查找 【的得地】误用”功能
修正了一些 bug
================================================================
关于“不规则的标点符号”,“引号匹配”,“常见错别字”功能的说明
================================================================
“不规则的标点符号”及“引号匹配”功能的依据是:
中华人民共和国国家标准 GB/T 15834-2011《标点符号用法》
“常见错别字”功能的依据是:
中华人民共和国教育部国家语言文字工作委员会发布的:
GF1001—2001《第一批异形词整理表》
《第二批异形词整理表》(草案)
2012.10.18 更新
1 添加了“行中的半个括号”检查
2 增强了“广告”及“的地得”搜索功能,可以在设置对话框中设置搜索等级,搜索等级越高搜索越严格,对于一般的电子书,搜索等级取1就足够了。
3 对于错别字搜索,可以这样操作:
a 从正则表达式下拉列表中选择“查找 常见错别字”
b 点击工具栏上的“广告检查及字符串计数”来检查文档中的错误。并生成用于替换的文档。然后你可以检查并修改此文档。
c 保存并关闭前面提及的文档。
d 单击工具栏上的“自定义替换/删除”按钮来进行错误内容的替换。
4 对“常见错别字”和“的地得错误”的内容进行了适当的排除重复内容、修正错误。
5 修正了一些 bug
2013.7.14 更新
1 添加了 .apk 转 .txt 功能(在 pdb2txt 按钮中)
2 对格式整理功能进行了最大限度的优化,速度有明显提升.
3 修正了一些 bug
4 其它......
2015.3.17 更新
1 极大地提高了格式整理的速度,
2 添加了 .azw4 转 .pdf 功能,azw转txt功能和azw3转txt等等等等的转换功能
3 添加了书友烟外晓云轻使用的自定义正则表达式合集