打印

[版务] 文字处理经验谈--乱码繁体文件处理

0

文字处理经验谈--乱码繁体文件处理

版主留言
才子(2008-6-12 12:43 PM): 转到帮忙区
不知道该把这放哪里,望版主斧正。
这两年在网上读文久了,便有一些小经验。
现在把我这些经验写下来,供大家参考、学习、交流。

1、首先是下载,现在的网络文章太多,有时候没有时间下载与整理。没有关系,现在我教你一个办法快速下载网文。所有的网页打开之后,自己的电脑上都会留下脱机内容,一般都默认保存在 C:\Documents and Settings\Administrator\Local Settings\Temporary Internet Files 内。打开改文件后后缀为 .HTML 的文件便是。其他的图片之类不一一赘述了。

2、其次是转换,网络文本都是 HTML 格式的,我们一般用的文本文件都是 TXT 格式,这就需要小软件转换,这里我推荐 HtmlToTxt 这个小软件(这里我不关联软件地址了,怕违规),可以批量转换的,且就200K不到。

3、命名,如果命名的要求不高可以用 RNFile ,可以按001~100之类的命名。如果需要联系到文本内容的,就需要一个文本命名软件,咱水平有限,说不清楚是什么,只能说有 取HTML的标题作为文件名.bat  、 文本中的第一行作为文件名.bat  等命名方式。

4、乱码,因为一个汉字是由两个字符组成,有些文本文件经常会一句话中丢失半个字符造成整句话的乱码(特别是繁体字改成简体字时,我也不知道为什么)。这种乱码一般是句首的那个字丢失半个字符,句末的那个字丢失半个字符。这样我们可以用  TextEditor  文本整理器这个软件。用该软件处理后,丢失的那个字自然无法取回,但是我们可以从上下文中猜出来。

5、水印乱码,这是现在许多的论坛为了防止转帖用的。这个比较麻烦,只能用直接从Html页面上用剪贴板复制,然后用去水印转帖工具处理。但是如果已经是TXT文本文件了就无法处理了。另外Word也可以处理,这里就不详细说了(事实上是我忘记了)。

6、繁体字,就算大家看得懂繁体字,也是很费劲的,这里我们可以用Word。Word常用栏上有一个“繁”或“简”,这就是繁体简体转换工具。其次 TextEditor  文本整理器这个软件,也可以转换,并且是批量转换。

7、其他的删除行或删除列可以用 烈火 。Word有一个通配符 查找 或 替换 都还可以。

以上便是本人一点小小的经验,望大家多支持。另外希望版主客气点多给我加点哦。

TOP

0
谢谢,但是我还不是很明白。主要是乱码怎么能弄好一点?我一般用网页那 个繁体转换换完在复制到文本档案,然后放到邮箱在下载就有乱码了能解决一下吗楼主老大?在这先谢谢了

TOP

0
楼上说的那种乱码应该就是丢失字符造成的,可能是转换软件不好而丢失的。我建议先不要转换成简体。直接将文本放邮箱,等下载了再用Word之类的转换。

TOP

0
我就遇到过乱码,使用手机上网时发生的,我向版主报告了,哈哈
本帖最近评分记录

TOP

当前时区 GMT+8, 现在时间是 2024-4-28 01:44