首页 | 互联网 | IT动态 | IT培训 | Cisco | Windows | Linux | Java | .Net | Oracle | 软件测试 | C/C++ | 嵌入式开发 | 存储世界 | 服务器
网络设备 | IDC | 安全 | 求职招聘 | 数字网校 | 网页设计 | 平面设计 | 技术专题 | 电子书下载 | 教学视频 | 源码下载 | 搜索 | 博客 | 论坛
 Dreamweaver | Flash
 Fireworks  | Frontpage
 HTML/CSS  | Javascript
 Photoshop  | CorelDraw
 AuotoCAD   | Illustrator
 Freehand
 3DMax    | Authorware
 Director   | Maya
 PP点点通 | 迅雷 | BT
 eMule | FlashGet | Nero
 Ghost | Outlook | IE
 Maxthon | Office
 QQ | MSN | 网易泡泡
 Skype | 雅虎通 | 新浪UC

最新文章

您现在的位置: 中国IT实验室 >> 工具软件 >> Office >> Word >> 正文

巧用WORD导出干净的网页文本


ChinaItLab  2006-9-27  佚名  保存本文  推荐给好友  收藏本站


◆ 网页平面多媒体培训、认证考试免费咨询热线:400-700-5807   进入网络咨询平台

平常爱逛一些音乐坛子,遇到好听的音乐必下之而后快,而且有些帖子附有歌词、介绍,当然也不能放过,将其复制存成文本更方便了我们这些爱好者日后的收藏、练唱。不过最近却发现有的坛子里的网页文字不是那么好保存了。

过去见到需要的网页内容,只需点击浏览器的“文件”-》“另存为”命令并选“文本类型”项即可得到想要的文字,但现在有些坛子似乎并不希望访客那么容易的得到它帖子里的文字内容,虽然浏览时并无任何异常,但当将其存成文本文件时就会发现文件里除了你想要的文字外还多了许多不相干的乱码文字(见图一),导致我们无法正常查看和编辑这些文件的内容了。这到底是怎么回事呢?


分析原因

先将想要的内容存为网页文件(HTML格式),通过查看其源代码便会发现其中的奥秘(见图二)。在帖子每行的文字中间都被加入了一大段的干扰文字,其内容甚至含有低值ASCII码(就是通常指的控制字符)且每段的干扰文字内容也都不尽相同,它们就是我们在导出文本时所看到的那些不相干文字。显然这种处理不是由发贴人所做的,而是由坛子的管理者有意为之的结果。


但是在我们浏览网页时为什么没有看到这些干扰文字呢?看看这些文字前面的HTML语言代码就明白了。经过分析发现,干扰文字被用了两种方式加到了这些网页中:<SPAN>和<FONT>。代码<SPAN STYLE=“DISPLAY:NONE”>。。。</SPAN>中的STYLE语法表明这段文字在浏览时不会被显示出来;而代码<FONT STYLE=“FONT-SIZE:0PX;COLOR:#F8F8F8”>。。。</FONT>中的两语法更限定了它所包含的文字在浏览时显示为0字号、浅色。这也就是我们在网页上看不到而在存为文本时却能发现这些干扰文字的原因了。

问题的解决

要消除这些干扰文字并还原得到我们想要的文字的文本内容,一般都会想到使用各类编辑软件的查找替换功能来实现,而事实并不那么简单。由于这些干扰文字里含有控制字符和回车换行符,就使得许多不支持低值ASCII码操作和多行替换处理的编辑软件只能望之兴叹了。经过笔者的多次测试,最后发现用最常见的WINWORD软件来处理才是最好的选择。

操作步骤如下:

 

[1] [2] 下一页

【责编:runlz】