首页 | 互联网 | IT动态 | IT培训 | Cisco | Windows | Linux | Java | .Net | Oracle | 软件测试 | C/C++ | 嵌入式开发 | 存储世界 | 服务器
网络设备 | IDC | 安全 | 求职招聘 | 数字网校 | 网页设计 | 平面设计 | 技术专题 | 电子书下载 | 教学视频 | 源码下载 | 搜索 | 博客 | 论坛
 Dreamweaver | Flash
 Fireworks  | Frontpage
 HTML/CSS  | Javascript
 Photoshop  | CorelDraw
 AuotoCAD   | Illustrator
 Freehand
 3DMax    | Authorware
 Director   | Maya
 PP点点通 | 迅雷 | BT
 eMule | FlashGet | Nero
 Ghost | Outlook | IE
 Maxthon | Office
 QQ | MSN | 网易泡泡
 Skype | 雅虎通 | 新浪UC

最新文章

您现在的位置: 中国IT实验室 >> 工具软件 >> Office >> Word >> 正文

巧用WORD导出干净的网页文本


ChinaItLab  2006-9-27  佚名  保存本文  推荐给好友  收藏本站


◆ 网页平面多媒体培训、认证考试免费咨询热线:400-700-5807   进入网络咨询平台


1. 浏览时先将网页内容存为HTML页面格式:点击浏览器“文件”-》“另存为”命令并选“仅HTML页面”项;

2. 用系统自带的记事本软件打开该网页文件:点击“文件”-》“打开”命令并在文件名处输入先前保存好的网页文件全称(带扩展名如ABCD.HTM);

3. 这时你在记事本中看到的是文件的全部源代码,选“编辑”-》“全选”和“复制”命令,接着新建一空白WORD文件并选“编辑”-》“粘贴”命令,将所有源代码转移到WORD文件中;

4. 在WORD程序中点击“编辑”-》“替换”命令进行处理。首先选中“使用通配符”选项,根据前面的分析结果在查找栏处输入要查找的文字并执行替换命令(见图三)。


它们分别是:

\<SPAN STYLE=“DISPLAY:NONE”\>*\</SPAN\>

及\<FONT STYLE=“FONT-SIZE:0PX;COLOR:#F8F8F8”\>*\</FONT\>

其中替换栏处为空,目的是将所涉及文字全部去除。

5. 执行完上述替换命令后,点击“文件”-》“另存为”命令将处理后的文字保存为新的网页文件。注意:保存时“保存类型”处不要选“WEB页”项而选“带换行符的纯文本”项,且“文件名称”处应填入带指定扩展名的名字,如“EFGH.HTM”;

6. 双击打开新保存的网页文件,点击“文件”-》“另存为”命令并选“文本文件”项。最后得到的新文件就是去除了干扰文字后干净的文本内容了(如图四);


提示

不同的网站会加入不同的干扰文字,但其原理大多是一样的,通常都是通过<SPAN>、<FONT>等HTML语言代码的特殊语法来实现的,读者只要稍微分析一下就能找出它们的共同点及相应的处理方法。

ULTRAEDIT是很强的文本编辑软件且受到许多电脑用户的推崇,但当用它来处理上述操作时需注意先在“高级”-》“设置”-》“常规”框中选中“允许输入低值ASCII码”项(如图五),以在查找替换操作中启用程序的控制字符识别功能。


上一页  [1] [2] 

【责编:runlz】