易截截图软件、单文件、免安装、纯绿色、仅160KB

基于XML技术的网页内容提取

如题
我这学期选的课题是这个但是不知道该怎么准备,导师也没怎么说清楚,希望各位达人能指点一二,小弟在这谢过啦!

谢谢你 ,我现在也自己看资料整理思路呢,具体的还要一点时间。
引用
思路如下:
使用C#+XML技术如下:
1、WebClient获取网页内容
2、网页内容是HTML标签,用XML的技术提取,页面肯定要符合XML的基本语法。
因此要将不规则的标签,转换成XHTML的合法格式,关于XHTML的dtd,参考W3C的网站。
把大写标签转换成小写标签,可以用正则表达式的替换功能
3、下步就是分析获取什么样的内容,这步可能用到的技术XQuery和XSLT

具体没有说的很清楚,这是自己的想法,第1、2两点我是做过的,不过我是提取里面的图片


你可以利用webbroser访问一个页面,然后,用webbroser.document获得html dom,webbroser.document.body.outerHTML,就是body元素内的所有HTML了。

webbroser 改为webbrowser


相关问答:

如何将XML数据存入ACCESS数据库

请问各位大师,我现在需要将XML的数据实时的存入到数据库中,我是用asp编的程序,大量们帮忙分析 一下!!!
下面是我的XML文件代码
XML code:

<?xml version="1.0" encoding="utf-8"? ......

c++判断xml合法性

如何用c++程序判断xml中各元素的合法性,针对格式上的合法性,返回0或者1
使用MSXML,加载XML后,使用validate方法验证

据说你要在linux下使用。
linux下可以使用Libxml2来操作xml,同样提供了validate的方法 ......

php 读xml文件

我在使用Dom读xml文件时遇到一个问题,就是当123.xml文件不存在时,load(123.xml)就报错,怎么样才能判断这个文件是否存在啊,我要的是存在时就读取,不存在就跳过,继续的读下一个xml,请教各位大侠,

$file ......

XML轉DataSet、DataTable

我想要一個通用的xml轉DataTable,xml文件來自不同的文檔,
例如:excel文檔另存為xml文檔怎么把這個xml文檔轉換成DataSet、DataTable ......

好 请问有什么XML的好书

好 我想学习XML好书,请问有什么书,可以深入的学习下的 谢谢
无废话XML 台湾两只老虎

XML入门经典

友情 帮顶。

无废话XML 台湾两只老虎知识点比较少

XML从入门到精通
......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号