易截截图软件、单文件、免安装、纯绿色、仅160KB

基于XML技术的网页内容提取

如题
我这学期选的课题是这个但是不知道该怎么准备,导师也没怎么说清楚,希望各位达人能指点一二,小弟在这谢过啦!

谢谢你 ,我现在也自己看资料整理思路呢,具体的还要一点时间。
引用
思路如下:
使用C#+XML技术如下:
1、WebClient获取网页内容
2、网页内容是HTML标签,用XML的技术提取,页面肯定要符合XML的基本语法。
因此要将不规则的标签,转换成XHTML的合法格式,关于XHTML的dtd,参考W3C的网站。
把大写标签转换成小写标签,可以用正则表达式的替换功能
3、下步就是分析获取什么样的内容,这步可能用到的技术XQuery和XSLT

具体没有说的很清楚,这是自己的想法,第1、2两点我是做过的,不过我是提取里面的图片


你可以利用webbroser访问一个页面,然后,用webbroser.document获得html dom,webbroser.document.body.outerHTML,就是body元素内的所有HTML了。

webbroser 改为webbrowser


相关问答:

xml解析问题!急

我是利用axiom对xml进行解析!
但却出现下面的错误!
Exception in thread "main" org.apache.axiom.om.OMException: [com.ctc.wstx.exc.WstxLazyException] com.ctc.wstx.exc.WstxUnexpectedCharEx ......

C# DataSet导出xml 批处理(循环)得怎么处理

DataSet导出xml 批处理(循环)得怎么处理
XML文件
<A>
      <B>
        <C>
        </C>
  &nb ......

c++判断xml合法性

如何用c++程序判断xml中各元素的合法性,针对格式上的合法性,返回0或者1
使用MSXML,加载XML后,使用validate方法验证

据说你要在linux下使用。
linux下可以使用Libxml2来操作xml,同样提供了validate的方法 ......

请问Java如何把xml转txt格式呢?

今天遇到一个问题,把xml中的值装到.txt格式的文件中。
我目前想到两种比较笨的方法:1.可以通过xmlspy编辑工具实现
  2.通过把xml转成Javabean,然后转到excel中,再从新保存重命名为. ......

有没有php代码可以将excel转成xml的

如题,有没有这样的php代码。我现在想将excel的内容插入mysql数据库,希望可以将excel转成xml,然后解析xml插入数据库中。如果有这样的代码,甚至是有名的代码,一定要告诉我啊。
先读 excel => 然后生成 xml = ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号