java 编写的爬虫 获取HTML源文件 - Java / Java SE
public class ResultHTML {
public static void main(String[] args) throws MalformedURLException, IOException {
URLConnection uc = new URL("http://10.50.128.145").openConnection();
uc.setConnectTimeout(10000);
uc.setDoOutput(true);
InputStream in = new BufferedInputStream(uc.getInputStream());
Reader rd = new InputStreamReader(in);
int c = 0;
StringBuffer temp = new StringBuffer();
while ((c = rd.read()) != -1) {
temp.append((char) c);
}
in.close();
System.out.println(temp.toString());
}
很简单的代码 就是想获取HTML的源代码 但是发现 如果HTML中加入了CSS ,JS 或者是用了框架。根本就得到里面的东西。只是你所点击的这个页面最外面的一个框子。实质显示的数据 全部都在其他的CSS,或是JS中。
鼠标右键这个网页 得到的源文件跟解析出来的不一样。
问 怎么才能得到 包括CSS.JS或是框架的HTML源文件。要那种鼠标右键后得到的源文件。带数据的。
所有的分 25分
你测试这个试下 我以前用的是这个public static void main() {
try {
StringBuffer html = new StringBuffer();
java.net.URL url = new java.net.URL("http://www.baidu.com");
java.net.HttpURLConnection conn = (java.net.HttpURLConnection) url.open
相关问答:
当知道一个日期,如何把这个日期所在旬的前后两个日期取出
比如输入20090905,就输入20090901 20090910
输出20090901 20090910
取得天数后作一下判断再把这个方法用下void set(int field, int value)
......
为什么HTML以及一些其它标签会显示一些特定表现形式呢?如HTML中的换行标签<BR/>在底层是怎样实现的呢?现实的原理是什么呢
去W3C官方网站上,看看吧!我想一看你就明白了
我猜和编译原理有关,浏览器里可 ......
各位老大好。。。小弟有一个乱码问题急需帮忙解决
我在本页中用request.getParameter("name")取变量。。变量的赋值为汉字。我在页面的开头加了<%@ page language = "java" contentType=&quo ......