当前位置:  软件>java软件

HTML 解析器 Jericho

    来源:    发布时间:2015-01-31

    本文导语:  Jericho HTML解析器是一个Java库,以分析和操纵部分的HTML文件,其中包括服务器端的标签,而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。 示例代码: import net.htmlparser.jericho.*;import java.util.*;import java....

Jericho HTML解析器是一个Java库,以分析和操纵部分的HTML文件,其中包括服务器端的标签,而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。

示例代码:

import net.htmlparser.jericho.*;
import java.util.*;
import java.io.*;
import java.net.*;

public class Encoding {
public static void main(String[] args) throws Exception {
String sourceUrlString="data/test.html";
if (args.length==0)
System.err.println("Using default argument of ""+sourceUrlString+'"');
else
sourceUrlString=args[0];
if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;
System.out.println("nSource URL:");
System.out.println(sourceUrlString);
URL url=new URL(/tech-soft-java/sourceUrlString/index.html);
Source source=new Source(url);
System.out.println("nDocument Title:");
Element titleElement=source.getFirstElement(HTMLElementName.TITLE);
System.out.println(titleElement!=null ? titleElement.getContent().toString() : "(none)");
System.out.println("nSource.getEncoding():");
System.out.println(source.getEncoding());
System.out.println("nSource.getEncodingSpecificationInfo():");
System.out.println(source.getEncodingSpecificationInfo());
System.out.println("nSource.getPreliminaryEncodingInfo():");
System.out.println(source.getPreliminaryEncodingInfo());
}
}

    
 
 

您可能感兴趣的文章:

  • 基于Python的Html/xml解析库Beautiful Soup 4.2.1发布
  • Html文档解析器 HtmlCleaner iis7站长之家
  • html中<radio>单选按钮控件标签用法解析及如何设置默认选中
  • linux中html解析,需要哪些知识
  • 基于Python的html解析库:pyquery最新版主页及pyquery下载
  • Java的HTML解析器 Jerry
  • Python下Html/xml解析库Beautiful Soup快速入门教程
  • HTML解析器 JoyHTML
  • html中<checkbox>标签用法解析及如何设置checkbox复选框的默认选中状态
  • HTML 解析类库 MozillaParser
  • html中<select>标签用法解析及如何设置select的默认选中状态
  • Html文档解析器 JTidy
  • HTML解析器 CyberNeko
  • Java的HTML解析包 jScraper
  • Html文档解析器 HtmlCleaner
  • 有什么java包可以支持解析html的。
  • HTML解析器 VietSpider
  • HTML文档解析器 HTMLParser
  • C语言的HTML解析库 libhtml
  • Java的HTML解析库 gohtml
  • HTML解析器 TagSoup
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • java命名空间javax.swing.text.html类html.tag的类成员方法: html定义及介绍
  • 基于HTML5的幻灯片 html5slides
  • java命名空间javax.swing.text.html类html.tag的类成员方法: html.tag定义及介绍
  • 基于 KBEngine 的 HTML5 插件 kbengine_html5
  • java命名空间javax.swing.text.html类html.unknowntag的类成员方法: html.unknowntag定义及介绍
  • 让 IE 支持 HTML5 html5shim
  • java命名空间javax.swing.text.html类htmleditorkit.inserthtmltextaction的类成员方法: html定义及介绍
  • HTML文档格式化工具 HTML Tidy
  • java命名空间javax.swing.text.html类html的类成员方法: getallattributekeys定义及介绍
  • HTML5 在线工具 html5demos
  • java命名空间javax.swing.text.html.parser类dtd的类成员方法: html定义及介绍
  • 框架网页中如何使用sendredirect(a.html),使得a.html不显示在框架中,是整页显示!
  • java命名空间javax.swing.text.html类html.tag的类成员方法: comment定义及介绍
  • Sar数据转HTML Sar2html
  • java命名空间javax.swing.text.html类html.attribute的类成员方法: color定义及介绍
  • 关于editplus的使用,编译完生成.class后,我又编写了html来执行applet,将其保存,如何经ie解释打开(直接在editplus上操作)不是显示html语言呀
  • java命名空间javax.swing.text.html类html.attribute的类成员方法: vlink定义及介绍
  • 去除HTML标签删除HTML示例代码
  • java命名空间javax.swing.text.html类html.attribute的类成员方法: rel定义及介绍
  • python实现html转ubb代码(html2ubb)
  • java命名空间javax.swing.text.html类html.attribute的类成员方法: src定义及介绍
  • asp.net去除HTML标签删除HTML小例子


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3