当前位置:  软件>java软件

HTML解析器 jsoup

    来源:    发布时间:2015-02-25

    本文导语:  本站使用 jsoup 来解析 HTML。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL...

本站使用 jsoup 来解析 HTML。

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

  • 从一个URL,文件或字符串中解析HTML;

  • 使用DOM或CSS选择器来查找、取出数据;

  • 可操作HTML元素、属性、文本;

  • jsoup是基于MIT协议发布的,可放心使用于商业项目。

    示例代码:

    File input = new File("/tmp/input.html");
    Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
    
    Element content = doc.getElementById("content");
    Elements links = content.getElementsByTag("a");
    for (Element link : links) {
      String linkHref = link.attr("href");
      String linkText = link.text();
    }

    在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=jsoup-1.6.3


        
     
     

    您可能感兴趣的文章:

  • 基于Python的Html/xml解析库Beautiful Soup 4.2.1发布
  • 如何用libxml2 默认解析器解析HTML文件
  • html中<radio>单选按钮控件标签用法解析及如何设置默认选中
  • linux中html解析,需要哪些知识
  • 基于Python的html解析库:pyquery最新版主页及pyquery下载
  • Java的HTML解析器 Jerry
  • Python下Html/xml解析库Beautiful Soup快速入门教程
  • HTML解析器 JoyHTML
  • html中<checkbox>标签用法解析及如何设置checkbox复选框的默认选中状态
  • HTML 解析类库 MozillaParser
  • html中<select>标签用法解析及如何设置select的默认选中状态
  • Html文档解析器 JTidy
  • HTML解析器 CyberNeko
  • Java的HTML解析包 jScraper
  • Html文档解析器 HtmlCleaner
  • 有什么java包可以支持解析html的。
  • HTML解析器 VietSpider
  • HTML文档解析器 HTMLParser
  • C语言的HTML解析库 libhtml
  • Java的HTML解析库 gohtml
  • HTML解析器 TagSoup
  • crawler4j抓取页面使用jsoup解析html时的解决方法
  • Java中使用开源库JSoup解析HTML文件实例
  • Jsoup解析HTML实例及文档方法详解
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • java命名空间javax.swing.text.html类html.tag的类成员方法: html定义及介绍
  • 基于HTML5的幻灯片 html5slides
  • java命名空间javax.swing.text.html类html.tag的类成员方法: html.tag定义及介绍
  • 基于 KBEngine 的 HTML5 插件 kbengine_html5
  • java命名空间javax.swing.text.html类html.unknowntag的类成员方法: html.unknowntag定义及介绍
  • 让 IE 支持 HTML5 html5shim
  • java命名空间javax.swing.text.html类htmleditorkit.inserthtmltextaction的类成员方法: html定义及介绍
  • HTML文档格式化工具 HTML Tidy
  • java命名空间javax.swing.text.html类html的类成员方法: getallattributekeys定义及介绍
  • HTML5 在线工具 html5demos
  • java命名空间javax.swing.text.html.parser类dtd的类成员方法: html定义及介绍
  • 框架网页中如何使用sendredirect(a.html),使得a.html不显示在框架中,是整页显示!
  • java命名空间javax.swing.text.html类html.tag的类成员方法: comment定义及介绍
  • Sar数据转HTML Sar2html
  • java命名空间javax.swing.text.html类html.attribute的类成员方法: color定义及介绍
  • 关于editplus的使用,编译完生成.class后,我又编写了html来执行applet,将其保存,如何经ie解释打开(直接在editplus上操作)不是显示html语言呀
  • java命名空间javax.swing.text.html类html.attribute的类成员方法: vlink定义及介绍
  • 去除HTML标签删除HTML示例代码
  • java命名空间javax.swing.text.html类html.attribute的类成员方法: rel定义及介绍
  • python实现html转ubb代码(html2ubb)
  • java命名空间javax.swing.text.html类html.attribute的类成员方法: src定义及介绍
  • asp.net去除HTML标签删除HTML小例子


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3