当前位置: 技术问答>linux和unix
linux中html解析,需要哪些知识
来源: 互联网 发布时间:2015-11-30
本文导语: 最近做一个HTML解析的东东,但发现,网页的HTML源码总是不规范或者是内嵌JS脚本,就无法正常分析.哪位知道要正常解析HTML文本,需要哪些知识?有此类的开源项目吗?我要的功能相对比较简单,不要显示,只需要正常解析就...
最近做一个HTML解析的东东,但发现,网页的HTML源码总是不规范或者是内嵌JS脚本,就无法正常分析.哪位知道要正常解析HTML文本,需要哪些知识?有此类的开源项目吗?我要的功能相对比较简单,不要显示,只需要正常解析就行!(有JS脚本的,需要将JS解释),关于这类问题,大家可以讨论讨论!
|
看web server的源代码,比如httpd,boa
|
找dillo、zen、netbits等开源浏览器看看