Python获取网页编码的方法及示例代码

发布时间:2013-7-25

本文导语: 客户端浏览器识别网页编码主要从两个地方来进行解析。 1. Http 响应头的Content-Type字段。从Headers中提取编码字段的代码: from urllib.request import * f = urlopen('http://www.baidu.com') print (f.info()) contype = f.headers['Content-Type'] pos = contype.find...

客户端浏览器识别网页编码主要从两个地方来进行解析。

1. http 响应头的jquery iis7站长之家字段。从headers中提取编码字段的代码:

from urllib.request import *
f = urlopen('http://www.baidu.com')
print (f.info())
contype = f.headers['Content-Type']
pos = contype.find('=')
if -1 != pos:
   contype = contype[pos+1:len(contype)]
print (contype)

2. html网页的<head>中的<meta>的属性 http-equiv值为content-type项。

从网页<meta>中获取网页编码的python代码如下:

from urllib.request import *
import re
url='http://www.baidu.com'
s = urlopen(url).read()
m_charset = re.search('<metas*http-equiv="?Content-Type"? content="text/html;s*charset=([wd-]+?)"', s.decode("ISO-8859-1"), re.IGNORECASE)
print(m_charset.group(1))

3.注意事项:

中文GB类型的编码包括GBK,GB2312和GB18030等几种不同的表示法，因此需要仔细判断。

以上示例代码在Windows 7下的python 3.3.0版本测试通过。

以上代码仅作示范原理的演示代码，在实际产品环境中需进行进一步改进。

如转载本文，请注明出处http://www.169it.com

您可能感兴趣的文章:

本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术，将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外，均为转载,整理或搜集自网络.欢迎任何形式的转载，转载请注明出处.
转载请注明：文章转载自:[169IT-IT技术资讯]
本文标题:Python获取网页编码的方法及示例代码

python处理中文编码和判断编码示例

学习python处理python编码问题

Python中文编码那些事

python实现批量转换文件编码(批转换编码示例)

使用python的chardet库获得文件编码并修改编码

Python中还原JavaScript的escape函数编码后字符串的方法

Python编码时应该注意的几个情况