当前位置:  编程技术>python

Python BeautifulSoup中文乱码问题的2种解决方法

    来源: 互联网  发布时间:2014-10-04

    本文导语:  解决方法一: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码 代码如下:from bs4 import BeautifulSoupimport urllib2url = 'http://www./'page = urllib2.urlopen(url)soup = Beaut...

解决方法一:

使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家
首先是代码

代码如下:

from bs4 import BeautifulSoup
import urllib2

url = 'http://www./'
page = urllib2.urlopen(url)

soup = BeautifulSoup(page,from_encoding="utf8")
print soup.original_encoding
print (soup.title).encode('gb18030')

file = open("title.txt","w")
file.write(str(soup.title))
file.close()

 

for link in soup.find_all('a'):
    print link['href']

在刚开始测试的时候发现,虽然输出是乱码的,但是写在文件里面却是正常的.然后在网上找了找解决办法才发现
print一个对象的逻辑:内部是调用对象的__str__得到对应的字符串的,此处对应的是soup的__str__ 而针对于soup本身,其实已经是Unicode编码,所以可以通过指定__str__输出时的编码为GBK,以使得此处正确显示非乱码的中文
而对于cmd:(中文的系统中)编码为GBK,所以只要重新编码为gb18030就可以正常输出了
就是下面这行代码
代码如下:

print (soup.title).encode('gb18030')

解决方法二:

BeautifulSoup在解析utf-8编码的网页时,如果不指定fromEncoding或者将fromEncoding指定为utf-8会出现中文乱码的现象。

解决此问题的方法是将Beautifulsoup构造函数中的fromEncoding参数的值指定为:gb18030

代码如下:

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www./');
soup = BeautifulSoup(page,fromEncoding="gb18030")
print soup.originalEncoding
print soup.prettify()


    
 
 
 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • python处理中文编码和判断编码示例
  • python处理json数据中的中文
  • Python中文编码那些事
  • python3访问sina首页中文的处理方法
  • python将html转成PDF的实现代码(包含中文)
  • python使用reportlab画图示例(含中文汉字)
  • Python中文路径处理问题深入研究
  • Python中使用中文的方法
  • python用于url解码和中文解析的小脚本(python url decoder)
  • python生成随机验证码(中文验证码)示例
  • python 中文字符串的处理实现代码
  • Python 随机生成中文验证码的实例代码
  • python发送邮件示例(支持中文邮件标题)
  • 布同 Python中文问题解决方法(总结了多位前人经验,初学者必看)
  • python中将阿拉伯数字转换成中文的实现代码
  • Python 中文正则表达式笔记
  • Python GUI编程:tkinter实现一个窗口并居中代码
  • 让python同时兼容python2和python3的8个技巧分享
  • Python不使用print而直接输出二进制字符串
  • 使用setup.py安装python包和卸载python包的方法
  • Python中实现json字符串和dict类型的互转
  • 不小心把linux自带的python卸载了,导致安装一个依赖原python的软件不能安装,请问该怎么办?
  • python异常信息堆栈输出到日志文件
  • python读取csv文件示例(python操作csv)
  • NOSQL iis7站长之家
  • python基础教程之python消息摘要算法使用示例
  • Python namedtuple对象json序列化/反序列化及对象恢复
  • 新手该如何学python怎么学好python?
  • Python获取网页编码的方法及示例代码
  • 使用python删除nginx缓存文件示例(python文件操作)
  • Python异常模块traceback用法举例


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3