python 中文乱码问题深入分析__utf-8_unicode_str_python_UTF-8_

当前位置: 编程技术>python

python 中文乱码问题深入分析

来源: 互联网发布时间：2014-09-04

本文导语: 在本文中，以'哈'来解释作示例解释所有的问题，“哈”的各种编码如下： 1. UNICODE (UTF8-16)，C854； 2． UTF-8，E59388； 3． GBK，B9FE。一、python中的str和unicode 一直以来，python中的中文编码就是一个极为头大的问题，经常抛出编码...

在本文中，以'哈'来解释作示例解释所有的问题，“哈”的各种编码如下：
1. UNICODE (UTF8-16)，C854；
2． UTF-8，E59388；
3． GBK，B9FE。
一、python中的str和unicode
一直以来，python中的中文编码就是一个极为头大的问题，经常抛出编码转换的异常，python中的str和unicode到底是一个什么东西呢？
在python中提到unicode，一般指的是unicode对象，例如'哈哈'的unicode对象为
u'u54c8u54c8'
而str，是一个字节数组，这个字节数组表示的是对unicode对象编码(可以是utf-8、gbk、cp936、GB2312)后的存储的格式。这里它仅仅是一个字节流，没有其它的含义，如果你想使这个字节流显示的内容有意义，就必须用正确的编码格式，解码显示。
例如：

对于unicode对象哈哈进行编码，编码成一个utf-8编码的str－s_utf8,s_utf8就是是一个字节数组，存放的就是'xe5x93x88xe5x93x88'，但是这仅仅是一个字节数组，如果你想将它通过print语句输出成哈哈，那你就失望了，为什么呢？

因为print语句它的实现是将要输出的内容传送了操作系统，操作系统会根据系统的编码对输入的字节流进行编码，这就解释了为什么utf-8格式的字符串“哈哈”，输出的是“鍝堝搱”，因为 'xe5x93x88xe5x93x88'用GB2312去解释，其显示的出来就是“鍝堝搱”。这里再强调一下，str记录的是字节数组，只是某种编码的存储格式，至于输出到文件或是打印出来是什么格式，完全取决于其解码的编码将它解码成什么样子。

这里再对print进行一点补充说明：当将一个unicode对象传给print时，在内部会将该unicode对象进行一次转换，转换成本地的默认编码（这仅是个人猜测）

二、str和unicode对象的转换

str和unicode对象的转换，通过encode和decode实现，具体使用如下：

将GBK'哈哈'转换成unicode，然后再转换成UTF8

三、Setdefaultencoding

如上图的演示代码所示：

当把s(gbk字符串)直接编码成utf-8的时候，将抛出异常，但是通过调用如下代码：

import sys

reload(sys)

sys.setdefaultencoding('gbk')

后就可以转换成功，为什么呢？在python中str和unicode在编码和解码过程中，如果将一个str直接编码成另一种编码，会先把str解码成unicode，采用的编码为默认编码，一般默认编码是anscii，所以在上面示例代码中第一次转换的时候会出错，当设定当前默认编码为'gbk'后，就不会出错了。

至于reload(sys)是因为Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入。

四、操作不同文件的编码格式的文件

建立一个文件test.txt，文件格式用ANSI，内容为:

abc中文

用python来读取

# coding=gbk

print open("Test.txt").read()

结果：abc中文

把文件格式改成UTF-8：

结果：abc涓枃

显然，这里需要解码：

# coding=gbk