Mysql 的字符编码机制、中文乱码问题及解决
方案 相信很多朋友都会对字符编码敬而远之,但一发生乱码问题却头大不已,本文结合前人的经验及Mysql手册中的解释,用具体的操作和例子,旨在了解mysql的字符编码机制以及乱码问题的解决。
【问题现象】
网页xxx.php用EditPlus另存为UTF8格式,
MySQL在my.ini里设置[ client ] 和 [ mysqld ] 都设置为default-character-set=utf8,
建表时加了CREATE TABLE `xxx ` (myname varchar(255)) ENGINE=MyISAM DEFAULT CHARSET=utf8,
用xxx.php执行insert/update/select出来的都是中文,
貌似没
问题,但是用phpMyAdmin看 select是乱码,用第三方工具软件(如SQLyog)看select也是乱码,mysqldump也是乱码,很不爽。当然,如果你建表的时候,选择了 binary/varbinary/blob类型,不会发现乱码,因为指定的是二进制保存,MySQL保存数据时就没有编码的概念了。
【查找问题】
虽然在my.ini里设置default-character-set=utf8,但是执行以下命令时有新发现:
mysql> SHOW VARIABLES LIKE 'character%';
+----------------------------------------+-------------------------
| Variable_name| Value
+----------------------------------------+-------------------------
| character_set_client | latin1
| character_set_connection | latin1
| character_set_database | utf8
| character_set_filesystem | binary
| character_set_results| latin1
| character_set_server| utf8
| character_set_system| utf8
| character_sets_dir| D:\mysql\share\charsets\
+----------------------------------------+-------------------------
8 rows in set (0.00 sec)
mysql> SHOW VARIABLES LIKE 'collation_%';
+---------------------------------------+------------------
| Variable_name| Value
+---------------------------------------+------------------
| collation_connection | latin1_swedish_ci
| collation_database| utf8_general_ci
| collation_server| utf8_general_ci
+--------------------------------------+------------------
3 rows in set (0.00 sec)
发现Value列里面不全是utf8,仍然有部分是latin1,比如其中的client和connection。
其中本文会多次提及以下几个概念:
character_set_client:客户端发送的查询中所使用的字符集,下文简称client
character_set_connection:服务器接收到
查询后,会将查询从character_set_client系统变量所标识的编码转换到character_set_connection,下文简称connection
character_set_results:服务器发送结果集或返回错误信息到客户端所使用的字符集,下文简称results
而这几个字符集设置的关系为:
信息输入路径:client→connection→server
信息输出路径:server→connection→results
换句话说,每个路径要经过3次改变字符集编码。以出现乱码的输出为例,按照上表中的字符集设定:server
里utf8的数据,传入 connection转为latin1,传入results转为latin1,页面如果设定为UTF-8的话,又把results的latin1转为UTF-8。如果两种字符集不兼容,比如 latin1和utf8,转化过程就为不可逆的,破坏性的。所以就转不回来了。
再来一个输入路径的例子:从xxx.php页面上输入汉字,因为xxx.php是UTF8编码的,所以xxx.php以UTF8格式转换输入的汉字,然后以UTF8 提交给mysql,但是mysql的client和connection都是latin1的,而server是UTF8的,所以mysql存储时,先将 xxx.php提交的汉字,转成latin1的格式,再转成UTF8字符格式存在表中。如果此时我们用第三方软件或者phpMyAdmin去select 查看此表,而表中存储的数据是被latin1过的UTF8字符,出来的时