100)表示;(与源Unicode字符是相同的);
>7位的Unicode: 0 _ _ _ _ _ _ _
● 如果Unicode的16位字符的头5位是0,则用2个字节表示,首字节是“110”开头,后面的5位与源字符中除去头5个零后的最高5位相同;第二个字节以“10”开头,后面的6位与源字符中的低6位相同。如“/u025d”(0000 0010 0101 1101),转化后为“c99d”(1100 1001 1001 1101);
>11位的Unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
● 如果不符合上述两个规则,则用三个字节表示。第一个字节以“1110”开头,后四位为源字符的高四位;第二个字节以“10”开头,后六位为源字符中间的六位;第三个字节以“10”开头,后六位为源字符的低六位;如“/u9da7”(1001 1101 1010 0111),转化为“e9b6a7”(1110 1001 1011 0110 1010 0111);
>16位的Unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
>21位的Unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
可以这么描述JAVA程序中Unicode与UTF的关系,虽然不绝对:字符串在内存中运行时,表现为Unicode代码,而当要保存到文件或其它介质中去时,用的是UTF。这个转化过程是由writeUTF和readUTF来完成的。
4>Java
程序中的编码格式内幕
input(charsetA)->process(Unicode)->output(charsetB)
即输入、处理和输出要经过“从charsetA到unicode再到charsetB”的转化。
SourceFile(jsp,java)->class->output
输入的是jsp和java源文件,在处理过程中,以Class文件为载体,然后输出。
● JSP从源文件到Class的过程。
在本节中,将阐述JSP文件的解释和编译过程,并跟踪其中的中文变化。
1、JSP/Servlet引擎提供的JSP转换工具(jspc)
搜索JSP文件中用<%@ page
contentType ="text/html; charset=<Jsp-charset>"%>中指定的charset。如果在JSP文件中未指定<Jsp-charset>,则取JVM中的默认设置file.encoding,一般情况下,这个值是ISO8859-1;
2、jspc用相当于“javac –encoding <Jsp-charset>”的命令解释JSP文件中出现的所有字符,包括中文字符和ASCII字符,然后把这些字符转换成Unicode字符,再转化成UTF格式,存为JAVA文件。ASCII码字符转化为Unicode字符时只是简单地在前面加“00”,如“A”,转化为“/u0041”(不需要理由,Unicode的码表就是这么编的)。然后,经过到UTF的转换,又变回“41”了!这也就是可以使用普通文本编辑器查看由JSP生成的JAVA文件的原因;
3、引擎用相当于“javac –encoding UNICODE”的命令,把JAVA文件编译成CLASS文件;
先看一下这些过程中中文字符的转换情况。有如下
源代码:
<%@ page contentType="text/html; charset=gb2312"%>
<html><body>
<%
String a="中文";
out.println(a);
%>
</body></html>
两个字的GB2312编码为“D6 D0 CE C4”。经查表,“中文”两字的Unicode编码为“/u4E2D/u6587”,用 UTF表示就是“E4 B8 AD E6 96 87”。此
JSP文件生成的JAVA文件中的“中文”两个字被“E4 B8 AD E6 96 87”替代了,再查看由JAVA文件编译生成的CLASS文件,发现结果与JAVA文件中的完全一样。
再看JSP中指定的CharSet为ISO-8859-1的情况。
<%@ page contentType="text/html; charset=ISO-8859-1"%>
<html><body>
<%
String a="中文";
out.println(a);
%>
</body></html>
先推测一下生成的JAVA文件和CLASS文件的过程:jspc用ISO-8859-1来解释“中文”,并把它映射到Unicode。由于ISO-8859-1是8位的,其映射规则就是在每个字节前加“00”,所以,映射后的Unicode编码应为“/u00D6/u00D0/u00CE/u00C4”,转化成UTF后应该是“C3 96 C3 90 C3 8E C3 84”。最后,打开文件看一下,JAVA文件和CLASS文件中,“中文”果然都表示为“C3 96 C3 90 C3 8E C3 84”。
如果上述代码中不指定<Jsp-chars