汉字编码:
问题:
十个汉字占多少个字节
只讲两种:
国标系列:
GB18030(二字节或四字节编码,共27533个汉字)
GBK(二字节编码,共21003个汉字)
GB2312(二字节编码,共个6763汉字)
(Windows 常用)
国际标准:
UNICODE32(UNICODE16) <---> UTF-8
(Linux, Mac OS X, IOS, Android等常用)
说明:
python3的字符串内部都是用UNICODE来存储字符的
python 编码(encode) 字符串:
'gb2312'
'gbk'
'gb18030'
'utf-8'
'ascii'
编码注释:
在python 源文件第一行或第二行写入如下内容是告诉解释执行器此文件的编码类型是什么
如:
# -*- coding: gbk -*-
# 设置源文件编码格式为gbk
或
# -*- coding: utf-8 -*-
# 设置源文件编码格式为utf-8