搜索
bottom↓
回复: 16

关于windows记事本编码好奇怪的现象,进来围观一下。

[复制链接]

出45入88汤圆

发表于 2019-1-11 15:46:03 | 显示全部楼层 |阅读模式
下载并打开sample.zip,里面有两个txt,都是ascii码,两个文件只相差一个字符。但记事本却把另外一个文件判为unicode编码的方式来打开,结果是乱码。什么回事?微软的bug?





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

阿莫论坛20周年了!感谢大家的支持与爱护!!

一只鸟敢站在脆弱的枝条上歇脚,它依仗的不是枝条不会断,而是自己有翅膀,会飞。

出45入88汤圆

 楼主| 发表于 2019-1-11 15:47:06 | 显示全部楼层
用ue打开两个文件都是正常

出130入129汤圆

发表于 2019-1-11 15:50:22 来自手机 | 显示全部楼层
16进制打开,看下文件头

出45入88汤圆

 楼主| 发表于 2019-1-11 15:51:02 | 显示全部楼层
68336016 发表于 2019-1-11 15:50
16进制打开,看下文件头

你看了没有?两个文件都没有bom头

出0入0汤圆

发表于 2019-1-11 16:03:25 | 显示全部楼层
你打开一个WINDOWS记事本,写上“联通”两个字,保存关闭后再打开,你看到了什么?
你打开一个WINDOWS记事本,写上“移动”两个字,保存关闭后再打开,你看到了什么?

出45入88汤圆

 楼主| 发表于 2019-1-11 16:04:51 | 显示全部楼层
adcr 发表于 2019-1-11 16:03
你打开一个WINDOWS记事本,写上“联通”两个字,保存关闭后再打开,你看到了什么?
你打开一个WINDOWS记事 ...

啥意思?

出0入4汤圆

发表于 2019-1-11 16:07:59 | 显示全部楼层
windows记事本 呵呵

出0入0汤圆

发表于 2019-1-11 16:12:00 | 显示全部楼层
记事本保存“联通”的原理分析
简单分析:

这是微软记事本的一个BUG,准确点就是unicode编码的问题。

只要你拿拼音输入“liantong”所对应的汉字,比如连同,连通等都会出现这个状况。

而且这个问题只在第一次出现,以后再使用就不会有问题了。

记事本默认的保存格式是UTF-8,你若选择保存为Unicode,那么这种状况就不会出现了。

原理分析:

在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset)。

在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。

后来,由于各国语言的加入,ASCII已经不能满足信息交流的需要,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集,它们正式的名称应该是MBCS(Multi-Byte Chactacter System,即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础,兼容ASCII 127,他们使用大于128的编码作为一个Leading Byte,紧跟在Leading Byte后的第二(甚至第三)个字符与Leading Byte一起作为实际的编码。这样的字符集有很多,我们常见的GB-2312就是其中之一。

例如在GB-2312字符集中,“连通”的编码为C1 AC CD A8,其中C1和CD就是Leading Byte。前127个编码为标准ASCII保留,例如“0”的编码是30H(30H表示十六进制的30)。软件在读取时,如果看到30H,知道它小于128就是标准ASCII,表示“0”,看到C1大于128就知道它后面有一个另外的编码,因此C1 AC一同构成一个整个的编码,在GB-2312字符集中表示“连”。

由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,提出了Unicode字符集,它固定使用16 bits(两个字节、一个字)来表示一个字符,共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中,方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码,它属于Unicode字符集。Unicode字符集有多种编码形式,而ASCII只有一种,大多数MBCS(包括GB-2312)也只有一种。

例如“连通”两个字的Unicode标准编码UTF-16 (big endian)为:DE 8F 1A 90

而其UTF-8编码为:E8 BF 9E E9 80 9A

最后,当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件有三种途径来决定文本的字符集和编码:

最标准的途径是检测文本最开头的几个字节,如下表:

开头字节

Charset/encoding

EF BB BF

UTF-8

FE FF

UTF-16/UCS-2, little endian

FF FE

UTF-16/UCS-2, big endian

FF FE 00 00

UTF-32/UCS-4, little endian.

00 00 FE FF

UTF-32/UCS-4, big-endian.

例如插入标记后,连通”两个字的UTF-16 (big endian)和UTF-8码分别为:
FF FE DE 8F 1A 90
EF BB BF E8 BF 9E E9 80 9A

但是MBCS文本没有这些位于开头的字符集标记,更不幸的是,一些早期的和一些设计不良的软件在保存Unicode文本时不插入这些位于开头的字符集标记。因此,软件不能依赖于这种途径。这时,软件可以采取一种比较安全的方式来决定字符集及其编码,那就是弹出一个对话框来请示用户,例如将那个“连通”文件拖到MS Word中,Word就会弹出一个对话框。

如果软件不想麻烦用户,或者它不方便向用户请示,那它只能采取自己“猜”的方法,软件可以根据整个文本的特征来猜测它可能属于哪个charset,这就很可能不准了。使用记事本打开那个“连通”文件就属于这种情况。

我们可以证明这一点:在记事本中键入“连通”后,选择“另存为”,会看到最后一个下拉框中显示有“ANSI”,这时保存。当再当打开“连通”文件出现乱码后,再点击“文件”->“另存为”,会看到最后一个下拉框中显示有“UTF-8”,这说明记事本认为当前打开的这个文本是一个UTF-8编码的文本。而我们刚才保存时是用ANSI字符集保存的。这说明,记事本猜测了“连通”文件的字符集,认为它更像一个UTF-8编码文本。这是因为“连通”两个字的GB-2312编码看起来更像UTF-8编码导致的,这是一个巧合,不是所有文字都这样。可以使用记事本的打开功能,在打开“连通”文件时在最后一个下拉框中选择ANSI,就能正常显示了。反过来,如果之前保存时保存为UTF-8编码,则直接打开也不会出现问题。

如果将“连通”文件放入MS Word中,Word也会认为它是一个UTF-8编码的文件,但它不能确定,因此会弹出一个对话框询问用户,这时选择“简体中文(GB2312)”,就能正常打开了。记事本在这一点上做得比较简化罢了。
---------------------
作者:Zhiyuan_Ma
来源:CSDN
原文:https://blog.csdn.net/Zhiyuan_Ma/article/details/51838054
版权声明:本文为博主原创文章,转载请附上博文链接!

出0入93汤圆

发表于 2019-1-11 16:33:28 | 显示全部楼层
adcr 发表于 2019-1-11 16:12
记事本保存“联通”的原理分析
简单分析:

文本文件看似简单,其实也挺混乱,最早就有windows和unix换行不统一的问题

出0入442汤圆

发表于 2019-1-11 16:39:14 | 显示全部楼层
其实记事本只是使用系统默认编码打开文本文件,有UTF8头就切成UTF8,有Unicode头就切成Unicode,什么都没有我也不清楚。毕竟,它只是个最简单的文本工具啊!!对它期待那么高干毛线?

出0入0汤圆

发表于 2019-1-11 16:43:34 | 显示全部楼层
哈哈,notepad2也有“联通”这个bug

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出45入88汤圆

 楼主| 发表于 2019-1-11 16:50:20 | 显示全部楼层
adcr 发表于 2019-1-11 16:03
你打开一个WINDOWS记事本,写上“联通”两个字,保存关闭后再打开,你看到了什么?
你打开一个WINDOWS记事 ...

移动正常显示,联通乱码。

出0入0汤圆

发表于 2019-1-11 16:52:35 | 显示全部楼层
本帖最后由 hyz_avr 于 2019-1-11 16:56 编辑

可问题是楼主这两个文件,头是一样的,只是最后多了一个字节.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入0汤圆

发表于 2019-1-14 10:23:06 | 显示全部楼层
Earthman 发表于 2019-1-11 16:43
哈哈,notepad2也有“联通”这个bug

我难道下载了假的NotePad2~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入0汤圆

发表于 2019-1-14 10:24:51 | 显示全部楼层
heimareed 发表于 2019-1-14 10:23
我难道下载了假的NotePad2~

好像Notepad2有个配置文件问题,还有个测试配置的文档。这里一并上传~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入0汤圆

发表于 2019-1-14 12:40:26 | 显示全部楼层
试了下,从表面上看好像和文件长度是奇数还是偶数有关,毕竟 Unicode 编码是 2 字节一个字符
LZ 提供的 unicode.txt 再结尾再加一个 # (0x23) 字符,打开就是正常的,如果多加 2 个 # 字符,打开仍然是乱码

深层的原因就没去查了,不知道 Notepad 是怎么判定字符集的
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-3-29 05:43

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表