范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

锟斤拷锟(什么是锟斤拷?)

  锟斤拷锟(什么是"锟斤拷"?)
  周末女朋友出去逛街了,我自己一个人在家看综艺节目,突然,女朋友给我打来电话。
  图片来自 Pexels
  过了一会,女朋友回来了,她拿出手机,给我看了她在超市拍的照片:
  要想知道什么是乱码,需要先从计算机编码说起。
  字符编码和 ASCII
  我们经常看一些谍战剧,谍战剧里敌特、地下党员以及八路军各部间发送情报的时候,一般都是通过电报发送的。
  电报在传递的过程中,需要发报员用电键发出长短不一的电码,收报员就会听到电报机发出的滴滴滴答答答的声音。
  其实电报发出的声音都是"滴"和"答"的组合,"答"的声音是"滴"的三倍长。
  发报员要先通过一种方式,将想要发送的情报转成电报的滴答声,收报员在听到滴答声之后,再将它们翻译成正常的文字。这个过程就是字符编码和字符解码。
  谍战剧中将情报转成电报的"滴"和"答"声主要通过摩尔斯电码,这是一种通过不同的排列顺序来表达不同的英文字母、数字和标点符号的字符编码方式。
  莫尔斯电码由短的和长的电脉冲(称为点和划)所组成。点和划的时间长度都有规定,以一点为一个基本单位,一划等于三个点的长度。正好对应上电报的"滴"和"答"。
  就像电报只能发出"滴"和"答"声一样,计算机只认识 0 和 1 两种字符,但是,人类的文字是多种多样的,如何把人类的文字转换成计算机认识的 01 字符呢,这个过程同样需要通过字符编码。
  字符编码(Character encoding)是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。
  和摩尔斯电码功能类似,上个世纪 60 年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定,这被称为 ASCII 码,一直沿用至今。
  ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套计算机编码系统。
  它主要用于显示现代英语,其中共有 128 个字符,包含了所有的大写和小写字母,数字 0 到 9、标点符号, 以及在美式英语中使用的特殊控制字符等。
  由于 ASCII 只有 128 个字符,虽然对于英文字符都可以表示了,但是世界上还有很多其他的文字他是没办法表示的,所以需要一种更加全面的字符编码。
  在介绍其他的字符编码之前,我们先来说一下一个计算机领域通用的字符集。
  Unicode
  Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。
  它对世界上大部分的文字系统进行了整理、编码,使得计算机可以用更为简单的方式来呈现和处理文字。
  Unicode 至今仍在不断增修,每个新版本都加入更多新的字符。目前最新的版本为 2019 年 5 月公布的 12.1,这一版本只新增了 1 个字符,即日本新年号令和的合字。
  Unicode 备受认可,并广泛地应用于计算机软件的国际化与本地化过程。有很多新科技,如可扩展置标语言(Extensible Markup Language,简称:XML)、Java 编程语言以及现代的操作系统,都采用 Unicode 编码。
  Unicode 是一套通用的字符集,包含世界上的大部分文字,也就是说,Unicode 是可以表示中文的。
  UTF-8,UTF-16,UTF-32
  Unicode 虽然统一了全世界字符的编码,但没有规定如何存储。这么做是有考虑的:如果 Unicode 统一规定,每个符号就要用 3 个或 4 个字节表示,因为字符太多,只能用这么多字节才能表示完全。
  一旦这么规定,那么每个英文字母前都必然有 2 到 3 个字节是 0,因为所有英文字母在 ASCII 中都有,都可以用 1 个字节表示,剩余字节位置就要补充 0。
  如果这样,文本文件的大小会因此大出二三倍,这对于存储来说是极大的浪费。
  为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即 UTF(Unicode Transformation Format)。
  常见的 UTF 格式有:
  UTF-7
  UTF-7.5
  UTF-8
  UTF-16
  UTF-32
  UTF-8:使用 1 至 4 个字节为每个字符编码,UTF-16:使用 2 或 4 个字节为每个字符编码,UTF-32:使用 4 个字节为每个字符编码。
  所以我们可以说,UTF-8、UTF-16 等都是 Unicode 的一种实现方式。
  举个例子,Unicode 规定了 1 个中文字符 "我"对应的 Unicode 是 "\u6211",但是,在 UTF-8 和 UTF-16 等不同的实现方式下,这个二进制 Code 的存储方式是不一样的。
  UTF-8 使用可变长度字节来储存 Unicode 字符,例如 ASCII 字母继续使用 1 字节储存,重音文字、希腊字母或西里尔字母等使用 2 字节来储存,而常用的汉字就要使用 3 字节。辅助平面字符则使用 4 字节。
  GBK,GB2312,GB18030
  因为 UTF-8 是 Unicode 的一种实现,所以他包含了世界上的所有文字的编码,他采用的是 1-4 字节进行编码。
  对于那些排在前面优先纳入的文字,可能就优先使用 1 字节、2 字节存储了,对于后纳入的文字,就要使用 3 字节或者 4 字节存储了。
  正是因为他太全了,所以那些晚一些纳入的字符,在 UTF-8 中的存储所占的字节数可能就会多一些,那他的存储空间要求就会很大。
  对于常用的汉字,在 UTF-8 中采用 3 字节进行编码,但是如果有一种只包含中文和 ASCII 的编码的话,就不需要使用 3 个字节,可能 2 个字节就够了。
  对于大部分网站来说,基本都是只服务一个国家或者地区的,比如一个中国的网站,一般会出现简体字和繁体字以及一些英文字符,很少会出现日语或者韩文的。
  也是出于这样的考虑,中国国家标准总局于 1981 年制定并实施了 GB 2312-80 编码,即中华人民共和国国家标准简体中文字符集。
  后来厂商微软利用 GB 2312-80 未使用的编码空间,收录 GB 13000.1-93 全部字符制定了 GBK 编码。
  有了标准中文字符集,如果是一个纯中文网站,就可以采用这种编码方式,这样可以大大节省一些存储空间的。
  常用的中文编码有 GBK,GB2312,GB18030 等,最常用的是 GBK。
  GB2312(1980 年),16 位字符集,收录有 6763 个简体汉字,682 个符号,共 7445 个字符:
  优点:适用于简体中文环境,属于中国国家标准,通行于大陆,新加坡等地。
  缺点:不兼容繁体中文,其汉字集合过少。
  GBK(1995 年),16 位字符集,收录有 21003 个汉字,883 个符号,共 21886 个字符:
  优点:适用于简繁中文共存的环境,为简体 Windows 所使用,向下完全兼容 GB2312,向上支持 ISO-10646 国际标准 ;所有字符都可以一对一映射到 Unicode 2.0 上。
  缺点:不属于官方标准和 big5 之间需要转换;很多搜索引擎都不能很好地支持 GBK 汉字。
  GB18030(2000 年),32 位字符集;收录了 27484 个汉字,同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字:
  优点:可以收录所有你能想到的文字和符号,属于中国最新的国家标准。
  缺点:目前支持它的软件较少。
  乱码
  我们还拿前面介绍过的发电报的例子来说,假设有以下场景:发报员使用"美式摩尔斯电码"将情报转换成电报,收报员接收到电报之后,通过"现代国际摩尔斯电码"进行破译。那么得到的情报内容就可能完全看不懂,这就是乱码了。
  就像在计算机领域,我们把一串中文字符通过 UTF-8 进行编码传输给别人,别人拿到这串文字之后,通过 GBK 进行解码,得到的内容就会是"锟届瀿锟斤拷雮傡锟斤拷直锟斤拷锟",这就是乱码。
  如以下代码:publicstaticvoidmain(String[]args)throwsUnsupportedEncodingException{  Strings="漫话编程!";    byte[]bytes=s.getBytes(Charset.forName("GBK"));    System.out.println("GBK编码,GBK解码:"+newString(bytes,"GBK"));    System.out.println("GBK编码,GB18030解码:"+newString(bytes,"GB18030"));    System.out.println("GBK编码,UTF-8解码:"+newString(bytes,"UTF-8"));  }
  输出结果:GBK编码,GBK解码:漫话编程!  GBK编码,GB18030解码:漫话编程!  GBK编码,UTF-8解码:????????
  可以看到,将中文字符,通过 GBK 编码,再使用 UTF-8 解码,得到的字符就是一串问号,这就是乱码了。
  锟斤拷的前世今生
  因为 Unicode 是一直在更新的,在这个过程中,肯定有一些比较新的字符他是无法表示的。
  或者即使 Unicode 发布了新版纳入了某个文字,但是很多软件系统并未升级也会有这样的问题。
  就像生活中一些手机厂商新出的那些 emoji 表情,在自己的手机上可以正常显示,发到其他品牌的手机上可能就无法显示。这其实也是字符集不支持导致的。
  发生以上情况时,无法显示的时候也需要有一个字符来表示的,在 Unicode 中,这个字符就是 � ,他也是 Unicode 中定义的一个特殊字符。
  也就是"0xFFFD REPLACEMENT CHARACTER",所有无法表示的字符都会通过这个字符来表示。
  Unicode 官方有关于这个符号的介绍,从上表中可以看到,他的 10 进制表示是 65533,在 UTF-8 下,他的 16 进制形式是'0xEF 0xBF 0xBD'(三个字节)。
  如果有两个连续的字符都无法显示,如"� �" ,那么在 UTF-8 编码下,16 进制表示为:0xEF0xBF0xBD  0xEF0xBF0xBD
  以上这段编码,如果放到 GBK 中进行解码的话,因为 GBK 中一个汉字两个字节,那么结果就是:0xEF0xBF,0xBD0xEF,0xBF0xBD
  即:0xEFBF  0xBDEF  0xBFBD
  那么,如果展示出来,就是:锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)。
  所以,以后再见到锟斤拷,第一时间想到 UTF-8 和 GBK 的转换问题准没错。
  除了锟斤拷以外,还有两组比较经典的乱码,分别是"烫烫烫"和"屯屯屯",这两个乱码产生自 VC,这是 Debug 模式下 VC 对内存的初始化操作。
  VC 会把栈中新分配的内存初始化为 0xcc,而把堆中新分配的内存初始化为 0xcd。把 0xcc 和 0xcd 按照字符打印出来,就是烫和屯了。

象牙制品(违法的红珊瑚象牙制品)象牙制品(违法的红珊瑚象牙制品)日前,茂名海关对一批申报为项链手链耳钉等物品的23个包裹进行查验,发现疑似为红珊瑚制品和象牙制品。经华南野生动物物种鉴定中心鉴定,其中红珊瑚制品24寻宝我有国宝(寻宝盘点中国顶级国宝)寻宝我有国宝(寻宝盘点中国顶级国宝)在我们生活的这片中华大地上,承载着千年历史,孕育出无数令世人为之震撼的国宝。这些国宝已无法用价值连城来形容,因为它们都是无价珍宝,是国家的骄傲和兰州西固(西固何愁发展?)兰州西固(西固何愁发展?)在兰州市的三县五区中,西固也曾经辉煌过在建国后的重工业时期,兰州市的第一版城市总体规划(1954年1972年)中对于西固的发展规划中写到那时的西固像是兰州倾尽一生来爱你(我会一直照顾你,倾尽一生来爱你)倾尽一生来爱你(我会一直照顾你,倾尽一生来爱你)我想过把幸福紧紧地握在手中,就如我紧紧地握住我手中的笔一样,随心所欲地写满我想要的文字,或温柔,或强悍,或平淡,或张扬,或浪漫所以我五笔字根(认识一下五笔字根表图)五笔字根(认识一下五笔字根表图)横区(1区)11G12F13D14S15A11G王旁青头戋(兼)五一12F土士二干十寸雨,不要忘了革字底13D大犬三羊古石厂14S木丁西15A工戈草樱桃红了(树上的樱桃红了)樱桃红了(树上的樱桃红了)北方的五月仍有寒凉之意,一场姗姗来迟的春雨悄然洒落,复苏的花木贪婪地吮吸着甘露,沐浴着春雨的洗礼,肆意疯长。看着每片叶子在风雨中飘摇,心底涌起莫名的伤感,北上广不相信眼泪歌曲(北上广深真的不相信眼泪)北上广不相信眼泪歌曲(北上广深真的不相信眼泪)在北上广深奋斗过的青年男女们,你们好,作为一个曾经在北京奋斗过9年的一员,突然想跟大家聊聊,互相分享一下奋斗感受,曾经lt北上广不相信天津卫视求职节目(过往经历感动现场!)天津卫视求职节目(过往经历感动现场!)本期天津卫视非你莫属的舞台上迎来一位河北女生,由于父亲患病在家,她很早便进入社会,担负起家庭的重担,虽然曾经生活得很艰苦,她却没有放弃。坚强女北京卫视养生堂节目(北京卫视今晚播出)北京卫视养生堂节目(北京卫视今晚播出)西安发布讯记者今日从北京卫视获悉,北京卫视养生堂疫情防控特别节目今晚最新一期中将播出对钟南山的采访,权威科普防疫知识。节目组工作人员表示,84石家庄童装批发(石家庄进童装分享)石家庄童装批发(石家庄进童装分享)我拿一直是做建材的,前段时间的投资了一个童装店,在4月7号的时候正式开业,到现在开业有半个月了吧,先不说之前开店铺的两万块钱的货,自开业到现在有补石家庄服装批发市场(石家庄批发市场的衰落是必然的)石家庄服装批发市场(石家庄批发市场的衰落是必然的)历史曾几何时,改革开放初期肇兴于石家庄老火车站的批发市场名噪全国,在全国十大批发市场中石家庄曾占有其三南三条批发市场,新华集贸市场
绍兴开元寺(绍兴开元寺PK泉州)绍兴开元寺(绍兴开元寺PK泉州)2009年绍兴市国商大厦以9亿元高价拍得东街原绍兴市人民医院院址,作为扩商之用。人民医院的前身原为绍兴著名古刹开元寺。寺于后唐长兴元年(930)为吴杭州市民卡(三代社保卡可预约上门换领)杭州市民卡(三代社保卡可预约上门换领)都市快报讯谢谢你们,上门来帮我们办理三代卡换领,真的太方便了。我还要再帮我父母也换一下,以后他们的养老福利都能直接打到这张市民卡里了为全面推进浪琴表真假(浪琴表怎么鉴定真假?)浪琴表真假(浪琴表怎么鉴定真假?)名匠后台经常收到表友咨询关于手表鉴真的问题,鉴定行业都不能单纯用看去确定物品的真假,鉴定真假能力需要有一个循序渐进的过程,不仅具备强大的知识储备,丰田卡罗拉16自动(卡罗拉1。6自动挡落地需多少预算?)丰田卡罗拉16自动(卡罗拉1。6自动挡落地需多少预算?)卡罗拉是目前最火爆的紧凑级家用轿车之一,仅次于朗逸轩逸和英朗,位列第四。2018年前十个月共售出新车超过31万辆,平均月销过松花粉功效!(那么你知道松花粉的功效吗?)松花粉功效!(那么你知道松花粉的功效吗?)小时候奶奶都会给我们做松花糕,每年春天都会去采了松花粉给我们做松花糕。现在奶奶年纪大了,采不了松花粉了,所以我们也没有松花糕可吃了。采松花仙公山公园(福建泉州的仙公山)仙公山公园(福建泉州的仙公山)在福建泉州洛江区的马甲镇有一座高山,山势雄伟,双峰并峙如丫,老远望去就像两个妇人的头髻,因此人们把它取名为双髻山。根据记载,在古代如果遇到干旱,就到这罗技无线鼠标(罗技无线鼠标G系列全产品分析适用人群推荐)罗技无线鼠标(罗技无线鼠标G系列全产品分析适用人群推荐)对于鼠标来说,无线即是未来!其中罗技作为业内首屈一指的龙头品牌,在我们80后心中拥有无可替代的经典地位。所以无论是从理性还是三七粉多少钱(正宗三七多少钱一斤)三七粉多少钱(正宗三七多少钱一斤)三七的主根呈类圆锥形du或圆柱形,长16cm,直zhi径14cm。表面灰褐色或灰dao黄色,有断续的纵皱纹和支根痕。顶端有茎痕,周围有瘤状突起。体造型艺术(线条的处理,线的造型艺术)造型艺术(线条的处理,线的造型艺术)线条是世界上最简单也是最复杂的艺术,从绘画服装建筑室内设计到任何物体的点线面,没有什么是可以离开线性艺术的表现。点线面是平面设计中最基本的视觉要1微米等于多少毫米(微米和毫米的换算)浴巾我们经常用,一条舒适温暖的浴巾对我们来说非常重要哦,尤其是夏天使用率高到不行那么问题来了什么样的浴巾才是安全舒适又耐用的好浴巾,哪种又是避之唯恐不及的大坑呢?欧洲浴巾多用于沐浴ppr管规格(ppr管都有多大规格的)ppr管规格(ppr管都有多大规格的)家居装修水电现在都是必不可少的一部分,作为一种新型的水管材料,ppr管受到了很多人的关注和喜爱。因为水管行业有不同类型的管道,各种管道的特性也