范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作

  本文由《万物》杂志官方微信 "把科学带回家" 提供
  撰文 七君
  我们想要搜索某个网站、某条新闻,在搜索引擎里输入几个关键字就可以了,很方便。一些软件甚至可以通过拍照识别题目,然后给出解答。但是,在网上搜索某本书里的内容却很难,除非这本书已经被转成了电子版。
  如果能把市面上的书都变成电子版,那么几千年前古人的思想也能上线,TA的言论和当代明星的发言一样可以通过网络被搜索到。古往今来的思想家一下子就在网络上"重生",鲁迅曰没曰过什么搜一下都能知道,这是一件利在千秋的好事呀。
  谷歌创始人也有这个心愿,联合创始人之一的谢尔盖·布林曾说:"人类几千年的知识,或许是最高质量的知识都在书本里。"
  2002年,谷歌启动了雄心勃勃的书籍数字化项目 Project Ocean,想要创立一个全球最大的数字图书馆。谷歌的设想是,只需要一台能联网的电脑,你就可以搜索和阅读数千万本书籍,就和浏览网页一样方便。
  2004年,谷歌开始正式扫描。密歇根大学、哈佛大学、斯坦福大学、牛津大学和纽约公共图书馆纷纷加入了进来。
  2010年,谷歌宣布要扫尽全世界的1.2亿本书。根据2015年10月28日《纽约时报》的报道,谷歌已经扫描了超过2500万册书籍了。
  为了扫描这些书,谷歌年支出4亿美金,设立了专门的扫描中心。在这些扫描中心里,设置着专门的扫描架子,上面配有上千美元的光学镜头,还有用来探测书页曲率的光学雷达LIDAR。
  谷歌的7508978专利里采用的扫描技术。
  为什么不用传统的扫描仪呢?
  因为一些书比较老旧,也比较厚,不能暴力压在扫描仪上扫,更不能拆开,只能自然摊开。因为这个原因,扫描完的书页其实是弯曲的,为了自动把页面捋直,谷歌还自主研发了一套技术,并申请了专利7508978。
  这个技术属于光学字符识别(Optical Character Recognition),可以理解为一种后期技术。谷歌的这个专利可以把弯折的书页自动铺平,并把图片里的文字转化为字符,让我们能够用关键词搜索到。随着这个项目技术的进步,一开始一本300页的书要40分钟扫完,现在已经可以做到一小时扫6千页了。
  看起来谷歌的扫书技术非常高大上,是吗?
  其实,谷歌扫书设备并不是完全的自动化,有一个步骤还是需要手动,那就是翻书。人类操作员翻一页书,踩一下踏板,扫描设备就扫一次。
  本来这件事儿是谷歌的商业机密,但是后来被一位叫做 Andrew Norman Wilson 的艺术家曝光了。
  Wilson 说,他曾在2007年在谷歌加州的 Mountain View 园区工作过,那些负责书本扫描的员工的工牌颜色和正牌员工不一样,也不能享受他们的福利,比如骑谷歌自行车,免费员工餐,还有公司的班车。后来,他还专门把谷歌图书里出现的戴着套子的手指书页截图收藏了起来,大家来看看——
  当然,谷歌也不是没试过全自动扫描。从公开的专利记录来看,谷歌的一个叫做 Dany Qumsiyeh 的工程师就曾设计了一款价格很并夕夕的全自动扫描仪。
  这个小哥造的自动扫描仪原型机只需要1500美金的材料费。使用的字符数字转化软件也都是开源的,意思就是不要钱。
  它工作起来是这样的——
  书被架在一个三角形的金属架上面来回运动。在经过这条缝的地方,下方传感器会扫描页面——
  在书经过这个开口的地方,就会翻页。
  这个翻页的技术看起来也很简单,就是用吸尘器一样的装置把一页纸吸住,然后让它自动滑到三角架的另一边去。
  小哥用了50来本不同类型的书做了测试,其中60%的书都能用这款扫描仪扫。整体来看300页的书只要半小时就能扫好。
  不过可惜的是,这款原型机在扫描时,45%的书出现了折页或撕破的情况。
  虽然小哥的全自动扫描仪在2011年被谷歌申请了专利(US8711448B1),不过谷歌允许任何人无偿使用这种设计,看来是不太看好它的前景了。
  谷歌允许无偿使用这种全自动扫描仪设计。图片来源:code.google.com/archive/p/linear-book-scanner/
  难道说都2020年了,世界上还没有真正的全自动扫描仪吗?
  有是有,但是贼贵,而且出错率未知。世界上第一台全自动扫描仪是瑞士4DigitalBooks 公司制造的DL (Digitizing Line) scanner,斯坦福大学在2001年入手了一台。
  4DigitalBooks 公司制造的全自动扫描仪
  Kirtas 公司也有全自动扫描仪,是靠一个类似人手的机械臂上的真空吸口翻页的。
  但是,Kirtas 家的扫描仪可不便宜,价格最低的型号也要9千美金一台,家用是不太可能了。约翰霍普金斯大学在2008年购入了 Kirtas 家出的一台APT 2400。上海商学院的古籍部也曾入手一台用于无接触扫描古籍。
  另外一家比较大的自动扫描仪公司出品的 Treventus ScanRobot 也是一页一页吸纸,边吸边扫描。这个机器刚上市的时候价格达到了10万美金。
  2012年,东京大学的 Ishikawa Oku 实验室也研发了一款更为华丽的全自动扫描仪 BFS-Auto。
  它每分钟最多只能扫300页,尚未达到量子波动速读的水平
  。
  但是,它却可以实时追踪页面的3D形态,页面色彩和曲度可以自动数码矫正。
  东京大学的这款全自动扫描仪翻书不是靠吸,是靠吹,机器吹,不是嘴巴吹。
  根据该实验室的测量,这个翻书仪的成功率达到了100%。希望这种自动扫描仪能早日平民化,这样学生党就不需要扛着一手提箱的书上学了,复习查资料也会更方便。
  当然,以上都是技术层面的探讨,数字化书内页还有很大的法律风险。
  因为动静太大,2011年谷歌陷入了和出版商以及作者的官司,原告们不希望谷歌将自己的作品无偿地公开化,供人免费搜索和浏览。
  虽然2013年谷歌赢了官司,但看起来这个图书项目陷入了死胡同,总之现在我们不清楚谷歌是否还在继续扫书,新扫的书是否能被大家看到。其他财力和技术没这么雄厚的搜索引擎就更不用提了。
  诸子百家的肉身虽然已经上了天,他们的思想什么时候才能全体上"云"端呢?
  - 请介绍一下你在谷歌的工作。
  - 我就说3点:一,我做的是谷歌工程师也无法解决的事;二,和程序员一样,我用的是人类区别于其他动物的最重要的解剖结构;三,我的工作是保密的,谷歌不希望别人知道。

外太空的星球生存环境这个文章是针对地球环境问题和人类对宇宙的奥秘进行了分析如有雷同纯属巧合类地球B22经过多年研究全世界对外太空的事物一直在探索发射了探测器对银河系外的星系探索至今,世界各国的科学家都1969年以来人类了解到的关于月球的25件事几个世纪以来,月球一直是人类无穷无尽的魅力之源。它距离地球大约240,000英里,是我们唯一的天然卫星,也是夜空中最大的可见物体。它受到诗人的称赞,被认为会影响我们的情绪,并被科学哈勃发现向一侧倾斜的煎蛋星系被卷入一场拔河比赛中据外媒CNET报道,螺旋星系是一种壮丽的天体奇观。它们的星系中心看起来特别亮,并有从该中心延伸出来的弯曲旋臂结构。我们自己的银河系就是一个螺旋星系。哈勃太空望远镜近日观察螺旋星系N日本计划探月宇宙探险公司向月球发送JAXA研发的250g超小型探测器在月球进行月球商务探测的日本宇宙探险公司ispace发表了将JAXA的超小型探测器运往月球的计划。ispace宣布,使用正在进行开发的月面着陆船,将JAXA(日本宇宙航空研究开发机多图高能来袭!超级血月在全球各地亮相,错过要等150年5月的满月将是2021年唯一的月全食,并将与今年最大的超级月相吻合。在世界的某些地区,人们会看到与月球在其当前轨道上最接近地球的点重合的月食,这使其成为月球月食,这会使月球偏红,也无限清洁能源畅想可控核聚变的美好明天核聚变是为恒星提供动力的引擎,也是能源技术的圣杯。一个工作状态下的聚变反应堆,可以为世界提供几乎无限的能源,安全且没有有毒的副产品。虽然我们掌握了热核聚变的氢弹技术,但如何将瞬间爆基于光谱仪的激光焊接在线监测技术等离子体是激光深熔焊接过程中由金属蒸气发生电离作用而形成的,其自身蕴含着丰富的焊接过程动态信息。当激光能量密度大于物质的烧蚀阈值时,物质会从基体中剥离,这一过程中伴随着大量等离子体什么是大型强子对撞机?世界上最强大的原子粉碎机取得了一些突破性的发现。在这里,大型强子对撞机显示在2022年4月22日,这天原子粉碎机在经过三年的午睡后再次为Run3重新启动。大型强子对撞机(LHC)是房产相对论牛顿持有绝对时空观,但相对论认为在我的参考系看你的钟,你的钟是慢的,而你在你的参考系看我的钟,也会认为我的钟是慢的,快慢是相对的,不存在究竟是谁快谁慢的问题。按照狭义相对论,当运动宋圭武猜想(99)人类观察宇宙要考虑维度误差宋圭武猜想(99)人类观察宇宙要考虑维度误差一般而言,空间越小,维度越小,尤其在粒子世界,维度更小。所谓弦,实是极小粒子在三维以下空间的一种表现。极小粒子,在三维以下空间,接近于二王亚平成功摘星,航天时常超所有航天员,颜值是最不值一提的优点出差半年,摘星星的妈妈回来了!4月16日,神舟十三号载人航天飞船在完成所有任务后成功着陆,在太空中飘了半年的三位航天员翟志刚,王亚平,叶光富也回归地面,再次感受到了来自地心引力的召
辩证唯物观也要更新外宇宙课学存在决定意识对不对?存在是什么?存在的字旁一丿l是行的一半,行字二横二撇二竖,存在有灰的空间意义,灰换成辉,即光辉的辉,取辉的音义即光灰。光灰磁尘是构成物质的基础,磁尘是立方剩余律判别质合外宇宙课学为什么要研究质合数性,很多人并不清楚,质合是时空概念的抽象对象,时空是物化的抽象对象,质合又是语数的工具对象,质合是行为科学的文明数量和质量的等效。寻找质合判别方法是构建杨振宁的宇不对称的说法有讨论之处外宇宙课学天体的运动的精确度很高,你无法想象。如,在110130的概率下用一秒的时间选择真理的唯一,见生命的起始点一书这是生命选择能力,当然不是所有人都能达到。天体运动的精确度更高理解11的应用是产生自由意识的基础外宇宙课学11的广义当意识的自由度达到一定时,主客观的意态识别力是无穷的。数学复数式abi也是11的简式。数理证明11陈景润就是终极,斐波那契数列是11应用的解释义,斐波那契数列的就ampampquot大爆炸之前的宇宙,到底发生了什么?ampampquot的文章,我的看法外宇宙课学这是我在好运万年历的评论区发的文原创别人怎么假设设想而没有定论的我们传播了,说法将变得越来越奇。植物有水可发芽,蛋一定的加热可为虫科鸟界,物质一定的运动形成生命,能量运动答ampampquot宇宙中存在人类的意义是什么ampampquot外宇宙课学评很多人对生命本质的理解有自己的概念,这没有什么不好,生命是多样的,不可重复。1。有的说生命是必然或偶然的产物,并不准确。就目前而言宇宙产生是偶然的,即无条件的,必然是偶宇宙速度与圆周率的尺规关系外宇宙课学第一宇宙速度7。9千米,二11。2,三16。7,为了好看同时乘10,或千米变百米,79112167。第四宇宙速度是多少你应该知道了,为什么?先回答33554432,为什么人的意识行为是宇宙运动的缩影外宇宙课学人类生存在虚假真实叠加的空间宇宙中,有机生命是二性的,如公母,雌雄,男女。但无机生命天体具有四性存在。为什么呢?无机生命是无机化学的一个物理表达。化学反应具有四个基本方式小说文化考古篇外宇宙课学山川蜀道农河拟三皇南西北东中喻寓五帝小说文化考古。1。山海经考古。山海经分为山水荒,即山文化圈,水生活文化圈,打荒即开荒农业文化圈。三圈拟音意皇义荒三条活动带,五帝即喻寓什么叫无机意识与有机思维的结合外课学宇宙我先谈一下,为什么主张用文字表达。而不是用声音图像语言表达。是因为我们使用的是汉语文字。汉语语言,是以逻辑思维为第一对象,表达的是哲学意识抽象思想目的。而音视语境是以哲学粒波束影勾股弧弦幅频周期电质心脑的统一续四外宇宙课学无理数不是无限循环用地球作比喻,无理数是地球范围海面循环无穷有限,只不过不是有限无穷,遵循戴德金数学属性分割原则,可戴德金分割不是完美分割。戴德金分割是无理数分割,还有超