李开复谈Google书籍搜索:孔子的英文译书随便读
2019-7-22
李开复:今天我们想谈一些Google公司的使命和传承文明。大家都知道Google的使命是整合全球的信息,让人人收益。这里面很重要的一点信息是全球应用的软件。今天我们在网上有几百亿的信息可以搜索到,有时候我们一说搜索几百亿的网页。我们认为太好了,很多信息在网上搜索就可以了,其实并不是这么简单的,因为搜索还有很多技术上的问题,另外还有很多知识的精华无序散落在天下海角,不是一个数据的信息,也不是上网的信息。还有很多书本,过去很多人在看,经过的一段时间就已经下架,甚至面临绝版。我今天早上在我的书架上面拿了几本书,这两本书是《追随智慧》和《成长》(音),非常好的书,现在可能买不到了。另外一方面可能是出版商版权问题。
这本书是我大学时候的课本,文言文入门,这本书特别适合中文半懂不懂的人,很理解西方的这种哲学,但是对中文和东方的哲学都不是很理解的,这本书一年卖不了多少本,所以我也担心它会绝版,其实每一本都是非常有价值的。
我想世界上可能还有非常非常多这样的书,他们每一年都在出版,每一年也在绝版,每年几十万本的书面临绝版的命运,这些书绝版以后,人类星火相传的渠道就丧失了。这是多么可惜的事情,所以我们今天想要谈的Google图书搜索,怎么样经过Google图书搜索把所有的书,包括面临绝版的书能够数字化,能够让它上网,让人们能够获取它。基本的扫描就需要12亿美金的代价,才能把这样一个浩大的工程做起来。Google的使命是整合全球的信息,那这个全球的信息其实90%尚未上网,把这些信息一步一步的上网,我们认为是有意义的事情,也是很有社会责任感的事情,也是值得做的事情,符合我们使命的事情。Google做事情主要看它是不是符合我们的使命,带给人类一些价值。Google真正的意义是让这些可能绝版的书,或者不是特别畅销的书能够一本一本的让人们能够同样的搜索到,所以它真正的意义是,希望把知识的触角延伸到网络之外,延伸到数字化信息之外。因为知识就是力量,人们能够平等获取知识的机会是无价的。
所以我们今天想谈是我们在国外、全球和中国要进行的图书搜索合作伙伴的计划。我们看到国外几乎能认识的每一个大的出版商,包括,、,几乎每一个能够想象的大的出版商都已经成为了我们的合作伙伴,我们和他们合作的方式非常简单,我们把他们所有的提供的书本数字化扫描进入电脑,进入我们的索引,当你搜索一本书的时候,无论你搜索这本书的哪一页,哪一串字都可以。但每一个用户只能看附近的执页,他要阅读正本书还是需要花钱买或者去图书馆借。我们今天很高兴在中国跟两个非常大的出版社合作,他们是清华大学出版社和少年儿童出版社进行合作,在不久的未来就可以在搜索里面看到他们的书的内容。
这个图书搜索如何使用?就像我们上网的时候找一个网上的内容。图书搜索跟网页搜索是一样的,图书搜索也是输入一个关键词,这个词不一定需要书的名字或者作者的名字,他就会找到所有匹配关键词的书,然后合适的做一个排序,让你们获取这个书,这两者其实是非常相像的。也有人问到版权的问题,其实是一样的,网页有很多内容也是有版权的,书本里有很多内容也是有版权的,我们并没有把已有版权的内容拿来传播,也不能经过Google获取,我们只是把所有的扫描做一遍,变成一个索引,让用户能够找到相关的书,最后他要上这个网站或者去图书馆借这本书,那是搜索以后的情况,所以常规搜索和图书搜索是非常一致的,用户也可以非常方便使用这样一个方式。
搜索有三种不同的结果,最多的是中间这一种,就是你搜索到一个结果,比如你搜索孔子论语,你可能阅读里面三页或者五页这本书,如果想再读更多,你就需要购买或者图书馆借,左边会有少数的书,我们还没有做扫描,比如一本很老的书他根本没有扫描,我们还要做文字识别,把里面的一个图片变成一个文字,这个工作如果还没有做的很完善,我们只能提供右边样面的展示;当然还有20%的书可以整本在网上阅读,这些是那些版权已经过期的书,完全是合法,公开给全世界浏览的书,才会呈现整本的内容,这是三种不同的模式。
在我讲技术和投入之前,我们先来做一个演示。刚才曾经看到几本书,今天早上拿出来这本书《文言文入门》,做了这本书搜索之后,我们会很惊讶的发现这本书虽然是1968年写的,依然还在出版,我以为它绝版了,但是还依然可以看到我在大学里面学的文言文,目录什么都在里面,你可以逐页浏览。内容其实是中文的书,我们可以浏览四五页左右。你如果要购买这本书,你直接可以到大学购买,你也可以到亚马逊或者其它图书馆购买。你如果想知道更多,就可以在这里做更多的搜索。这个例子可以看到,我们刚才曾经谈到有三种模式:一个模式应该是第一种,样页现实,因为我们大学扫描进去以后,这是一个英文的出版社,是美国人在搜索的,所以OCR一页一页并没有很好转换成英文,你如果是一个外国学生懂一点中文,想学文言文的话可以搜索这本书。我们今天其实可以已经搜索到不少的东西,比如说我们输入孔子,就像Google的一样,最好的几个结果确实是孔子最有代表的书,比如《论语》、还有其它有关于孔子的书,比如我们挑这本书,这个是英文书,它不但可以阅读,也可以看到图片的地方,这样可以让你很方便的知道是不是你需要的书,这里面一共可以读五页左右,这个时候你如果买书可以网站传输,有四五个最大的购书网站,你如果还想知道这本书里面更多的信息,比如孔子《道德》的字是怎么定义的等等;再往下还有它的版权,它的目录都可以看到,就像搜索一个网页一样的方便;他更方便的是旁边有许多帮助你的工具。
最后有几个广告在下面,第一个是可以下载孔子的照片和经历,把它放在你的桌面上,第二个更有趣的手机铃声,我们看到很多例子,这些例子里面还可以购买旧书的,有些书我们可以收录的。
这是我的一个朋友最喜欢的书,他说被人借走以后就失传了,这本书是《二次大战》的时候美国和日本很大的一个战争,中途岛战争,因为大家读这个历史都是看美国的观点,这本书是两个日本的军官写的,这本书英文卖得很好,后来就绝版了,后来这个朋友上Google上面发现有一个书店可以买到这本书。
我们刚才看到两本林志军的书,成长的智慧,林志军虽然没有出过英文的书,但是你可以看到这本书里面是两位美国学者写的,但是他里面谈到林志军,这本书87页都是讲林志军的,可见这个人是非常有影响力的。如果你搜索我的名字就发现,我的英文并没有出很多的书,但是很有趣的是我的两本书,一个是博士论文,还有一本书。你要继续搜索会谈到“深蓝”(音)计划,下面还有很多语音识别,你也可以看到这里有一个人把我的名字卖广告,这里确实有不少的文章和书可以在网上搜索的,永远超过我们的想象。
我们再回到孔子的例子,我们可以找,就是那些书如果版权已经过期了,在网上呈现整本书,这个时候我们就看到了好几本书,这本书是1910年做的翻译,版权早就过期了,所以我们可以在这里可以阅读,《孝经》在网上也可以看到。因为这本书是1910年所写的,你可以看到这本书的一百零五页,可以完成进行浏览。如果你实在想购买这本书,在是不会买到的,但是我们可以在网站上做搜索。你也可以发现每一本书出现的书店都不太一样。虽然1910年出版的书早就找不到了,但是有一个人愿意2块9毛5美金把这本书卖出来,他描述的是很好的一本书,而且这个书也没有受损,当然也可以免费在网上阅读。
最后我介绍一下技术,这个过程要怎么样把无线的信息编程在线的信息。这上面是我们自己发明的书本扫描器,如果是一个新书他有数字版,直接E—mail给我们就可以了,但是如果是一本没有数字版的书,我们就可以像其它的人一样把它切了,一本一本扫描进去,如果这个书已经绝本,你是不是切的,这样的话就很浪费的,所以我们有一个翻书机。
我们能够找出这些页面里哪些是图片,哪些是文字。比如我们要把页面的颜色去掉,编程纯的黑白或者蓝白色的,你看哪些是图片,哪些是大图片,每一个文字从上到下是这么下来的,这样的技术怎么做一个页面倒排版;还有一个问题,文字里面有很多数学的公式,你如果简单用OCR识别起来会有很多的错误,懂数学的人不会愿意好好的一个数学公式做成右边这样一个图的样子,我们利用扫描技术就可以做出很好的格式。世界信息的90%都不是上线的,如果我们把全球的信息都能够收入进去,我们会需要十倍更多的数字量和服务器量,那就是Google计算机技术的架构所带来的。我想Google的特性就是廉价强大,成本低,稳定性高。
我记得以前我在第一个公司工作的时候,我老板跟我说,你做所有的工作就是你是你下面的准则更快,更小,更便宜,最多选两样,往往只能选一样,而计算机行业就是把一个东西做小了之后,他可能就变慢了或者变贵了,做快了以后可能就做大了,你如果想把一个东西做的又小又快又便宜那是不可能的,但是在Google里面我们可以把这些服务器做的又快又小又便宜又稳定,Google不能上网以后,就说对不起今天来搜索书本的人太多,今天不能看孔子的书,不能做这样的事情,所以我们会把可靠性做的非常好,我们有很多后台服务器。加入了Google之后,才知道不是Google的技术,而是后台的数据中心怎么做的,我们怎么样做一个环境,能够让上圆台的数据内容运作,包括书本包括其它的信息,而在信息坏了以后能够很快的替换。
97年在一台又一台服务器借用,一直到了99年搭成了服务器的,我们看到当时有很多错误,到了2000年的时候做的就更好了,天线放在前面,只有碰到新的问题,这么多机器,做的这么小,这么快产生的很大的热量,所以你可以看很大的服务器冷却器在这个地方,也有人叫电扇,到了02年我们就把这个过程做的很完美了,我们就可以在三天之后做很好的网络的服务。
就是在这样一个技术的前提下,很好的服务器,很好的方式,书本能够扫描进去,然后做很好的后续工作,我们希望经过一步一步的努力,能够让全球,包括中文的书籍的内容能够放到网上,让更多的人获取,一方面更多让中国用户获取更好的信息,另外一方面也可以帮助中国精神的文化传播给全世界,我的介绍到此结束,大家现在可以提问。