咋一看这书的名字,都会以为是一本数学书,但其实跟数学关系不算很大。作者吴军,清华毕业,去美国读博,研究语音识别,自然语言处理。毕业后在Google做搜索,现在在腾讯。这书《数学之美》,主要是作者在Google黑板报上连载的系列博客整理合集。不到300页的书分了29章,内容比较广,有涉及一定的数学知识,不过没有深入讲,大部分是科普性质,点到为止。
书本开头介绍了语言处理的发展历史。在上世纪70年代以前,所有科学家考虑机器处理自然语言问题时,都是按照人的思维模式,希望通过语法规则去分析语言样本,然后解析出各种要素。这样的处理方法计算量非常大,并且规则复杂多变,所以70年代以前自然语言处理没什么进步。而后统计语言学的出现使得自然语言处理快速发展,直到现今为止,基于统计的文本处理,语音识别,已经非常准确了。介绍了语言处理的发展历史后,科普了一下统计语言模型和隐含马可夫模型,还有语言处理相关的一些算法和数学知识。
接着书本开始讲搜索引擎,先介绍了搜索引擎的粗略模型。其实搜索引擎就是写一个网络爬虫,不停的从网上扒数据下来,然后在这些海量的数据里找出用户想要搜索的东西给用户。这个过程中会用到的许多算法和数学知识,书中也简单的介绍了。例如网络爬虫编,信息的特征向量(怎么知道两篇报道都是讲体育新闻的),网页排名以及对应的作弊反作弊等等。
最后书本中还介绍了一些其他相关或不相关的知识,包括密码学算法,布隆过滤器,贝叶斯网络,维比特算法,云计算等。还介绍了几位大神(贾里尼克、辛格、马库斯)的事迹以及学术贡献。
除了数学、算法以外,在作者的字里行间,传达了两个思想我觉得很有价值。一个是大道至简,一个是以道御术。大道至简讲的是作者在语言处理以及搜索引擎上面工作多年,发现好的算法、数学模型,都应该是简单的,而不是复杂的。这个理念同样被乔布斯在工艺设计,美学上极力推崇(Simple is Beautiful)。至于以道御术,术指的是做事情的具体方法,道指的是做人做事的道义道理。无论是做技术,做事,还是工作生活,都有“术”与“道”之分,我们要善于以道御术。这一点的确值得我们多多思量。
总的来说,《数学之美》这本书以点盖面的介绍了很多语言处理与搜索引擎相关的算法和数学知识,尽管有些看不懂,很多仅仅是一带而过,但让我们这些外门汉对这些领域有了一定的了解,增长了见识,还是很有意义的。