我们知道,在受约束环境下(如文档处理)的字符识别技术,比方说 OCR 技术已经被研究得很透。但是对照片中的多字符文本识别却是个难题,因为这些照片中的字体、颜色、样式、方向、排列不一,再加上光照、阴影、镜像、遮蔽等环境因素影响,还有图像本身的分辨率、焦点模糊、抖动等问题。而传统的图像文字识别,一般要经过字符定位、分割和识别三个步骤,处理效率不高。考虑 Google 街景的每天上传的图片量,以往的这些方法显然缺乏实用价值。
为此,Google 开发了一套大型的神经网络来处理海量的 Google 街景图片中的门牌号识别问题。这个神经网络的代号是 DistBelief,其学名是深度卷积神经网络,我们之前曾介绍过这套会思考的深度学习系统。经过 DistBelief 训练的这个大型分布式神经网络,可以把定位、分割和识别三个步骤集成到一起,直接对每一个像素进行操作。其性能随着神经网络的深度增加而提高,在 11 层的时候达到最高。
根据论文的数据,该系统对 SVHN(街景门牌号数据集)中的门牌号识别率达 96%,而单数字识别率达 97.84%,对于 Google 街景图库的上千万门牌号的识别率也超过 90%。该系统每天可识别百万门牌号(不到 1 小时即可将法国的街景照片中的门牌号找出来)。目前该系统已经帮助 Google 从街景图中分析出全球近 1 亿个门牌号。