百度百家：重建全景加德满都，需要什么技术？

贾伟中科院合肥 · 发表于 2015-5-3 18:47:57

http://chengzhe.baijia.baidu.com/article/56464

重建全景加德满都，需要什么技术？承哲05月02日 17:47
[backcolor=initial !important][url=]分享到：[/url]

加德满都尼泊尔图像识别

分类 : 互联网

摘要 : 复原3D全景的加德满都，会主要用到怎样的关键技术？我也借此科普的谈一下我们这方面的科技究竟发展到了何种程度。

在《速度与激情7》这部电影中，影片方为了保证影片的完整性，在这部电影中利用技术复活了已逝演员保罗沃克，其结束曲《see you again》让人怀念无穷。此次尼泊尔遭遇8.1级地震，大量千年古迹被毁于一旦，而百度则在此次顺势推出了"See you again 加德满都"活动，用户可以上传大量的加德满都古迹的图片，百度就会通过这些图片对加德满都的古迹进行3D全景还原，目前正在进展中，有兴趣的朋友可以可以通过http://pai.baidu.com/sheyingshi/earthquake/index参与，那么此次复原3D全景的加德满都，会主要用到怎样的关键技术？我也借此科普的谈一下我们这方面的科技究竟发展到了何种程度。

一，图片大数据处理技术

对于百度来说第一件要处理的事情就是收集用户上传的海量照片，用户上传照片后就将这些照片保存起来并且读取。这些都没什么技术难度，在图像大数据技术上我们可以谈谈其他的，为什么百度需要用户上传大量的对应的古迹图片？

当我们在图片搜索引擎中搜索“猫”后，就会真的出现大量关于猫的图片，而这背后就是因为有机器贴标签的原理，因为有海量的用户上传猫的图片，所以通过海量的数据机器可以识别出猫这个种类大概是长什么样，对于猫这个种类有了较为精确的描述，而相关图片会被贴上“猫”，“波斯猫”，“伯曼猫”等等标签，当用户搜索后“猫”后就能出现对应的这些图片。

那么对于百度来说，搜索“巴德岗杜巴广场”是可以搜到对应图片的，但是由于这些图片的数据过于稀少，无法对一个古迹进行更为准确的描述还原，这也就导致了机器所赋予的标签不够精确，会让很多不是“巴德岗杜巴广场”的图片参入其中，也就很难重建“巴德岗杜巴广场”的3D场景。而对应的，如果百度要重建故宫，由于是国内知名景点所以肯定有很多人上传了海量的故宫图片，而机器就能通过这些海量的图片来为故宫进行精确描述，也就有了大量精准的“故宫”标签图片，所以百度如果要重建3D全景故宫可能就只是分分秒的事情。

所以，图片大数据的“全”，是重建加德满都的必须条件。

二，图片识别技术

前面说的是需要有了大量的图片机器才能够对一个事物或者一个分类进行准确的描述，那么现在再回退一步，机器又是如何识别图片的？这最初的0到1的过程是什么？

对于我们人来说，看到一张猫的图片后就会轻而易举的得到结论，那是一只猫，但是对于机器来说，那只是二进制的点阵图，在机器眼中看到的只是一个个的像素RGB色块，以及每一个小色块在这张图中所对应的坐标位置，所以你眼中的猫，对机器来说永远只是一团模糊的二进制色块而已。

在图片识别之前，百度做的最多的是对一维文字信息的加工和处理，比如对“猫”可以进行属性描述，比如可能给猫相关的某些图片贴上“可爱”，“猫科类”，“尖耳朵”等各种标签。所以现在对图片做的就是转化，通过提取相应的特征向量，

将二维信息转化到一维信息中，识别出图片里的主要东西到底是什么，而这之后的一切便能引刃而解。

所以图像识别中最为关键的技术就是如何通过各种函数将二维信息的点阵图转变为机器可以读取的一维信息，这是一个非常复杂的高维转化的技术。而这一技术也是构成加德满都从0到1复活的第一步。

三，CBIR，基于内容的图像检索

所谓CBIR（Content-based image retrieval），基于内容的图像检索，是图片识别技术的分支，因为这里比较重要所以需要重点拿出来。指的是通过输入某一张图片得到其他相似结果图片，这是一个检索技术，李彦宏认为未来几年语音和图片搜索的总需求会到原来达文字搜索的50%，所以百度一直在重点布局该领域。

再仔细解释一下该技术，该技术在电商领域就十分需要，因为当用户看到某个喜欢的衣服后十分想要买到这件衣服，之前没有图片搜索的技术所以无法找到，但是在有了该技术后用户就可以顺利买到自己想要的衣服，这就非常方便了。

那么该技术在复活加德满都古迹有什么用处呢？因为用户上传的图片一定是非标准的，比如某个用户上传“巴德岗杜巴广场”图片，百度就有可能收到早上的或者晚上的，可能是靠左边拍的照片，又可能是靠右边拍的照片，可能是拍的正门，又可能是拍的街道，可能照片里面有人，又可能照片里面没人......那么机器在这个时候该怎么办呢？这就需要用到CBIR技术了，通过该技术找到这张照片的其他相似照片，进而确定这张照片所拍照的位置，再提取其中对重建“巴德岗杜巴广场”有帮助的模块。

再做一个比较牵强一点的比喻，就好像我们玩拼图，你需要找到这个拼图的位置，那么就要找到附近与其差不多的拼图，然后就拼到一起了，而CBIR就是这么一个原理。

四，三维重建

将二维图片转变为三维全景，从技术上来说也是比较成熟的，而且百度谷歌腾讯高德的街景地图也已经做的不错，只要图片大数据齐全，就不难完成。

这些上传的图片通过机器的大数据处理后，对应的模块都被自动贴上了对应的三维标签诸如“坐标24，43，63”，“光线强度34”等等关键的三维标签数据，最后需要做的就是将这些图片中的有用的关键点阵提取出来或者通过算法创造出来部分，放在对应的三维坐标上，最后我们通过手机或者网页打开后就能看到三维图形了。

这里的点阵不会被随意提取，还是像开头说的，提取的关键逻辑在于图片大数据的“全”，只有数据越全3D全景才能制作的越准确。目前“巴德岗杜巴广场”已经被还原到如下情况。还需要更多图片，希望我们可以一起贡献。

结语：加德满都作为一个拥有千年历史的古城，太多名胜古迹不辛在此次劫难中毁于一旦，但现代化技术却正在还原这个千年古迹的面貌，从某种意义上来说，科技正在越来越完整的保存文明，人类文明都在逐渐进入数字化的永生。衷心希望这些古迹都能全部在虚拟世界中永远复活，让我们再次看到心中所向往的那些圣地，最后就像本次标题中所说的“See you again 加德满都”。

我的微信公众号“首席发言者”：shouxifayanzhe

百度百家： 重建全景加德满都，需要什么技术？

相关帖子

百度百家：重建全景加德满都，需要什么技术？