您所在的位置:

【最强模式识别干货】谭铁牛院士谈模式识别:生物启发的模式识别是解决三大瓶颈的途径

2017-07-11 来源:人工智能学家

导语:7月7日,由中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)承办的「全球人工智能与机器人峰会」(CCF-GAIR),在深圳盛大开幕。中国科学院院士、英国皇家工程院外籍院士、IEEE Fellow、IAPR Fellow谭铁牛发表了题为《模式识别的回顾与展望》的演讲,作为大会最重磅的主题演讲之一,谭院士详细的回顾了模式识别的发展历史、现状以及发展方向。

1499744321604412.jpg

铁牛院士

谭铁牛院士首先介绍一下识别的基本概念,回顾了模式识别发展的历程,特别指出了模式识别目前发展遇到的问题——“三根硬骨头”,也就是鲁棒性、可泛化性和可适用性,重要介绍了对于如何突破三大瓶颈这一问题的思考。谭铁牛院士也对模式识别未来值得研究的方向做出了展望。下文是谭院士演讲实录,部分内容做了不改变原意的改动。


各位老师、各位同仁,大家上午好。

我今天主要讲三个方面的内容。第一是简单回顾一下模式识别这几十年的发展。第二部分说说模式识别的发展现状。第三部分是以我个人的视角,我觉得特别值得关注的几个研究方向。

模式识别这个概念对于今天在座的同仁们不陌生。模式是存在于时间和空间中具有可观测性、可度量性和可区分性的信息。识别是对各种有形的模式进行识别。


 模式识别本质上是要找到一个映射的过程


模式识别大概的步骤大家都知道,它本质上讲是要找到一个影射的过程。尽管模式识别是一个非常古老的话题,但是我这么多年做模式识别研究,还没有找到一个标准的定义。所以我在这里列出了一些模式识别的定义,不管它是什么样的定义,都有这样几个步骤,首先是要获取信号,比如你要识别苹果,要把苹果树拍下来,找到苹果在哪个地方,把这些数据进行了预处理,然后再把它进行特征描述,当然你可以进行特征抽取,显性的特征或者隐性的特征,然后进行识别。——这是一个基本概念,不是因为我是做模式识别的才说模式识别重要,它确实重要,它是人类最重要的智能行为。所以机器的模式识别能力反映了机器智能的类人程度。未来学家Ray  Kurzweil,尽管他的很多观点我不认同,但是他的这个观点我是认同的,他说模式识别是人类最重要的智能行为,机器的模式识别能力反映了机器智能的未来方向。


模仿人类识别智能的三个发展阶段


大家知道人工智能到现在已经有61年的时间,人工智能是模拟人的智能,模式识别世界上是模拟人的识别能力,所以应该说模式识别是人工智能一个非常重要的研究方向和研究领域。从它的发展来说,它涉及到形式逻辑、运筹学、认知科学、神经科学和统计学的领域,涉及到非常多的领域。我也试图查了一下Pattern  Recognition(模式识别)这个词是什么时候出现的,我没有找到,如果以第一个Pattern  Recognition专利为例的话,那是上世纪40年代的,计算机识别到现在也就有70年的历史。从它的发展阶段,我大概分为三个阶段,第一个阶段是从数学基础的出现到上世纪60年代末,第二个阶段是从上世纪70年代到本世纪初,各种各样的方法蓬勃发展,进入到新的时期,特别是2010年以后深度网络学习的兴起,掀起了模式识别的新的热潮,特别是方式方法上有一些新的突破,所以我笼统地把它分为三个大的阶段。


模式识别无论是从第一个OCR的专利算起,还是从计算机的诞生算起,都走过了长达半个世纪的发展历程,中间历程也在不断创新,从最早受益于数学的基础,比如说统计学等等,所以统计学首先兴起,后来又有句法模式识别,句法模式识别也曾经流行过一段时间,后来又有了神经网络,大致上的理论创新是这样的脉络,当然中间也有交替。所以发展到今天,以深度网络为代表,模式识别应该说进入了新的发展时期。所以无论是统计模式识别、句法模式模式识别还是神经网络模式识别,当然也有人把神经模式识别算为统计模式识别,它们各自都有各自的优缺点,都不能相互取代。


在理论创新不断取得突破的同时,应用不断地拓展,这方面非常多,大家仔细想想这些年深度学习的热潮,人工智能的热潮,很多方面都是因为在模式识别得益于深度学习的发展,很多方面都是模式识别方面的突破,比如说大家非常熟悉的早些年的VOC,图象识别、语音识别,都是模式识别典型的问题。模式识别这些年在领域方面不断地拓展,从最早的字符识别,到后来的非常多的模式识别的领域,大家每天都会接触到模式识别的应用,我这边可以举几个例子,主要说明对一些特定的模式识别问题,计算机模式识别已经取得了巨大的进步,我暂且把它叫做专用模式识别。


比如说语音识别,准确率很高,在人脸识别领域也是,当然不敢说人脸识别已经能完全解决问题,比如说双胞胎识别就是一个问题,包括有时候父子长得很像也不太好识别。所以我这些年又在研究虹膜识别,想告诉大家的是,模虹膜识别领域确实取得了很大的进步。首先有近距离的虹膜识别,比如说在煤矿上的应用,虹膜是一个圆环区域的结构,这也是我过去20年主要的研究方向,现在不光是近距离,远距离也可以,当然不是远到几十米,一两米远是可以的。


模式识别三大瓶颈:鲁棒性,自适应性差、可泛化性差


我前面提到了深度学习,我再讲一句,对于你我来说,如果看这两个图象,大家都会识别出来是一辆车,但是目前深度学习没法把这一列的图象正确的识别出来。是的东西它不能识别成是,它会把不是的东西识别成是,这说明深度学习的问题,它在鲁棒性方面、算法性方面还有问题。


所以计算机视觉的鲁棒性是很大的问题。比如说它的旋转性,它的光照变化,它会把凹进去的东西看成凸出来的,还有遮挡、光照、背景凌乱的影响,这都是计算机视觉里面常见的干扰,但是都是没有办法完全解决。语音识别也是一样的,在嘈杂的环境下机器识别还是比较差的,这是鲁棒性的问题。


还有自适应性差的问题,人能够对不同场景下的相同目标或其它语义下进行分析,但是机器不行。


还有可泛化性差。人有举一反三的能力,但是机器不行,所以我们需要大样本的高质量的训练数据。人通过看书就可以学习,小孩子看了一个苹果,只要她妈妈告诉她这是苹果,以后不管他碰到什么样的颜色,什么样的形状,他都知道是苹果,这个泛化能力非常了不起,所以怎么样让我们的计算机模式识别方法能有这样的泛化能力就非常重要。


还有可解释性差,大家都知道深度学习很好,但是深度网络,我个人认为它还是一个黑箱模型,它没法解释它得出的结果,当然人是可以解释他的结果的。


这个人是Robert  M.Haralick,他是著名的计算机视觉专家,他说计算机是觉得根本问题是一个鲁棒性的问题,如果不考虑鲁棒性的问题,计算机视觉几乎所有的问了都解决了。我对这个观点是赞同的,所以这方面是模式识别下一步要啃的几个硬骨头。


模式识别发展到今天,我对它的现状有几个概括,第一是面向特定任务的模式识别已经取得突破性的进展,有的性能可以与人媲美,甚至超过人。统计与基于神经网络的模式识别目前占主导地位,深度学习开创了新局面。通用模式识别系统依然任重道远,关键问题是我们需不需要通用模式识别系统,这也是大家需要思考的问题。如果需要,这样的系统还任重道远。鲁棒性、自适应性和可泛化性是进一步发展的三大瓶颈。怎么在这三个方面有所突破,这是模式识别下一步特别要关注的方向,至少我和我的学生是这么想的,我也是要求我的学生这么做的。

 

生物启发的模式识别将突破三大发展瓶颈

怎么去突破?这就是我下面要给大家重点报告的内容。也是值得关注的方向,我认为第一个值得关注的就是怎么突破那三个瓶颈,我首先是生物启发的模式识别。自然界生物系统有太多的机理值得我们学习历史上模式识别与计算机视觉的发展,很多方面受益于生物机制的启发。比如说我博士时期做了纹理分析,当时我用得最多的就是Gabor函数,通过这个函数发现人的感受和Gabor函数非常相似,所以我当时做博士论文的时候用了这个函数,我发现效果非常好,当然后人也做了很多的工作,形成了纹理分析的很经典的方法。我主要说明从生物学习、人的大脑机制学习的有效性,当然还有显著性、注意机制等等。包括我们现在的深度学习、多层网络,实际上都是从大脑获得的启发。


我下面简单地给大家报告一下,从哪些方面可以借鉴人类大脑或者生物系统有哪些方面值得我们学习,我分成了四个层次。我今天主要是给大家报告一下在这四个层次,有哪些机理能够值得我们借鉴,能够值得我们尝试一下,至于怎么去尝试,怎么去建模,我每一块都提一两个代表性的工作。


当然最微观的层面,我们的大脑有1000亿个神经元,它的链接就更多了,神经元有很多不同的类型,它有兴奋性、有抑制性的,在这里面如何把神经元得到体现,神经突触有功能可塑性、结构可塑性等等。这是在最微观的神经元这个层次。


 在神经回路这个层次,同样有很多值得我们借鉴的东西,比如说深度学习、深度神经网络,目前绝大多数都是前向链接,实际上在人的大脑上上还有后向和侧向的。

还有更宏观的功能区域,可以有多脑区,不同脑功能区的协同等等。


最后最宏观的就是在行为层次的学习机制,我们人是怎么学习的,在学习机制方面,学习的过程我们可以借鉴,学习的方法我们可以借鉴,还有学习的效果也可以借鉴,所以在这几个层面有很多东西值得我们借鉴。


下面我点一点在每个层次有什么代表性的工作。


比如在神经元层次,我前面提到了它有不同的类型,有的是兴奋型,有的是抑制型的,这边我引用了今年我的同事发表的一篇文章,引用不同类型的神经元,它的效果有不同的提升,同时神经元的类型可以自动学习获得。所以深度神经网络不是单一的类型,它有多种类型。我想Hinton教授大家很熟悉,他模拟神经元的噪声特性,在渲染过程中有的隐藏节点不考虑,暂时简化了网络结构,提升了网络的效率,从一定程度上解决了小样本的问题,解决了神经元的机制问题。神经元的放电效应也不一样,特别是神经元可塑性机制,Bengio借鉴这个机制发现确实能提高兴奋。至于怎么借鉴,怎么建模,大家可以参考这上面列的相关的文章。


在回路这个层次,有前向链接、反向链接和侧向链接。这是大家都非常熟悉的前向链接,现在大多数的深度学习都是前向链接的,包括AlexNet和VGG都是前向链接的。这里我要重点说的是侧向链接,就是在同一层的侧向链接,这是我引用清华大学的教授发表的文章,它确实可以提升兴奋。反向链接是我们自己的工作,是我的一个博士生做的,试图通过反向链接把高层的信息往低层再传递,发现效果也非常好。


另外一个层次是功能区域,就是更宏观的区域,在不同的脑区有不同的功能,中间怎么协同,或者不同的脑区协同完成一件任务,也有很多值得我们借鉴的。


再一个是多通道协同,这是牛津大学的教授做的,大家知道视觉通路有一个背侧通路,还有一个腹侧通路,他们借鉴这个机理提出双同路的卷积网络,一路负责挖掘表观信息,一路负责获取运动信息,这个效果非常不错。


注意和记忆机制的研究比较多,这个比较好理解。记忆和选择性机制、注意机制,计算机视觉里面用得比较多,我就不展开讲了。


最后一个是学习机制。值得关注的方向,我今天重点讲生物启发的模式识别,现在讲这一个,后面还有四个。

宏观层面就是行为层次,人的行为,特别是学习过程的行为有什么机理值得我们学习?我前面讲到机理方面学习的借鉴、过程方面的借鉴、方法方面的借鉴。学习的过程有发育学习、强化学习,方法有迁移学习、知识学习,学习的效果有生成学习、概念学习。

模仿生物从简单到复杂的学习过程,在积累的过程中拓展学习范围,人的学习就是这样的机理。这个研究是试图借鉴人从小到大学习过程的机理。


强化学习这一点大家都非常熟悉,这里我特别要说的是跟环境的交互,我们在成长的过程中跟环境的交互,对我们获取外部世界的信息,获取知识至关重要。我经常讲如果我站在这个地方,那个地方看不清楚,我会主动的动一动,通过跟环境交互来学习,从而增强对环境的自适应性。


还有迁移学习,这一点我留给杨强教授去讲,这一点也是我们人具备的,如果你的乒乓球、羽毛球打得好,说不定网球打起来也会学得更快一点。


还有一个是知识学习。人有这个本领,在识别一个东西的时候我们会用大量的先验知识,再结合现场观测到的信息,也就是先验知识和数据的结合,来有效识别你所看到的物体,这是我们人都能做到的,基于这样的机制,计算机也能做得很好。


还有生成学习,现在这一点很火,它是通过产生更多的原始数据样本分布一致的大量的深层数据,一方面可以解决小样本的问题、训练数据的问题,同时可以提高算法的垄断性和泛化能力、自适应性。现在大家非常关注这方面的工作,我们也做了一些工作。大家看这几组照片,主要是说明通过网络生成的图象非常逼真,这是输入图象的侧面,这里一共有四组图象,每组左边一列和右边一列,其中一组是原始的,另外一组是生成的,中间是输入的,如果不特别仔细看,你根本看不出是左边是计算机生成的,还是右边是计算机生成的,说明它的网络生成的数据还是非常靠谱的。


还有一个是概念学习,2015年底的时候,在自然杂志上发表了这样一篇文章,当时还引起了小小的轰动,试图克服深度学习对大量大样本训练数据的需求,来模拟人从机器少量的数据里面来学习知识,就像前面讲的一个小孩看到一个苹果,后来再看到更多的苹果他都能识别,这是小样本学习,如果大家有兴趣,可以了解这篇文章,它是典型的通过统计的方法,学习了规则,规则是结构模式识别所需要的,所以从统计方法获得规则,然后用这些规则来进行识别,所以它是一个从统计到结构,然后从结构到统计相结合的模式识别方法,我认为是一个很有前途的方法。


模式识别五大值得关注的研究方向


我今天要给大家报告的值得关注的模式识别研究方向的第一个重要方面,就是基于生物启发的模式识别方法。值得关注的方向还有四个,我也简单提一提。因为我今天重点是要讲生物启发的模式识别,我认为这是解决那三个性的瓶颈的重要的途径。


(第一个方向是找到鲁棒的特征)我前面讲了鲁棒性是一个硬骨头,如果鲁棒性的问题解决了,计算机视觉的问题也就都解决了,这些我是赞同的。而现实生活中,鲁棒性是我们经常碰到的,如果你的算法不鲁棒,基本上就没什么用,所以解决鲁棒问题很重要,当然解决鲁棒问题另外一个出路就是找到鲁棒的特征。比如说人脸图象,你的光照变一点、姿势变一点,人脸的识别也跟随变化,在跨媒体、多源异质的视觉大数据中找到具有较好泛化星和不变形的表达,这就是鲁棒要解决的问题,这个工作已经有些年头了,我们现在还在用,我们提的一个叫定序测量特征。我们发现这个特征很鲁棒,举个例子,有的同行可能听我在其它场合讲过,非常简单的特征是非常有效的,这个特征叫定序特征。什么叫定序特征呢?比如说这两个人,姚明和他的一位朋友,我如果问大家谁高谁矮,这个问题太简单了,瞬间你就知道是姚明高。但是我如果问你姚明比那个人高多少,你可能瞬间没法告诉我,或者你只能随便说一个数据,另外你今天给的答案可能和昨天给的答案不一样。定性的比较既快又稳定,稳定就是很鲁棒。定量的比较慢而且不稳定,这就是定序测量非常重要的一点。假如给你两个球掂量哪个重,哪个轻你很好判断,但是重多少、轻多少你就不好判断了。在图象里面也是如此,在图象里面找两个区域,A区域和B区域相比,如果A区域的灰度低于B区域,或者A区域比B区域更亮我计为1,如果比它暗计为0,然后在不同的区域里面移动,可以产生很多的1和0,这就是定序测量,这个非常简单,但是非常有效。这是第二个重要的方向。


第三个方向是结构和统计相结合的模式识别新理论。这是一个值得关注的发展趋势,目前的研究还不是太多,因为统计方法和结构的方法各有自己的优缺点。结构方法的原理很清晰,描述很紧凑,样本要求也少,但是它没有充分利用所有的数据。统计模式识别应用范围光,但是它对数据质量要求高,而且原理不清晰,有的时候不可解释。

第四个方向是数据和知识相结合,这个也好理解,现在大家都强调数据的重要性,数据当然很重要,但是数据不是一切,我前面讲到借鉴神经回路链接的过程中,我提到了反向链接,也就是说从上一层的信息传递到下一层,把知识传递到下一层,数据和知识相结合也是一个非常重要的发展方向,所以数据和知识相结合非常重要。

第五个方向是以互联网为中心的模式识别。互联网上有太多的数据,有大数据、知识、交互、众包等等,所以可以说是人类智能+机器智能的混合载体,怎么样把互联网的海量数据充分应用起来,对于推动模式识别的研究和发展非常重要,同时整个模式识别系统流程完全基于互联网信息,同时互联网上很多的任务需要模式识别完成,互联网上这么多的信息,反映什么样的态势,它是需要数据的挖掘、模式识别和分析。


我的发言就到这里,说得不对的地方请批评。


分享到:
相关新闻