人工智能技术
上QQ阅读APP看书,第一时间看更新

1.1 人工智能的概念

1.1.1 什么是人工智能

目前,大家对于人工智能(Artificial Intelligence,AI)的了解渠道主要有新闻、电影和生活中的实际应用,如图1-1所示。

图1-1 AI的社会认知

AI的一个比较流行的定义,也是该领域较早的定义,是由约翰·麦卡锡(John McCarthy)在1956年的达特茅斯会议(Dartmouth Conference)上提出的:人工智能就是要让机器的行为看起来就像人所表现出的智能行为一样。但是这个定义似乎忽略了强人工智能(强人工智能即机器真正具有推理的解决问题的智能)的可能性。

在了解什么是“人工智能”前,先来了解何为“智能”。

依据多元智能理论,人类的智能可以分成8个范畴:语言(Linguistic)、逻辑数学(Logical-Mathematical)、空间(Spatial)、身体-动觉(Bodily-Kinesthetic)、音乐(Musical)、人际(Interpersonal)、内省(Intrapersonal)、自然探索(Naturalist)。

1.语言智能

语言智能(Linguistic Intelligence)是指有效地运用语言或文字表达自己的思想,理解他人的语言或文字,灵活掌握语音、语义、语法,具备言语思维,能够使用言语思维表达和欣赏语言深层内涵的能力。具有较强语言智能的人群适合的职业是政治活动家、主持人、律师、演说家、编辑、作家、记者、教师等。

2.逻辑-数学智能

逻辑-数学智能(Logical-Mathematical Intelligence)是指有效地计算、测量、推理、归纳、分类,并进行复杂数学运算的能力。这项智能包括对逻辑的方式和关系、陈述和主张、功能及其他相关的抽象概念的敏感性。具有较强逻辑-数学智能的人群适合的职业是科学家、会计师、统计学家、工程师、计算机软件研发人员等。

3.空间智能

空间智能(Spatial Intelligence)是指准确感知视觉空间及周围一切事物,并且能把所感知到的形象以图画的形式表现出来的能力。具有较强空间智能的人群对色彩、线条、形状、形式等空间关系很敏感。他们适合的职业是室内设计师、建筑师、摄影师、画家、飞行员等。

4.身体-动觉智能

身体-动觉智能(Bodily-Kinesthetic Intelligence)是指善于运用整个身体来表达思想和情感,灵巧地运用双手等制作或操作物体的能力。这项智能包括特殊的身体技巧,如平衡、协调、敏捷、力量、弹性和速度以及由触觉所引起的能力。具有较强身体-动觉智能的人群适合的职业是运动员、演员、舞蹈家、外科医生、宝石匠、机械师等。

5.音乐智能

音乐智能(Musical Intelligence)是指能够敏锐地感知音调、旋律、节奏、音色的能力。拥有较强音乐智能的人群对音调、旋律、节奏或音色的敏感性强,具有较高的表演、创作及思考音乐的能力。他们适合的职业是歌唱家、作曲家、指挥家、音乐评论家、调琴师等。

6.人际智能

人际智能(Interpersonal Intelligence)是指能很好地理解别人和与人交往的能力。拥有较强人际智能的人群善于察觉他人的情绪、情感,体会他人的感觉、感受,辨别不同人际关系的暗示,以及对这些暗示做出适当反应。他们适合的职业是政治家、外交家、领导者、心理咨询师、公关人员、推销员等。

7.内省智能

内省智能(Intrapersonal Intelligence)是指自我认识,即具有自知之明并据此做出适当行为的能力。拥有较强自省智能的人群能够认识自己的长处和短处,意识到自己的内在爱好、情绪、意向、脾气和自尊,喜欢独立思考。他们适合的职业是哲学家、政治家、思想家、心理学家等。

8.自然探索智能

自然探索智能(Naturalist Intelligence)是指观察自然的各种形态,对物体进行辨认和分类,能够洞察自然或人造系统的能力。

而AI是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。AI的目的是让机器能够像人一样思考,让机器拥有智能。时至今日,AI的内涵已经大大扩展,成为一门交叉学科,如图1-2所示。

图1-2 AI学科范畴

在这门交叉学科中,机器学习(Machine Learning,ML)显然是重点之一。有着“全球机器学习教父”之称的汤姆·米切尔(Tom Mitchell)将机器学习定义为:对于某类任务T和性能度量P,如果计算机程序在T上以P衡量的性能随着经验E而自我完善,就称这个计算机程序从经验E学习。这个定义比较简单抽象,随着对机器学习了解的深入,我们会发现机器学习的内涵和外延都在不断地变化。因为理论和应用涉及的领域很广,发展和变化也相当迅速,简单明了地给出“机器学习”这一概念的定义并不是那么容易。

一般认为,机器学习的处理系统和算法主要是通过找出数据里隐藏的模式进而做出预测,它是AI的一个重要子领域,而AI又与更广泛的数据挖掘(Data Mining,DM)和知识发现(Knowledge Discovery in Database,KDD)领域相交叉。

1.1.2 AI、机器学习、深度学习的关系

机器学习专门研究利用计算机模拟或实现人类的学习行为,以获取新的知识或技能。深度学习(Deep Learning,DL)源于人工神经网络的研究。深度学习是机器学习研究中的一个新的领域,它模仿人脑的机制来解释数据,如图像、声音和文本。

AI、机器学习、深度学习三者之间的关系如图1-3所示。

图1-3 AI、机器学习、深度学习的关系

在这三者中,机器学习是AI的一种途径或子集,深度学习是一种特殊的机器学习。如果将AI比喻为大脑,机器学习是去掌握认知能力的过程,而深度学习是这个过程中很有效率的一种教学体系。人工智能是目的,是结果;深度学习、机器学习是方法,是工具。

1.1.3 AI的分类

AI主要可以分为强人工智能和弱人工智能两类。

强人工智能是指有可能制造出真正能推理(Reasoning)和解决问题(Problem_solving)的智能机器,并且,这样的机器将被认为是有知觉的,有自我意识的;可以独立思考问题并制定解决问题的最优方案,有自己的价值观和世界观体系;有和生物一样的各种本能,比如生存和安全需求。在某种意义上强人工智能可以看作一种新的文明。

弱人工智能是指不能制造出真正能推理和解决问题的智能机器,这些机器只不过看起来像是智能的,但是并不真正拥有智能,也不会有自主意识。

目前我们正处于弱人工智能阶段。弱人工智能的产生减轻了人类智力劳动的负担,它的产生原理类似于高级仿生学。无论是AlphaGo,还是能够撰写新闻稿和小说的机器人,目前仍然属于弱人工智能范围,它们的能力仅在某些方面超过了人类。数据和算力的重要性在弱人工智能时代不言而喻,它们推动了AI的商业化发展,在强人工智能时代以上两个因素仍将是最重要的因素。与此同时,谷歌和IBM等公司在量子计算上的研究也为人类进入强人工智能时代奠定了基础。

1.1.4 AI的发展史

AI发展简史如图1-4所示。

图1-4 AI发展简史

AI正式的起源可追溯至1950年“人工智能之父”艾伦·(Alan M. Turing)提出的图灵测试(TheTuring test)。按照他的设想,如果一台计算机能够与人类开展对话而能不被辨别出其计算机身份,那么就认为这台计算机具有智能。同年,图灵大胆预言了真正具备智能机器的可行性。但目前为止,还没有任何一台计算机能完全通过图灵测试。

AI的概念虽然只有短短几十年的历史,但其理论基础与支撑技术的发展经历了漫长的岁月,现在AI领域的繁荣是各学科共同发展、数代科学家研究积累的结果。

1.萌芽期(1956年以前)

AI最早的理论基础可追溯至公元前4世纪,著名的古希腊哲学家、科学家亚里士多德(Aristotle)提出了形式逻辑,其中三段论至今仍是演绎推理不可或缺的重要基础。17世纪,德国数学家莱布尼茨(Leibniz)提出了万能符号和推理计算的思想,这为数理逻辑的产生与发展奠定了基础。19世纪,英国数学家乔治·布尔(George Boole)提出了布尔代数,布尔代数是当今计算机的基本运算方式,它为计算机的发明提供了可能。英国发明家查尔斯·巴贝奇(Charles Babbage)在同一时期设计了差分机,这是第一台能计算二次多项式的计算机,虽然功能有限,但是这个计算机第一次在真正意义上减少了人类大脑的计算负担。机器从此开始具有计算智能。

1945年,“莫尔小组”的约翰·莫克利(John Mauchly)和艾克特(J. Eckert)制造了电子数字积分计算机(Electronic Numerical Integrator and Calculator,ENIAC),这是世界上第一台通用电子计算机。虽然ENIAC是里程碑式的成就,但它仍然有许多致命的缺点:体积庞大、耗电过快、需要人工参与命令的输入和调整。1947年,计算机之父冯·诺依曼(Von Neumann)在此设备的基础上进行改造和升级,设计制造了真正意义上的现代电子计算机设备数字分析器数值积分器和计算机(Mathematical Analyzer Numerical Integrator&Computer,MANIAC)。

1946年,美国生理学家麦克洛奇(W. Mclloch)建立了第一个神经网络模型。他对微观人工智能的研究工作,为神经网络的发展奠定了重要基础。1949年,赫布(Hebb)提出了一个神经心理学学习范式——赫布理论(Hebbian theory),它描述了突触可塑性的基本原理,即突触前神经元向突触后神经元的持续重复的刺激可以导致突触传递效能的增加。这一理论为神经网络模型的建立提供了理论基础。

1948年,信息论之父香农( C. E. Shannon)提出了“信息熵”的概念,他借鉴了热力学的概念,将信息中排除了冗余后的平均信息量定义为信息熵。这一概念产生了非常深远的影响,在非确定性推理、机器学习等领域起到了极为重要的作用。

2.第一次繁荣期(1956—1976年)

终于,在1956年,于历时两个月的达特茅斯会议上,AI作为一门新兴的学科由约翰·麦卡锡正式提出,这是AI正式诞生的标志。此次会议后,美国形成了多个AI研究组织,如艾伦·纽厄尔(Allen Newell)和赫伯特·亚历山大·西蒙(Herbert Alexander Simon)的Carnegie RAND协作组,马文·明斯基(Marvin Lee Minsky)和约翰·麦卡锡的麻省理工学院(Massachusetts Institute of Technology,MIT)研究组,亚瑟·塞缪尔(Arthur Samuel)的IBM工程研究组等。

在之后的近20年间,AI在各方向快速发展,研究者们以极大的热情将AI的技术领域和应用领域不断扩张。

(1)机器学习

1956年,IBM公司的亚瑟·塞缪尔写出了著名的西洋跳棋程序,该程序可以通过棋盘状态学习一个隐式的模型来指导下一步走棋。亚瑟·塞缪尔和程序对战多局后,认为该程序经过一定时间的学习后可以达到很高的水平。通过这个程序,塞缪尔驳倒了计算机不能像人类那样可以学习显式代码之上的模式的观点。自此,他定义并解释了一个新词——机器学习。

(2)模式识别

1957年,周绍康提出了使用统计决策理论求解模式识别问题,促进了从20世纪50年代末开始的模式识别研究工作的迅速发展。同年,罗森布拉特(Rosenblatt)提出了一种简化的模拟人脑进行识别的数学模型——感知器,初步实现了通过给定类别的各个样本对识别系统进行训练,使系统在学习完毕后具有对其他未知类别的模式进行正确分类的能力。

(3)模式匹配

1966年,第一个聊天程序伊丽沙(Eliza)诞生,它由麻省理工学院的人工智能学院编写。它能够根据设定的规则和用户的提问进行模式匹配,从预先编写好的答案库中选择合适的回答。这也是第一个尝试通过图灵测试的软件程序。Eliza曾模拟心理治疗医生和患者交谈,在首次使用的时候就骗过了很多人。“对话就是模式匹配”,这是计算机自然语言对话技术的开端。

此外,在AI第一次发展期间,约翰·麦卡锡开发了LISP语言,成为以后几十年来AI领域最主要的编程语言。马文·明斯基对神经网络有了更深入的研究,发现了简单神经网络的不足。为了解决简单神经网络的局限性,多层神经网络、反向传播(Back Propagation,BP)算法开始出现。在这一时期,专家系统也开始起步,第一台工业机器人走上了通用汽车的生产线,也出现了第一个能够自主动作的移动机器人。

相关学科的发展也极大地促进了AI的进步,20世纪50年代创立的仿生学激发了学者们的研究热情,模拟退火算法因此产生,它是一种启发式算法,是近来大热的蚁群算法等搜索算法的研究基础。

3.第一次低谷期(1976—1982年)

然而,人们对AI的热情并没有维持太长时间,太过乐观的承诺无法按时兑现,引发了全世界对AI技术的怀疑。

曾引起学术界轰动的感知机,在1969年遭遇到了重大打击。当时,马文·明斯基和其他科学家提出了著名的异或(XOR)问题,论证了感知器在类似XOR问题的线性不可分数据下的限制。对学术界来说,XOR问题成为了几乎不可逾越的鸿沟。

1973年,AI遭遇到科学界的拷问,很多科学家认为AI那些看上去宏伟的目标根本无法实现,研究已经完全失败。越来越多的怀疑使AI遭受到严厉的批评和对其实际价值的质疑。随后,各国政府和机构也停止或减少了资金投入,AI在20世纪70年代陷入了第一次寒冬。

AI此次遇到的挫折并非偶然。受当时计算能力的限制,许多难题虽然理论上可以解决,但根本无法投入实际使用。同时,专家系统等在当时存在知识获取难等问题,很多项目的失败告终。对于机器视觉的研究在20世纪60年代就已经开始,美国科学家罗伯茨(L.R.Roberts)提出的边缘检测、轮廓线构成等方法十分经典,一直到现在还在被广泛使用。然而,有理论基础不代表有实际产出。当时有科学家计算得出,要用计算机模拟人类视网膜视觉至少需要执行10亿次指令,而1976年世界最快的超级计算机Cray-1造价数百万美元,但计算速度还不到1亿次每秒,普通计算机的计算速度不到一百万次每秒。硬件条件限制了AI的发展。此外,AI发展的另一大基础是庞大的数据基础,而当时计算机和互联网尚未普及,根本无法取得大规模数据。

在此阶段内,人工智能的发展速度放缓,尽管BP的思想在20世纪70年代就被林纳因马(Linnainmaa)以“自动微分的翻转模式”提出来,但直到1981年才被韦伯斯(Werbos)应用到多层感知器中。多层感知器和BP算法的出现,促成了第二次神经网络大发展。1986年,鲁梅尔哈特(D.E.Rumelhart)等人成功地实现了用于训练多层感知器的有效BP算法,产生了深远影响。

4.第二次繁荣期(1982—1987年)

1980年,卡内基梅隆大学(Carnegie Mello University,CMU)研发的XCON正式投入使用。XCON是个完善的专家系统,包含了设定好的超过2500条规则,在后续几年处理了超过80000条订单,准确度超过95%。这成为一个新时期的里程碑,专家系统开始在特定领域发挥威力,也带动整个AI技术进入了一个繁荣阶段。

专家系统往往聚焦于单个专业领域,模拟人类专家回答问题或提供知识,帮助工作人员做出决策。它把自己限定在一个小的范围内,从而避免了通用人工智能的各种难题,同时充分利用现有专家的知识经验,解决特定专业领域的任务。

因为XCON取得的巨大商业成功,在20世纪80年代,60%的世界500强公司开始开发和部署各自领域的专家系统。据统计,从1980年到1985年,有超过10亿美元投入到AI领域,大部分用于企业内的AI部门,涌现出很多AI软硬件公司。

1986年,慕尼黑的联邦国防军大学在一辆奔驰面包车上安装了计算机和各种传感器,实现了自动控制方向盘、油门和刹车。它被称为VaMoRs,是真正意义上的第一辆自动驾驶汽车。

在AI领域,当时主要使用LISP语言。为了提高LISP程序的运行效率,很多机构开始研发专门用来运行LISP程序的计算机芯片和存储设备。虽然LISP机器取得了一些进展,但同时个人计算机(Personal Computer,PC)也开始崛起,IBM PC和苹果电脑快速占领整个计算机市场,它们的CPU频率和速度稳步提升,甚至变得比昂贵的LISP机器更强大。

5.第二次低谷期(1987—1997年)

1987年,LISP机器硬件销售市场严重崩溃,AI领域再一次进入寒冬。硬件市场的崩溃加上各国政府和机构纷纷停止向AI研究投入资金,导致了该领域数年的低谷,但这一时期,AI研究也取得了一些重要的成就。1988年,美国科学家朱迪亚·珀尔(Judea Pearl)将概率统计方法引入AI的推理过程中,这对后来AI的发展起到了重大作用。

在第二次寒冬到来后的近20年,AI技术逐渐与计算机和软件技术深入融合,但同时人工智能算法理论的研究进展缓慢。很多研究者只是基于以前的理论,依赖更强大、更快速的计算机硬件取得一些研究成果。

6.复苏期(1997—2010年)

1995年,受到Eliza的启发,理查德·华莱士(Richard S. Wallace)开发了新的聊天机器人程序LICE(The Artificial Linguistic Internet Computer Entity),它能够利用互联网不断增加自身的数据集,优化内容。

1996年,IBM公司的计算机深蓝(Deep Blue)与人类国际象棋世界冠军加里·卡斯帕罗夫对战,但并没有取胜。加里·卡斯帕罗夫认为计算机下棋永远不会战胜人类。之后,IBM公司对深蓝进行了升级。升级后的深蓝拥有480块专用的CPU,运算速度翻倍,达到2亿次每秒,可以预测未来8步或更多步的棋局,顺利战胜了加里·卡斯帕罗夫。但此次具有里程碑意义的对战,其实只是计算机依靠运算速度和枚举,在规则明确的游戏中取得的胜利,并不是真正意义上的AI。

2006年,杰弗里·辛顿(Geoffrey Hinton)在《科学》杂志发表论文,开启了深度学习时代。

7.增长爆发期(2010年至今)

2011年,同样是来自于IBM公司的沃森(Watson)系统参与了竞答类综艺节目《危险边缘》,与真人一起抢答竞猜。沃森系统凭借其出众的自然语言处理能力和强大的知识库战胜了两位人类冠军。计算机此时已经可以理解人类语言,这是AI领域的重大进步。

进入21世纪,随着PC的广泛使用以及移动互联网技术、云计算技术的爆发,各机构得以积累超乎想象的大量数据,为AI的后续发展提供了足够的素材和动力。深度学习开始占据AI技术的主流,著名的Google Brain项目,将ImageNet数据集的识别率大幅提升达到84%。

2011年,语义网(Semantic Network)被提出。语义网的概念来源于万维网,它本质上是一个以Web数据为核心,以机器理解和处理的方式连接Web数据形成的海量分布式数据库。语义网的出现极大地推进了知识表示领域技术的发展,2012年,谷歌公司首次提出了知识图谱的概念,并推出了基于知识图谱的搜索服务。

2016年和2017年,谷歌公司发起了两场轰动世界的围棋人机之战,其AI程序阿尔法围棋(AlphaGo)连续战胜两位围棋世界冠军:韩国的李世石和中国的柯洁。

时至今日,AI已渗透入了人类生活的方方面面。以苹果公司的Siri为代表的语音助手使用了自然语言处理(Natural Language Processing,NLP)技术。在NLP技术的支撑下,计算机可以处理人类语言,并以越来越自然的方式将其与期望的指令和响应进行匹配。在浏览购物网站时,用户常会收到推荐算法(Recommendation Algorithm)产生的商品推荐。推荐算法通过分析用户此前的购物历史数据,以及用户的各种偏好表达,就可以预测用户可能会购买的商品。

1.1.5 AI的3大学派

AI的3大学派是符号主义、连接主义、行为主义,具体介绍如下。

1.符号主义

符号主义的基本思想是人类的认知过程是各种符号进行推理运算的过程。人是一个物理符号系统,计算机也是一个物理符号系统,因此,能用计算机来模拟人的智能行为。知识表示、知识推理、知识运用是人工智能的核心。符号主义认为知识和概念可以用符号表示,认知就是符号处理过程,推理就是采用启发式知识对问题求解的过程。符号主义的落脚点在推理:符号推理与机器推理。

2.连接主义

连接主义的基本思想是思维的基本是神经元,而不是符号处理过程。连接主义认为人脑不同于计算机,并提出了连接主义的大脑工作模式,用于取代符号操作的计算机工作模式。连接主义源于仿生学,特别是人脑模型的研究。连接主义中,一个概念用一组数字、向量、矩阵或张量表示,即由整个网络的特定激活模式表示。网络中每个节点(即神经元)没有特定的意义,但是每个节点都参与整体的概念表示。例如,在符号主义中,猫的概念可以由一个“猫节点”或表示猫的属性的一组节点表示(如,“两只眼睛”“四条腿”和“蓬松的”)。但是,在连接主义中,各个节点并不表示特定的概念,要找到“猫节点”或“眼睛神经元”是不可能的。连接主义的落脚点在神经元网络与深度学习。

3.行为主义

行为主义的基本思想是智能取决于感知和行为。行为主义提出了智能行为的“感知-动作”模式。行为主义认为智能不需要知识、不需要表示、不需要推理;AI可以像人类智能一样逐步进化;智能行为只能在现实世界中,通过与周围环境的不断交互表现出来。行为主义偏向于应用实践,从环境中不断学习以不断修正动作。行为主义的落脚点在行为控制、自适应与进化计算。