里程碑式的存在——ChatGPT
近几年,人工智能技术领域高潮迭出,给我们引爆了一轮又一轮技术热潮,而刚进入2023年,人工智能界就出现了“新顶流”——ChatGPT。它最近肯定在大家面前疯狂刷屏,大家即使不了解它,也早就对这个名字耳熟能详了。那么它到底是什么呢?其实ChatGPT是一个由OpenAI公司推出的大型语言模型(large language model, LLM),它能帮助开发人员使用自然语言理解来增强聊天机器人和智能应用程序的功能,可以处理各种任务,如撰写文章、提供建议、回答问题等。
自2022年11月推出后,ChatGPT因其强大的功能爆红,用户数量暴增,仅2个月就达成了用户破亿的目标,成为史上用户最快破亿的应用。而达成这一目标,TikTok用了9个月,这足以说明ChatGPT的受欢迎程度了。
ChatGPT的火爆其实不仅在于它聊天能力强,用户更多的是看重了它“十八般武艺,样样都会”。有人让它回答脑筋急转弯,它并没有被绕进去,很快就得出了答案;有人让它写一篇关于“秦始皇摸电门,赢麻了”的文章,它写得有模有样,并没有对这个离谱的主题提出质疑;有人让它写社交平台上的宣发文案,它连图形符号都用得难辨真假;甚至有网友训练它说北京话,在一来一回的对话训练中,它很快就学会了北京话的口语性表达,强大的学习能力不禁让人怀疑对面是不是有真人在操控。还有人让它写策划、写文案、编代码、写诗……这么一个具备强大功能的程序,当然会受到各界人士的欢迎。许多人让它帮助自己工作,成为代替自己的“二代打工人”。
打工人爱它,学生党也爱它。美国在线教育供应商Study.com的一项针对1000名美国学生的调查显示,超过89%的学生使用ChatGPT完成家庭作业,48%的学生用ChatGPT完成小测验,53%的学生用ChatGPT写论文。“ChatGPT风”简直席卷了大、中、小学,让学生党狂喜。但美国已经出台了相关政策,制止学生用人工智能完成作业,未来我们也需要正确引导孩子,让孩子以科学的方式接触这些先进的技术。
据美国杂志PCMag报道,谷歌曾经给ChatGPT提供了面试程序员的问题,结果它不仅没被难倒,甚至还被判定为具备三级软件工程师的水准,简直让人瞠目。目前,ChatGPT已经开始入侵职场,根据职业咨询平台ResumeBuilder.com的最新报告,在1000家企业调查样本中,49%的企业目前正在使用ChatGPT,主要应用在协助招聘、编写编码等工作中。报告还称,从2022年11月ChatGPT上线后,不少企业已经将ChatGPT投入了应用,在这之中,有48%的企业开始利用ChatGPT代替员工工作,25%的企业已经通过ChatGPT节约了75 000美元以上的成本,这简直给部分岗位的工作者带来了失业的隐患!
ChatGPT发展历程
如前所述,生成式AI通过学习数据中的联合概率分布,对已有的数据进行总结归纳,再创作出新的内容。ChatGPT作为一款自然语言处理模型,通过学习语料中词汇之间的组合规律和逻辑,生成合理的接续,实现内容的创作。这类似一个“接龙”的过程,ChatGPT根据上文计算并生成下一个词,然后继续生成下面的词,从而完成一句话或者长文,也就是“自回归生成”。因此,虽然训练ChatGPT使用的语料都是现有的已经被创作出来的,但是其创作内容不是“抄袭”,不是简单的复制和粘贴,而是在现有语料的基础上学习词与词之间的逻辑,创作出新的内容。
ChatGPT的能力并不是一蹴而就的,提到“神器”ChatGPT的前世今生,那可有太多故事了。其实ChatGPT的“前世”与Transformer(变换器)模型关系紧密,由于Transformer模型诞生于2017年,因此我们的故事得从2017年说起。
2017年,谷歌大脑团队在神经信息处理系统大会发表了一篇名为《注意力是你所需要的全部》(Attention Is All You Need)的论文。这篇论文的作者在文章中第一次提出了一个基于注意力机制的Transformer模型,并且把这个模型首次用在理解人类的语言上,这就是自然语言处理。谷歌大脑团队利用非常多已经公开的语言数据集来训练这个最初的Transformer模型,而这个Transformer模型包括6500万个可调参数。
经过大量的训练后,这个Transformer模型在英语成分句法分析、翻译准确度等多项评分上都在业内达到了第一的水准,世界领先,成为当时最为先进的大型语言模型。
而Transformer模型从诞生之时,也极为深刻地影响了后续人工智能技术的发展道路。仅几年内,这个模型的影响力就已经渗透到人工智能的各个领域,包括多种形式的自然语言模型,以及预测蛋白质结构的AlphaFold 2模型等。也就是说,它就是后续许多功能强大的AI模型的源头。
在Transformer模型爆火后,有许多团队都在跟进研究这一模型,推出ChatGPT的OpenAI公司也是专注于研究Transformer模型的其中一家公司。在Transformer模型被推出还不足一年的2018年,OpenAI公司有了自己的技术突破,他们发表了论文《用生成式预训练提高模型的语言理解力》(Improving Language Understanding by Generative Pre training),还推出了具备1.17亿个参数的GPT-1模型。GPT-1模型是一个基于Transformer结构的模型,但训练它的数据集更为庞大。
OpenAI公司利用一款经典的大型书籍文本数据集(BookCorpus)对GPT-1模型进行了模型预训练,这个数据集包括7000多本未出版的图书,并涵盖多种类型,如言情、冒险、恐怖、奇幻等。在对模型进行预训练后,OpenAI还在四种不同的语言场景下,利用多种相异的特定数据集对模型做了进一步的训练。而最终训练出的模型GPT-1,在文本分类、问答、文本相似性评估、蕴含语义判定这四个评价维度上,都取得了比基础Transformer模型更好的结果,因此也取代Transformer模型,摇身一变成为新的业内龙头。
在发布GPT-1后的一年,OpenAI公司又公布了一个“升级版”的模型——GPT-2。这个模型的架构与GPT-1的原理是相同的,只是规模比GPT-1大了10倍多,具有15亿个参数,刷新了这种大型语言模型在多项语言场景中评分的纪录。
在2020年,OpenAI公司再接再厉,推出了取代GPT-2的GPT-3模型——这个模型包含1750亿个参数。GPT-3模型的架构也与它的“前任”GPT-2没有本质区别,只是规模更大了。当然,GPT-3的训练集比前两个GPT模型要大得多:它包含两个相异的书籍数据集(一共670亿词符)、已经过基础过滤的全网页爬虫数据集(4290亿词符)、维基百科文章(30亿词符)。
由于GPT-3包含太过庞大的参数数目,训练所需数据集的规模也非常巨大,因此成本也很高——保守估计,训练一个GPT-3模型需要500万美元至2000万美元。用于训练的GPU越多,成本越高,时间越短;反之也是如此。在使用中,用户通过提供提示词,甚至完全没有提示,直接询问,就可收获高质量的答案。由于GPT-3并没有给用户提供合适的交互界面,而且还有一定的使用门槛,所以使用过GPT-3模型的用户并不是很多。
在2022年神经信息处理系统大会中,OpenAI公司再次向大家宣布了它的新突破,它又推出了全新的大型语言预训练模型:ChatGPT。GPT-3.5是ChatGPT的前身,也是OpenAI对GPT-3模型进行微调后开发出来的模型,在GPT-3.5诞生后,ChatGPT才横空出世。至此,我们所讲述的主角诞生,ChatGPT也是目前使用最为广泛的一款自然语言处理程序,简直称得上是“AI界的顶流”了!
各大公司纷纷入场
面对热烈的市场反响,国内的各大科技企业也纷纷入局,将“产业触手”深入人工智能这片蓝海,例如百度、阿里巴巴、360等国内科技巨头都先后发布类ChatGPT产品,以期抢占“中国版ChatGPT”的市场先机。而另一头,海外的科技巨头如大家熟知的微软、谷歌等企业,也都加速了在AIGC方面的相关布局。
我们首先来看看国内一些科技巨头在相关产业的发展情况。近日有消息称,阿里达摩院正在研发类似ChatGPT的对话机器人,尚处于内测阶段,而且阿里巴巴还可能结合AI大模型技术与钉钉生产力工具,将二者的深度应用方式挖掘出来。关于ChatGPT在中国的布局,百度的被关注度也很高。百度作为国内领先的AI技术公司,发布了中国的类ChatGPT应用“文心一言”,其多答案回复、智能生成等相关功能,会渐渐在百度的搜索引擎内上线或内测,由此可以看出,百度对AIGC、ChatGPT等技术已经开始积极布局了。无论是阿里还是百度,目前国内科技巨头的技术发展方向都是将ChatGPT相关技术融入自己已有的主要产业模块,以此谋求深度的商业增长。
互联网企业360也在ChatGPT相关技术上有自己的产业布局,目前在文本生成图像、类ChatGPT等AIGC技术中都有持续性的成本投入。2023年3月,在360主办的论坛上,公司创始人周鸿祎演示了一款由360自主研发的类ChatGPT大型语言模型。该模型在一定程度上已具备对中文较好的语义理解能力,展示了360在这一方面的阶段性成果。
阿里巴巴目前也发布了其大型语言模型“通义千问”。据悉,阿里巴巴今后的所有产品都将接入“通义千问”。而“通义千问”也展现出了更大的市场野心,相关负责人表示,阿里云将提供完备的算力和大模型基础设施,并帮助包括创业公司在内的所有企业和机构打造自己的专属大模型,让它们更好地实现创新,也让中国整体的AI能力有全方位的提升。
从国内科技巨头在AIGC技术上你追我赶的态势来看,人工智能相关的产业发展呈现出相当光明的发展前景。说完了国内科技巨头的发展态势,我们再来看看国外的科技巨头在ChatGPT领域的发展情况。
让我们把目光投向美国,美国的微软是与ChatGPT及其母公司OpenAI关系最密切的科技巨头之一。在2023年2月,微软就推出了最新版本的搜索引擎Bing(必应)和Edge浏览器,二者均由ChatGPT进行支持。更新的Bing搜索将会以类似ChatGPT的方法,来对已有大量上下文的问题进行回答。
而正是在同一个月,微软还宣布了企业中的所有产品会全面与ChatGPT进行整合,这些产品包括Azure云服务、Teams聊天程序、Bing搜索引擎,以及囊括Word、PPT、Excel的“Office全家桶”等。目前,GPT-4已被内置于新版Bing搜索引擎中,这也代表着微软开始与谷歌这个全球搜索引擎的巨头进行对抗。其实在这之前,微软就和ChatGPT的母公司OpenAI深度扩展了合作关系,计划扩大投资只是一个基础,OpenAI还会使用微软的Azure云计算服务来更快地推动人工智能的突破。
面对微软强势的竞争,谷歌也不甘示弱,推出了AI对话系统Bard。与微软采取的方式类似,谷歌也会把Bard对话系统与谷歌的搜索引擎相结合。谷歌的云计算部门Google Cloud开始与OpenAI打擂台,宣布与OpenAI的竞争对手Anthropic推进全新的合作关系,而Anthropic也已经把谷歌云当作自己的首选云提供商。在2023年1月,Anthropic也推出了一款全新的AI聊天机器人产品Claude,这款产品基于其自研架构,被认为是ChatGPT一个强有力的竞争对手。老牌巨头英伟达与ChatGPT的关系也不浅,ChatGPT在进行模型训练时,至少导入了10 000颗英伟达高端GPU。亚马逊、Meta等科技巨头的高管,也都表示想对AIGC、ChatGPT相关技术或产业进行积极布局。在AIGC领域,各个企业的市场竞争才刚刚开始。
ChatGPT的应用
从宏观角度看完了与ChatGPT有关的产业发展,下面我们来谈谈与日常生活切实相关的话题,那就是ChatGPT究竟有什么用,或者说它能给我们带来什么。
从全网的报道中我们都能了解到,ChatGPT能在一定程度上帮人们承担部分工作,减轻人们的负担,具备十分广泛的应用场景,下面我们举例说明。
快速阅读和总结:会议马上要开始了,你有一份文件还没看,阅读完所有内容需要很久,但是你的时间非常紧张,这时候你可以将文件复制并粘贴到ChatGPT的聊天框中,并要求它为你总结文件中最重要的内容(图1-14)。这项工作ChatGPT已经驾轻就熟了,你有机会就可以尝试一下。
客户服务和支持:ChatGPT能够以即时聊天或电子邮件的方式与客户进行交互,来解决客户的问题和疑虑,并同时提供支持和指导(图1-15)。面对ChatGPT时,你只需给它一个非常简单的提示,比如“写一封给客户的问候邮件”,ChatGPT就会给出它生成的例子。你对输出的结果不满意也不要紧,只需要略微改动一下提示再来一遍,就可以得到完全不一样的内容,ChatGPT几乎不会给你两遍相同的内容。
交互问答:ChatGPT能够作为一种在线学习平台,在交互中回答问题,并提供相应的帮助。比如你花费一个周末的时间学习了古罗马历史,现在你想对自己的知识储备进行测试。ChatGPT可以轻而易举地给你提供5个关于历史的问题(图1-16),还能对你已经写下的试题答案进行纠正。
图1-14 ChatGPT在快速阅读和总结方面的应用示例
图1-15 ChatGPT在客户服务和支持方面的应用示例
图1-16 ChatGPT在交互问答方面的应用示例
医疗保健:ChatGPT能够对患者关于疾病和治疗的问题进行回答,还能以此为基础提供一些康复和营养建议。比如你家的小朋友突然胃口不好,你也不知道为什么,这时候就可以问问ChatGPT,它有强大的整合能力,会把孩子胃口不好的原因条分缕析地全部列出来(图1-17),你还可以问它该怎么办,让它充当你的“私人健康调理师”。
图1-17 ChatGPT在医疗保健方面的应用示例
进行代码审查:你是否曾经有过这样的体验,花费了整整一天的时间写代码,但现在实在是太累了,没有精力去复查自己敲下来的代码?这时候ChatGPT也能派上用场,你可以要求它去检查代码中的错误并修改,为自己省下大把精力(图1-18)。
进行代码评论:不少程序员表示这个功能太让他们心动了!如果你给ChatGPT一段代码,并且让它做注释去解释每段代码的作用,它就会反馈给你一段注释的代码(图1-19)。这同样能够帮程序员们省不少事,让工作变得顺畅很多。
Excel助手:在日常办公中让ChatGPT帮我们编写几个Excel公式也是没问题的。我们把表格处理的需求通过文字描述的方式输入给ChatGPT,ChatGPT便能生成一段Excel公式,经验证,这段公式是实际可用的(图1-20)。
图1-18 ChatGPT在代码审查方面的应用示例
图1-19 ChatGPT在代码评论方面的应用示例
前面我们提到了一些ChatGPT的基础应用场景,其实它的技能远不止于此,甚至还能在营销、客服、风控等业务里发挥自己的功用。它能直接帮助跨境电商的卖家生成营销内容,在开展智能广告投放、提供即时客户服务、改善客户体验等方面降本增效。如果你是一个电商平台的店主,需要马上上架一款商品,但是写文案的员工请假了,这个时候你就可以利用ChatGPT来迅速生成一段营销文案。当然,前提是你需要告诉它你想要的风格和主题。已经有不少人尝试过拿它生成小红书文案了。类似ChatGPT的大型语言模型还可以提升金融业务流程的自动化水平,使得用户信用数据、历史借款记录、还款记录等数据分析以及关键信息要素提取、用户风险等级评估等工作环节都趋向于自动化,全面提升行业的风险识别能力。随着模型的升级更新,相信以后它的“业务范围”也会越来越广。
图1-20 ChatGPT在Excel助手方面的应用示例
2023年3月,OpenAI宣布正式上线了ChatGPT插件系统。OpenAI表示,现在的语言模型虽然在各类任务中都能有所表现,但有的时候结果还不尽如人意。而通过加入更多数据进行训练,则可以不断提升模型效果。OpenAI将插件形象地比喻成“眼睛和耳朵”,新上线的插件系统能与开发人员定义的API进行交互,从而将ChatGPT与第三方应用程序对接,这样模型可以获取更多、更新或其他未被包含在训练数据内的信息。插件执行安全、受控的操作,提高了整个系统的实用性,ChatGPT所能适用执行的范围也变得更为广泛。
总的来说,从相关应用场景来看,ChatGPT能够进行快速阅读和总结、客户服务和支持、代码审查、代码评论、医疗保健、营销内容生成等工作,但也不仅限于此。随着模型技术和算力技术的不断进步,ChatGPT也会进一步走向更高阶的迭代版本,为人类在更多的行业和领域内进行应用,并生成更丰富和美好的对话和内容。
但是,ChatGPT在应用中也不可避免地表现出一些局限和弊端:ChatGPT的回答不够准确,存在胡诌或混淆等情况,用户需要自行判断;ChatGPT缺乏人类的判断力,不能辨明真假,无法理解和解决复杂问题,甚至存在伦理风险;ChatGPT模型需要不断进行训练和调整,需要提供大量的学习语料和算力支持,导致成本巨大;ChatGPT模型本身也存在不稳定、不透明、无法解释等情况;ChatGPT给社会带来了失业焦虑和恐慌,有人预测类似大模型的发展会造成大量失业。任何工具都有弊有利,ChatGPT也不例外。面对ChatGPT呈现出的双面性反馈,我们更要对这种工具进行合理化应用。推进人工智能的发展,仍然任重而道远。