人工智能的真实现状 / Actual status of AI

Date:

Author:


本文针对大众视角对人工智能当前发展的理解,特别提醒其中存在的偏差和谬误,主旨在于祛魅和劝退。

This post particularly reminds common people their mistakes and fallacies in the comprehension of the current development of artificial intelligence, aiming at disenchanting the current situation and discouraging rushing into the career.

1. 行业发展 / Development of the industry

1.1. 简史 / Brief history

1960 年,感知机(perceptron)对字母图像的简单识别能力掀起了第一轮针对人工智能的学术和社会热潮,又在 1969 年因被发现不能解决异或问题而使整个领域发展停滞。直到 1986 年,反向传播(back-propagation,BP)算法的应用才又将该领域再次加热。1990 年,Yann LeCun 提出卷积神经网络(convolutional neural networks,CNN),并在识别手写数字中展示了突破性,又因当时算力不足而无法有效拓展应用场景。此后,人工智能缓慢、稳步发展,未引起广泛的社会关注。在每一轮热潮中,人工智能领域的突破都被投资界和大众寄予厚望,人们把自己当下所见的陡峭发展曲线视为当然,并在做了二次曲线拟合后憧憬(预测)着即将到来的美好新世界。而当这次突破的潜力接近被挖掘殆尽时(包括客观条件的阻碍),强烈的悲观情绪又占据上风。

2012 年起,深度学习(deep learning,DL)与硬件的显著进步再次加速人工智能的发展,Alpha Go 等具体产品的表现带来了巨大的社会影响力。自此,新算法日新月异,旧算法则被弃之如敝屣,整个行业的发展一日千里。2022 年底 ChatGPT-3.5 发布,大规模语言模型(large language model,LLM)方面的研究迅速铺开,各种终端应用也开始影响大众的工作和生活。近年来这些接连不断的突破让人觉得似乎到了引起质变的当口,那么是否「这次真的不一样」呢?

1.2. 当前经济背景 / Current economic background

自 2008 年金融危机上线以来,强力量化宽松导致市场出清一直未能有效完成,危机根源从未根除。经济形势长期差强人意,人们迫切地需要一项足够重大的技术突破来消解沉疴,使得市场上层出不穷的新概念更容易引起过度关注。区块链就是个被人高高捧起的新技术,尽管它确实有用,但远不及人们所期望它能达到的高度,且仍有不少应用是经过包装的虚拟货币的炒作或诈骗。元宇宙则更甚,一些人试图在大量技术高度不成熟的前提下强行推进相关投研,导致大量企业被动或不明就里地跟进,完全不是汽车行业对概念车的反应。而在学界,人们不断提及「第四次工业革命」的概念,并指定一些领域作为种子选手(也算是一种「待爆艺人」吧),而不像前几次工业革命那样是在事后做总结。

1.3. 新一轮热潮 / New wave

2020 年 5 月,OpenAI 公司公布 ChatGPT-3 模型并在之后提供了 API 调用。2022 年 3 月,更新后的模型有了更强的能力,但仍以 API 形式提供。直到 2022 年 11 月 30 日,ChatGPT-3.5 推出并提供了可直接交互的界面,该模型在对话和内容生成方面的能力才迅速引起公众的广泛关注,人们似乎又看到一条救命稻草。对于 ChatGPT-3.5 的爆火,OpenAI 公司的创始人也始料未及,因为该模型一直在参数规模等方面不断增长,其能力的稳步提升是可预见的,这一版并不存在重大技术突破。而「被公众看见」这件事却造就了一个关键转折点。

2. 不智能的智能 / Aggrandized intelligence

大众在看到一项技术突破时,经常会把它想得过于完美无瑕、过于普适,并据此开始推演可能的影响。就像「时间倒流」这个物理假想,人们在文学、艺术领域对它做着过度引申,并产生出大量幻想作品。

ChatGPT 的表现确实惊人,因为大众此前从未料到人工智能能在自然语言对话中表现得这么流畅、自然。人们赋予它类人的形象,对着它问东问西、絮叨家长里短,并对获得的回应惊叹不已,仿佛它真的拥有了人类的智能。之后,人们又开始了二次曲线拟合和预测。

广告的呈现在于展示产品的高光,而那些没有展示的部分更能用来界定产品的能力边界。波士顿动力就善于表现这个边界,甚至会混淆能力与愿景,以使人们产生错误认知。虽然 ChatGPT 并未刻意打广告,但人们确实有必要关注它所不能做的事情、其功能有效性的边界,而不是凭想象为它开发出过于广泛的应用场景。

大规模语言模型(LLM)的本质是「接话」,而「问答」是接话的一种形式。这一点有个直观的结果——早期的模型不能分辨「你我」,所以当时的人们在亲切对话时可能因此而得到奇怪的回答。一直以来,各种形式的怪回答层出不穷,比如当年著名的「老奶奶吟唱序列号」,今年的「去洗车是否要开车去」,等等。不过从业者一直在给模型「打补丁」,人类反馈强化学习(reinforcement learning from human feedback,RLHF)能使模型越来越适应各种日常和工业场景。然而,虽有 RLHF 的加持,LLM 在做的仍是归纳已有知识,其在数理逻辑等方面的能力仍较欠缺。

说得极端点,本轮人工智能是在做数据的曲线拟合(curve fitting),其发展极限和应用边界是比较明确的,尽管算力的大幅提升使得拟合结果足够惊人。自当年起,人工智能领域不断迎来进展,已远不局限于自然语言的理解与表达。但有些进展甚至对从业者都造成了长期误导,比如有些所谓的视觉理解实际上可能是基于文本线索的推理[1]。同样地,对于大众而言,新产品的能力边界依然需要特别留意。

[1] Mohammad Asadi, Jack W. O’Sullivan, Fang Cao, et al. MIRAGE: The Illusion of Visual Understanding. arXiv preprint arXiv:2603.21687 (2026).

3. 人工智能之于普通人 / For the people in the wave

3.1. 「炼金术士」的自知 / Self-knowing of the “alchemists”

(本小节针对研究者。)

行业飞腾浩浩汤汤,槛前阶上熙熙攘攘。人工智能再起热潮,众多科技企业大量招贤纳士,很多人看到其中的机会,也纷纷试图卷入其中。然而,岗位的饱和速度远快于多数人的学成速度,当年仅需硕士学历的岗位在三年后可能就要博士起步了,当年的博士岗如今可能需要足够强的学术履历。本轮浪潮初起时抢得先机的人,在若干年前就凭借强烈兴趣投身其中,即使当时行业困乏。后来者享受不到优渥的生态位,只能凭借强悍的实力跻身其中。更多的人只是在这里站住脚,就像他们可能在任何其他领域里获得的结果一样。

本轮人工智能的发展在当下仍处于「混乱无序」的早期状态,一种高效方法的出现会迅速铺开,旧方法即使已成熟且广泛应用也会被迅速抛弃,在单一方向的长期投入很容易血本无归,每个人都必须快速调整以跟上行业前沿。人工智能行业的从业者是如此,而对于更多的只是将人工智能相关技术应用于具体行业的人来说,则要放低身段,安心地做好调包(importing packages)和调参(adjusting parameters)工作,只要得到了更优的结果,一篇论文就出来了。

你我皆是新时代的炼金术士。

3.2. 汽车发动机的设计、制造与维修技术 / Design, manufacture, and repair of motors

(本小节针对使用者。)

  • 站在使用者的角度

发动机是汽车的核心部件,它在设计上的改进影响着汽车的性能和安全,它在制造工艺上的改良影响着生产效率和质量,它在使用中的维修与保养影响着汽车的运行状态和寿命。然而,更广大的汽车参与者是驾驶员和乘客,根本不会关心发动机的设计经过和参数、关注发动机的制造流程、参与发动机的维修,而只在意汽车这一终端产品带给自己的驾驶体验或乘坐体验,即使体验上的一些提升来自发动机。当发动机的设计、制造或维修技术取得重大突破时,多数人也只会从驾驶或乘坐的角度评价它,而不会认为自己需要深入理解它。而汽车上的座椅、仪表、空间,乃至材质、颜色、外形等,反而是人们更多讨论的方面。

上一段的阐述同样可以嫁接到人工智能领域。面对不断跳到眼前的技术更新消息,基本没有必要马上上手尝试,而且新技术几乎肯定无法适应复杂多变的真实场景,很可能在使用中产生各种问题,令终端用户无所适从。先一步使用不成熟的新事物并不能使自己抢占先机,它对自身的助力不见得比带来的困难多。

把自己放在普通用户的角度,坦然面对新事物面前的自己跟别人处在同一起跑线上。

  • 技术不直接作用于人

科技企业在利用人工智能相关成果搭建通用工具,各行各业也都在尝试利用人工智能工具改造已有业务,普通人并无机会和必要直接面对相关技术,而是把技术做了适配和包装的终端产品。

以计算机技术为例:实际上,如今仍只有少数人掌握一定程度的计算机技术。多数人只是在使用各类硬件上所提供的极度简化的功能和服务,他们根本不好奇、不关注、不在意背后所运用的专业技术。很多人所谓的使用计算机也不过是在操作整个技术架构中最上层的面向使用者的交互层(这一层就像是机器平台上的按钮),他们不了解背后的运行机制、不了解如何维护软件系统和硬件设备。

人工智能相关技术同理,不再赘述。

技术的进步影响着我们,但我们并不直接面对技术本身。

3.4. 又一场群体焦虑 / Another group anxiety

(本小节针对生存者。)

假设人工智能真的开始在方方面面大规模应用,那么这个新事物所替代的是岗位,而不是岗位上的人。正如电梯操作岗消失了,这个岗位上的人失业了,但他会再找到其他岗位。对于个体而言,如果人工智能的应用把自己挤出了原有岗位,这当然会带来一段时间的动荡,但新应用必然带来新岗位,会有一部分人迁移到新岗位上,并空出一些岗位由其他人顶上。当然,现在人们普遍认为「算力比人力便宜」,人工智能的应用带来的新岗位将远少于其顶替的旧岗位。不过,我们自身具有的劳动价值是不会被浪费的,一定会有一些组织或机构把这些价值利用起来。再考虑到社会的稳定运行,这些价值也不会被过度免费榨取,而至少能够维持相当水平的生活[2]。此外,我们应当相信自己不是能力最差的那批人,我们之前拥有某种程度的生活,之后也能继续拥有差不多的生活。实际上,社会变动一直很大,一生只做一种工作的人并不多。而真正影响个人谋生的,更可能是经济下滑,而非某个新事物的出现。

对于多数人而言,不必焦虑,要相信自己有能力在新浪潮的影响下继续做一个普通人[3]。也要认识到,如果自己没能力适应这一次的冲击,很可能是自己本就没能力适应环境变化。

当新事物出现时,关注、尝试、使用它当然是值得鼓励的,但不需要认为自己在被驱赶着被迫接触它。新事物的影响也可能没那么大,作为普通人是可以适当地随波逐流的,不必对着外界的一丁点变化一惊一乍。实际上能从新事物出现的早期快速获取价值的途径很可能只有「卖课」,即利用信息差本身来赚钱,而非利用新事物所体现的价值赚钱。这种做法极其直白,只是做个中介,而且是非常初级的中介。

[2] 可以把这个表述当作黑色幽默。

[3] 可以把这个表述也当作黑色幽默。

3.5. 人们习惯于夸张 / Human beings love exaggeration

人们在描述事物时喜欢夸大其词,不给以后的发展留余地。正如城市里名叫「某某新村」的都是老小区,火电机组按锅炉参数在「超临界机组」之上又有「超超临界机组」,视频分辨率在「高清」之上是「全高清」和「超高清」,飞行速度在「超音速」之上是「高超音速」和「极超音速」[4]。关于智能也是如此:有些智能化可能只是达成了自动化;有些智能可能只是作为愿景,却被误认为已接近实现。再如近期有人提议将 token 翻译为「智元」,就是把一个很基础、普通的事物想象得过于神奇,似乎这种神奇的单元组合在一起就拥有了令人惊叹的真实的智能。

正是在这种夸张的影响下,普通人很容易不停地误认为世界上正在发生重大变革,而很少清醒地认识到自己所处的环境多数时候是没什么本质变化的[5]

[4] 还有在点餐中刻意提供的「中杯」「大杯」「超大杯」。

[5] 可以把这个表述还当作黑色幽默。

4. 机遇和挑战 / Opportunities and challenges

搜索引擎大大降低了检索信息的难度,扩大了获取信息的范围。它使人们轻松地拥有大量信息,也深刻改变了大脑对信息的存储方式。本轮人工智能的发展成果以大规模语言模型为亮点,一定程度上取代了信息汇总和处理过程,可以完成一些基础的工作。它使我们不必花时间做信息的归纳,不必在一些繁琐又枯燥的事情上平白消耗时间和精力,也同样会对人们的思维和行为产生更进一步的影响。

当前已有不少人高度接受了本轮人工智能的终端产品,他们完全信任其给出的结果,并直接把它拿来当作自己的劳动成果。这些产品能够做到他们在工作、生活中正在做的许多事,这使他们在潜意识里认定自己可以(或只能)寄生于其中,而不再尝试寻找自身的创造力。他们选择放弃用徒劳的勤奋掩盖平庸的大脑。尽管科技的进步就是在解放人类的双手[6],但这种形式的懒惰是危险的,这不是在利用新事物为己谋利,而是彻底顺从于它,甚至被它所利用而不自知。

层出不穷的新事物一直在带来新的好处和新的问题,务必慎思明辨。取其利而去其弊才能日有所进,轻所得而忧所失只会每况愈下。

[6] 即代替人类的工作,但这么说不好听,容易引起焦虑。


Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.