2024 年的 AI 新闻充满了「突破」。Anthropic 推出 Claude 3.5,OpenAI 发布 GPT-4o,Google 公布 Gemini 2.0。每次发布,评论者都会说:「AI 离 AGI 又近了一步。」
然后 Elon Musk 推出 Grok-2,声称它在某些测试上超越了 GPT-4。舆论���次沸腾:是不是 AGI 已经来了?我们是��是还有不到六年的时间?
我想在这个时刻停下来,问一个简单的问题:我们在测试什么?
「超越」的幻觉
Grok-2 确实在某些标准化测试上的表现比 GPT-4 好。但这些测试是什么?
它们主要是「基准测试」:MMLU(涵盖数学、科学、历史、法律等知识的测试)、HumanEval(代码生成)、GSM8K(数学推理)等。这些测试设计得很好,但它们测试的只是一种特定的、可量化的能力。
想象一下,如果我们用「能否赢得象棋比赛」来衡量人类智慧,那么 Deep Blue 在 1997 年就已经「超越了人类智慧」。但没人会这么说。
原因是:象棋很复杂,但它是一个封闭系统。规则是固定的,目标是明确的,反馈是立即的。现实世界不是这样。
AI 在基准测试上的进步,类似于深蓝在象棋上的进步。它们都是在高度结构化、明确定义的问题上的优化。
人类智慧的三个维度
如果我们要谈「超越人类智慧」,我们首先要定义人类智慧。
心理学家普遍承认,人类智慧有多个维度:
- 认知能力:解决问题、模式识别、逻辑推理
- 适应力:在新环境中学习和调整策略
- 价值判断:理解什么重要、什么不重要,做出权衡决定
目前的 AI 在第一个维度上进步最快。Grok-2、GPT-4、Claude 都在认知测试上表现优异。
但在第二和第三个维度上,我们还远远不够。
适应力的问题
Grok-2 能回答关于 2024 年世界杯的问题吗?也许能,如果它的训练数据包括了。
但如果明天世界杯赛制改了,赛事从夏季改到冬季,场地从地球改到月球,Grok-2 会怎么办?
它能不能自己发现这个变化,并迅速调整自己的理解?不能。
它只能等待新的训练数据。而人类,看一场月球上的足球赛,就能立即理解新的规则,并开始思考新的策略。
价值判断的问题
更深层的问题是价值。
Grok-2 可能能够写出一篇完整的关于气候变化的论文。但它不知道,在所有的选择中,哪一个对人类最重要。它不知道该优先考虑经济增长还是环境保护。它不知道该听谁的声音。
人类智慧的核心,是能够在不同的价值观之间做出权衡。而这种权衡能力,目前的 AI 完全没有。
六年时间表的数学
OK,但如果 AI 能力每年以某个速率提升,六年后不就能达到 AGI 了吗?
这涉及到一个经典的误解:指数增长。
很多人相信 AI 的发展是指数级的。摩尔定律、计算力的增长、数据集的扩大——都在推动 AI 加速。
但这有一个大问题:我们没有无限的计算力,也没有无限的数据。
目前,最大的 AI 模型已经达到了计算资源的瓶颈。训练 GPT-4 需要数千亿美元的投资。下一代模型可能需要更多。
同时,互联网上已经被挖尽的文本数据是有限的。我们已经接近「数据饥荒」。
Google 最近发表的一项研究表明,大规模语言模型的性能提升速度已经在放缓。从 2020 年到 2024 年,改进率从每年 40% 放缓到每年 10% 左右。
如果这个趋势继续,而且没有新的技术突破,那么 AI 不会在六年内达到 AGI。可能需要更长时间——可能是十年,可能是二十年,也可能永远无法达到。
Grok-2 真正的意义
Grok-2 的出现,意味着 AI 竞争激烈化了。X(前 Twitter)公司有资源和动力与 OpenAI 竞争。这可能会加速 AI 的某些方面的进展。
但 Grok-2 超越 GPT-4 在某些基准上,并不意味着它离 AGI 更近了。
它只意味着,在某个特定的测试中,Grok-2 的优化做得更好。
而 AGI,如果它确实存在,会是一个质的转变。不是在 MMLU 上多得 2% 的分数,而是能够自我改进、自我目标设定、理解人类价值观的 AI。
结论:等待下一个突破
我不是在说 AGI 永远不会来。我只是在说,基于目前的趋势,六年的时间表过于乐观。
AI 会继续进步。但进步可能是 S 型曲线,而不是指数曲线。我们可能已经通过了快速增长阶段,现在进入了平坦阶段。
而真正的 AGI,可能需要一个新的技术突破——也许是新的算法、新的硬件、或者对智慧本身的新的理解。
在那之前,我们应该享受 AI 在特定任务上的进步,同时保持警惕,不要被基准测试的数字迷惑。
超越人类智慧,不是一个数字游戏。
💬 留言讨论
加载中...