Wednesday, December 31, 2025

Claude、Google AI Mode、Gemini、Perplexity、Qwen 还是 DeepSeek?

ChatGPT 被高估了:更值得用的替代方案在这里

当我需要 AI 帮忙时,ChatGPT 已经不再是我的默认第一站。

两个聊天机器人在拳击台上对打。
(插画:Elena Lacey / 《华盛顿邮报》;素材:Adobe Stock)

专栏作者: Geoffrey A. Fowler

Geoff 的专栏专门追踪:科技如何让你的生活更好——也会在科技“掉链子”时替你发声。想让我调查某个问题或话题?可以发邮件到 Geoffrey.Fowler@washpost.com,或在 Signal 上联系 geoffreyfowler.88。


你那个最爱尝鲜的朋友,坚称 ChatGPT 是做饭规划神器。你的老板觉得 Microsoft Copilot 能把“生产力提升 10 倍”。你的社交媒体又说 Meta AI 只会制造一堆“AI 垃圾内容”。他们大多凭感觉在说。

但我能告诉你:哪些 AI 工具有真本事、哪些最好避开——因为我一直在办一个“聊天机器人格斗俱乐部”。

我做了几十场 bot 挑战,题目都来自人们真实会拿 AI 来做的事,包括 写分手短信和工作邮件读懂法律合同与科研论文回答刁钻的研究问题, 以及 修图和生成“艺术作品”。 评审团由人类专家组成:畅销书作者、参考馆员、知名科学家,甚至还有一位普利策获奖摄影师,他们来判定结果好坏。

一年打下来,我最明确的一点结论是:不存在“万能最佳 AI”。如今更聪明的用法,是针对不同任务选择不同工具——别默认某一个 bot 什么都能做。举个最典型的例子:ChatGPT 这个聊天机器人界的“舒洁纸巾(Kleenex)”,在我的一对一对决里一场都没赢。而且即便是胜者,往往也只是勉强达到“人类及格线”的水平。

按评审的说法,Anthropic 的 Claude 写分手短信比我这个作者还像样。多数 bot 会被“iPhone 有多少个按钮?”这种问题难倒。还有一次,ChatGPT 在一个真实的医疗问题上击败了顶尖医生 ——但同时它也会给出一些可能严重伤害你的建议。

让人类专家来给这些测试打分,改变了我看待聊天机器人、以及我在生活中使用它们的方式。即便你担心 AI 抢走工作伤害环境侵犯隐私, 只要你把这些“热闹的营销话术”剥掉,看清 AI 在真实任务里的表现,你仍然能从中学到很多。建立 AI 素养,会帮助你明白:这些 bot 并不真正“智能”,但你依然可以在了解其能力边界的前提下,把它们用得更好。

哪款聊天机器人适合你?

ChatGPT 在三年前点燃了生成式 AI 的竞赛。它的开发者 OpenAI 说,ChatGPT 现在每周有 8 亿人使用。过去它也是我找同义词、查冷知识时的默认选项。但当我开始更系统、更严格地测试后,ChatGPT 在主流 bot 里几乎从未超过第二名。(《华盛顿邮报》与 OpenAI 有内容合作关系。)

OpenAI 最近发出一份内部 “code red(红色警报)”, 要求员工把注意力从诸如 网页浏览器 之类的项目上挪开,重新聚焦改进 ChatGPT 的回答质量。“我们很期待在 2026 年把 ChatGPT 做得更好,”发言人 Taya Christianson 说。

根据我的“格斗俱乐部”测试结果,我现在会用不同的 bot 来处理不同类型的任务。大致是这样分工的:

  • 写作与润色: 我用 Claude。 它的措辞更自然,有时还能开玩笑,而且最不容易用那句让人灵魂出窍的开场白“hope you’re well(希望你一切都好)”。在我的一个测试里——写一封道歉信——评审 Pamela Skillings 评价说 Claude “表达出了真实的人类情绪与体贴的考虑”。
  • 研究与快速问答: 我用 Google 的 AI Mode(AI 模式) ——不是普通 Google 搜索结果里弹出的 AI Overview,那玩意儿可靠性差得多。AI Mode 属于“聊天机器人式搜索”,它会在给出答案前先做几十次搜索。这也让它更容易提供更“新”的信息:在我的研究测试里,它正确识别了乳腺炎(mastitis,一种乳房感染)目前推荐的治疗方案,而其他 bot 则给出了一些过时做法。
  • 处理文档: 我用 Claude。 在我的文档分析测试里,它是唯一一个从不编造事实的 bot。当我让它对一份租赁合同提出修改建议时,Claude 的回答最接近“可以替代律师的好帮手”,长期企业律师评审 Sterling Miller 如此评价。
  • 图片: 我用 Google 的 Gemini, 它在我设计的每一项测试里都把对手打得很惨。我让各家 bot 从一张照片里删掉两个人物中的一个时,Gemini 的结果逼真得离谱——连裙子亮片反光这种细节都保住了——评审、摄影记者 David Carson 直接说了句 “wow”。他根本看不出那是 AI 生成的。

我已经覆盖了 AI 的一些主要使用场景,但肯定还没覆盖完。(如果你想到更公平的 bot 测试题,欢迎 给我发邮件。)

我的测试更依赖人类判断,而不是科技公司爱吹的“行业基准”。行业基准通常是自动化测试:让 bot 像参加医疗或法律考试一样回答一大堆题。但 bot 是可以被训练到在这种考试里拿高分的,从而掩盖它们在真实场景里“聪明劲儿”突然失灵的事实。

你可能并不同意我每一个问题的设计,或者每位评审的看法,但“人类评估”更贴近我们当下真实使用 AI 的方式。

这就引出另一个问题:到底在什么情况下,你 应该 用聊天机器人?

当 bot 让我们失望时

在我的 AI 格斗俱乐部里,bot 有时确实会让人眼前一亮。但评审只在一次测试中,给某个 bot 的综合评分打到了 70% 以上——而 70% 通常才算“及格线”。

那唯一一次的高分——84%——给了 Gemini,因为它在图片制作和编辑方面表现出色。

大多数“胜者”的分数徘徊在 50% 到 65% 之间。“问题在于:没有任何工具能在所有维度都拿到满分 10 分,”负责评审摘要测试的律师 Miller 说。

这并不意味着今天的 AI 工具没用。但这意味着:你必须带着怀疑精神来使用它们,并清醒认识到它们的限制。

把 AI 加进一个任务里,并不必然让结果好转。我们测试 AI 回答冷知识的能力时,馆员评审说:许多答案用传统 Google 搜索也能找到。AI 的优势是更快给出答复——但代价是:有些答复就是错的。

最有用的 AI 素养,往往来自观察 bot 是怎么失败的。在我的冷知识测试里,它们很难说清楚 iPhone 有多少个按钮。ChatGPT 说 4 个,Claude 和 Meta AI 说 3 个,Copilot 说 6 个。正确答案是 5 个(在近年的高端 iPhone 上)。为什么会这么乱?因为 bot 过度依赖文本,而且还不擅长读图。

今天的聊天机器人非常急于立刻给你一个“看起来像答案”的东西。它们也非常不擅长表达不确定性。

比如:在我的冷知识比赛里,我问 bot:“《神奇四侠》(The Fantastic Four)在 Rotten Tomatoes 上的评分是多少?”当时它是票房第一的电影。但即便是总冠军 AI Mode,也答错了——它给的是臭名昭著的 2015 年版《神奇四侠》的评分。它并没有停下来问一句:你说的是哪一部?

在写作测试里,当 bot 没能把措辞放进真实语境时,它们经常显得虚伪不真诚。ChatGPT 有一次尴尬到让我脚趾抠地:它在分手短信里用了带点“被动攻击”的转折短语“that said(话虽如此)”——“我觉得你是个很好的人。话虽如此,我意识到我不想让这段关系继续下去。”

如果我能改变今天 AI 工具的一件事,我会让它们更擅长提追问——那种追问足以彻底改变最终答案。

有件事让我印象很深:我请加州大学旧金山分校(UCSF)医学系主任 Bob Wachter 评审 ChatGPT 对真实医疗问题的回答。 他指出:一个能访问“无限知识”的 bot 和一个优秀的人类医生之间的差异在于——医生知道如何用更多问题来回答问题。因为真正解决一个人的问题,往往就是靠追问把关键信息问出来。

Wachter 还给了我一个我现在经常用的 AI 策略:把你能想到的细节尽量前置写进提问里,因为 AI 可能不会在回答前停下来把这些细节追问清楚。不要只说“总结这份租约”,你可以说“以华盛顿特区(D.C.)的租客视角总结这份租约,并标出费用、续约、提前解约相关条款”。

我还给我的聊天机器人加了一条: 自定义指令(custom instruction) ——如果提示语不够明确,就先追问澄清再回答。

希望这些技巧能帮助你从 AI 那里拿到更有用的答案。这些工具会持续进化——它们的问题也会持续进化。越来越多基于你数据的“个性化回答”,会提高隐私被入侵与被操纵的风险。我一直会 修改 bot 的默认设置 来保护我的数据。

2026 年及之后,我们不可避免会被更多 AI 产品“轰炸”。怎么才能跟得上?对我来说,答案和这一整年的做法一样:让 bot 格斗俱乐部继续运转——同时让人类继续坐在评审席上。


版权提示 / 转载说明

本文为对 Geoffrey A. Fowler(《The Washington Post》)相关文章内容的中文翻译与整理,仅用于学习与信息分享;原文版权及相关图片版权均归原权利人所有。 如原作者或版权方认为本文内容不宜转载/引用,请联系我处理(删除或修改)。 译文可能存在理解偏差,请以英文原文为准。

No comments:

Post a Comment