对于训练后的研究人员来说,没有比印象、提示和氛围更有价值的信号了,这些印象、提示和氛围可以说服用户转向另一个模型作为他们日常的主要驱动程序。现在,三大领先实验室OpenAI、Anthropic 和 Google 基本上都拥有类似水平的模型,我们已经进入了一种人们知道他们可以去其他地方的状态。甚至在Claude 3.5 发布之前,许多人就已经转向 Claude,仅仅因为它具有出色的编码能力。单凭 Claude 3 还不足以让我放弃它。很明显,从纸面上看,这个模型更好,但这还不足以让我转换模型。
当模型能力长期停滞不前时,深入了解模型是否对您有用就容易得多。Claude 3.5 比 ChatGPT 可靠几个百分点,满足了我的需求,仍然使用 GPT-4 而不是 GPT-4o,这使得首先开始使用 Claude 3.5 变得容易。
Claude 3.5 版本的特点是做了很多小事情,以便更好地服务于成功的模型——更快、更清晰、更一致——这使得蒸馏成为当今顶级实验室的流行技术。
除了基本指标和吞吐量之外,Anthropic 的模型始终给人一种个性最强的感觉,而这种个性恰好是我喜欢的。这种风格很可能源于专注而有效的微调。团队中的每个人都非常认同模型应该是什么样子。
我们最接近Anthropic 的模型规范的就是听他们的对齐负责人之一Amanda Askell 谈论“模型的个性应该是什么”,或者阅读模型的系统提示。Claude 模型专注于乐于助人、慈善和诚实,这一点非常突出。与此同时,OpenAI 的模型规范读起来非常枯燥,讲究遵守规则。
在 Claude 2.1 发布时,Anthropic 试图通过减少模型不知道的问题的答案来让模型更加诚实,但实际上却遭到了很多反对。增加拒绝是吸引一般人工智能评论员的诱饵。事后看来,这似乎是我们现在喜欢 Claude 3.5 的原因——它是最能准确遵循我的指示的模型。我怀疑这与模型知道自己知道什么密切相关。
人们似乎认为,这些收益中的大部分(包括 OpenAI 正在发生的事情)都来自于后训练方法的改进,比如从人类反馈中强化学习 (RLHF)。我赞扬 Anthropic 倾向于他们的个性特征,并理解这如何将我们从模型中获得的信息情境化。在我最近关于RLHF 如何运作的文章中,我解释了为什么这一点如此重要:
风格是人类价值的源泉,这就是为什么重述故事可以产生新的畅销书(例如《人类简史》),并且它是继续推进我们的知识生态系统的基本组成部分。风格与信息本身息息相关。
您可以通过以下方式了解 Claude 3.5 的风格:
它更像助手,在回答简单问题或请求时询问“我应该做 X 吗”。 语气专注,用词特别,与 ChatGPT 近期模型有时不必要的冗长形成鲜明对比。我在纠正问题中的拼写错误时,在一些更有味道的填充词中看到了这一点,比如“这很有道理”。 当被明确要求解决任务而不是在文本中进行情境化时,会更快地删除所有占位符文本。
这意味着,在使用 Claude 一周左右的时间里,一些让 ChatGPT 的用户感到烦恼的失败模式(比如系统在你询问你输入的图片时尝试生成图片,或者在文本答案中添加“你的代码”)还没有困扰到我。从这个角度来看,Claude 的学习曲线似乎更短。对我来说,正确使用 ChatGPT 需要做很多工作,比如“不要喋喋不休”或正确格式化提示。我把所有东西都扔给 Claude,通常都能成功。
更清晰地讲,我认为 Claude 现在就是智能助手,它无需额外信息就能完成我们想要做的事情。这很有趣,但并没有试图用“人工智能应该是什么样子”的答案来打动习惯了 ChatGPT 的人。阻碍 Claude 发展的是产品功能和完善程度。
产品优先级
很多人批评 Anthropic 的用户界面(和其他产品功能)不如 ChatGPT,但实际上,他们把设计与执行混为一谈。对我来说,Claude 的界面更简洁、更直观,但它肯定缺少一些人们可能习惯于 ChatGPT 中的功能。首先,这是 Claude 的界面。
我发现 ChatGPT 在空间利用方面做得更好一些,但将文本框放在最前面和中间是让人们使用它的最简单方法,谷歌一直都是这样做的。
Claude 生成时的信息密度也高于 ChatGPT(ChatGPT 为他们自己的一个例子生成了一个非常长的答案,这已经够疯狂了)。
Claude 和 ChatGPT 的 iOS 应用程序反映了 Web 应用程序的特点。以下是它们的比较。
使用 Claude 时,我失去了一些图像生成功能,也无法轻松运行代码,但对我来说,好处仍然大于坏处。无论如何,Anthropic 似乎非常接近添加许多这些功能,而Artifacts是 v0。
这次对话中缺失的环节是谷歌,我在分析大型文件(如完整的播客剧集)时使用它来生成章节和节目笔记。我在研究这篇文章时发现了 Gemini 的新应用页面,但出于某种原因,我以为我应该使用Google AI Studio ,它远远落后于其他所有应用。我的困惑可能并非孤例,这反映出谷歌在人工智能竞赛中启动时有点慢和混乱。他们现在做得更好了,但必须纠正以前缺乏清晰度的问题。
RLHF 的巅峰?
考虑到我个人可能从中受益,我很容易描绘出 RLHF 等后训练方法对人们使用的先进模型越来越重要的说法,但这有点误导。鉴于 RLHF 等方法主要用于从基础模型中挖掘性能潜力,因此很自然地,随着我们逐渐接近这一代基于计算基础设施的模型的末期,后训练在影响力和文化意识方面达到顶峰——至少在这个模型周期中是如此。
事实上,当 GPT-5 和 Ultra/Opus 类模型以快速和自由的推理方式发布到世人面前时,讨论将再次回到数据和扩展上。数据是这里唯一不变的东西,大多数工业训练后收益可能来自精心策划的用户关心的提示数据。
越来越多地,我们过去在大规模预训练后保留用于指令微调的数据集现在被用于“后期预训练”,为模型提供指令遵循的一般概念。随着我们更好地了解人们今天如何使用模型的重要偏好数据集,我们将扩大它们并将其纳入预训练中。RLHF 始终是一个成功的工具,因为它可以适应新的需求并将其纳入模型中。我不认为这是用户看到的大多数功能的来源。
有关 Claude 3.5 Sonnet 的更多信息,您可以查看The Zvi 。从Scale AI到ChatBotArena ,Claude 在大多数排行榜上都名列第一或接近第一。
参考:
[1] https://www.interconnects.ai/p/switched-to-claude-from-chatgpt
本文链接:https://ki4.cc/Claude/78.html
claudeai 国内镜像claudeai官网地址claudeai应用不可用怎么办claudeai 哪个国家开发的claude官网怎么登录claude官网网页版claude官网如何注册claude2官网免费版claude官网免费claude官网模型是哪个
网友评论