Anthropic 的 Claude 3.5 十四行诗让 AI 高级用户惊叹不已：“这太疯狂了”

Claude2024-06-21 08:23:42753

一种新的大型语言模型（LLM）显然在发布大约一个月后从 OpenAI 的 GPT-4o 手中夺走了性能桂冠：新的 Claude 3.5 Sonnet 聊天机器人和来自竞争对手 AI 公司 Anthropic 的 LLM，今天发布，在关键的第三方基准测试中优于世界上所有其他模型，据该公司称。它做到了这一点，同时比以前的 Claude 3 型号更快、更便宜。

但是，放弃新模型并声称占据主导地位是一回事，而用户真正体验和利用性能提升又是另一回事（谷歌双子座家族——我在看着你：在某些指标上据说比 OpenAI 之前的旗舰 GPT-4 更好，但谁真正在利用你？

Anthropic 最新发布的 Claude 3.5 Sonnet 似乎没有这个问题。自发布以来的几个小时内，许多 AI 影响者和高级用户都在网上分享了他们对 Anthropic 新模型的积极印象，并展示了世界上新的、“最智能”的 LLM 能够完成的工作。

提高编码技能和产品创建

正如企业 AI 影响者和专家 Allie K. Miller 在 X 上所写的那样，Claude 3.5 Sonnet 能够在不到半分钟的时间内仅根据一张屏幕截图为她创建一个完整的可玩游戏：

这太疯狂了。在短短 25 秒内，Claude 3.5 Sonnet 为我?️编写了一个功能齐全的 Mancala 网络应用程序，我只提供了一张游戏说明的屏幕截图。它完成了剩下的工作：– 对整个游戏进行编码– 预览它以便我可以测试– 提供游戏规则 pic.twitter.com/WLweZUGt5C
— Allie K. Miller (@alliekmiller) June 20, 2024

同样，信息丰富且及时的 X 帐户 @TestingCatalog News 展示了新推出的“Artifacts”游乐场——它与 Claude 3.5 Sonnet 一起首次亮相，毫不夸张地说，在聊天机器人界面旁边显示了交互式输出的视图——可以执行 Claude 3.5 Sonnet 构建的真实、有效的 Web 表单的代码。

Claude 3.5 刚刚用一个简单的联系表单生成了 React jsx 代码，并设法在 Artifacts playground 中运行它？pic.twitter.com/KREZaArObw
— TestingCatalog News ? (@testingcatalog) June 20, 2024

它甚至能够重现 1995 年开创性电影《黑客》中的图像：

Claude 3.5 Sonnet 是第一个在第一次尝试时重现电影《黑客》中 3D 场景“数据流”的模型。干得好，Anthropic！https://t.co/zXJh6CNNxY pic.twitter.com/sXJDF9XLmS
— Denis Shiryaev ?? (@literallydenis) June 20, 2024

企业人工智能图像生成初创公司EverArt的创始人Pietro Schirano在X上写道，将Claude 3.5 Sonnet与另一个工具Maestro相结合，显示出“AGI的火花”。

克劳德 3.5 十四行诗 + 大师 = AGI 的火花？我要求只用几何形状制作一个马里奥克隆，最疯狂的部分是它还提供了角色动画，而且这些形状看起来很新颖。花了3分钟。看看游戏！pic.twitter.com/YVQYp7m5Ed
— Pietro Schirano (@skirano) June 20, 2024

Anthropic 工作人员为克劳德 3.5 十四行诗而战

虽然明显有偏见，但 Anthropic 开发者关系团队负责人 Alex Albert 在 X 上发布了一个帖子，强调了 Claude 3.5 Sonnet 如何“开始变得非常擅长编码和自主修复拉取请求”，甚至说：“很明显，在一年的时间里，很大一部分代码将由 LLM 编写。

Claude 开始变得非常擅长编码和自主修复拉取请求。很明显，在一年的时间里，很大一部分代码将由LLM编写。
— Alex Albert (@alexalbert__) June 20, 2024

同样，Anthropic 技术人员 Maggie Vo 在 X 上发帖说，Claude 3.5 Sonnet 现在可以做“我的一半工作......我再高兴不过了。

现在，我的一半工作可以通过 3.5 十四行诗完成，我再高兴不过了 https://t.co/pqlN7P8qbC
— Maggie Vo (@YoMaggieVo) June 20, 2024

向 OpenAI 施加压力

其他人则观察到，现在 Claude 3.5 Sonnet 已经超越了 OpenAI 的 GPT-4o，并且价格相似，后者面临着新的压力，需要继续将其模型作为正确的选择。

宾夕法尼亚大学沃顿商学院教授兼人工智能助推器伊桑·莫利克（Ethan Mollick）将Artifacts功能与OpenAI的GPT-4的“代码解释器的更简单版本”进行了比较。

一直在使用新的 Claude 3.5 模型作为测试器，现在它已经出来了，我可以说它非常令人印象深刻，它生成的“工件”就像是 Code Interpreter 的更简单版本这是我创建可玩游戏并与 Claude 一起编辑的实时视频 pic.twitter.com/bWqw8F8CdH
— Ethan Mollick (@emollick) June 20, 2024

X用户@kimmonismus走得更远，称OpenAI将“通过AGI”或通用人工智能“休眠，这是该公司的既定目标，即人工智能模型在最具经济价值的工作中胜过人类。他们抨击该公司宣布了尚未发布的 GPT-4o 附加功能，包括新的语音模式。

嘿，@OpenAI。你通过AGI睡觉。虽然你一直在做出承诺（“耐心的吉米，等待是值得的”）并在没有交付的情况下宣布（“GPT-4o-Voice 在几周内”），但竞争对手设法在不事先发布重大公告的情况下交付！从中取出一片叶子......https://t.co/o6ROsZwDRG
— Chubby♨️ (@kimmonismus) June 20, 2024

仍然不是人类水平

儘管對X的讚揚很高，但其他人指出，Claude 3.5 Sonnett仍然在一些看似基本的認知任務上苦苦挣扎，而人類可以相對輕鬆地執行這些任務，例如玩“井字遊戲”。

像 GPT-4o（以及现在的 Claude 3.5 Sonnet）这样的前沿模型在某些方面可能处于“聪明的高中生”的水平，但它们仍然在井字游戏等基本任务上挣扎。人们希望本地多模式培训会有所帮助，但事实并非如此。pic.twitter.com/1iDq0DCL4Q
— Noam Brown (@polynoamial) June 20, 2024

同样，科技记者蒂莫西·B·李（Timothy B. Lee）在X上@binarybits，他指出，它“有时仍然会犯愚蠢的错误”，并发布了一张截图，要求它回答一个简单的数学单词问题：哪个更值钱：100便士还是四分之三？它最初回答了四分之三。