一种新的大型语言模型 (LLM) 显然在发布大约一个月后从 OpenAI 的 GPT-4o 手中夺走了性能桂冠:新的 Claude 3.5 Sonnet 聊天机器人和来自竞争对手 AI 公司 Anthropic 的 LLM,今天发布,在关键的第三方基准测试中优于世界上所有其他模型,据该公司称。它做到了这一点,同时比以前的 Claude 3 型号更快、更便宜。
但是,放弃新模型并声称占据主导地位是一回事,而用户真正体验和利用性能提升又是另一回事(谷歌双子座家族——我在看着你:在某些指标上据说比 OpenAI 之前的旗舰 GPT-4 更好,但谁真正在利用你?
Anthropic 最新发布的 Claude 3.5 Sonnet 似乎没有这个问题。自发布以来的几个小时内,许多 AI 影响者和高级用户都在网上分享了他们对 Anthropic 新模型的积极印象,并展示了世界上新的、“最智能”的 LLM 能够完成的工作。
提高编码技能和产品创建
正如企业 AI 影响者和专家 Allie K. Miller 在 X 上所写的那样,Claude 3.5 Sonnet 能够在不到半分钟的时间内仅根据一张屏幕截图为她创建一个完整的可玩游戏:
同样,信息丰富且及时的 X 帐户 @TestingCatalog News 展示了新推出的“Artifacts”游乐场——它与 Claude 3.5 Sonnet 一起首次亮相,毫不夸张地说,在聊天机器人界面旁边显示了交互式输出的视图——可以执行 Claude 3.5 Sonnet 构建的真实、有效的 Web 表单的代码。
它甚至能够重现 1995 年开创性电影《黑客》中的图像:
企业人工智能图像生成初创公司EverArt的创始人Pietro Schirano在X上写道,将Claude 3.5 Sonnet与另一个工具Maestro相结合,显示出“AGI的火花”。
Anthropic 工作人员为克劳德 3.5 十四行诗而战
虽然明显有偏见,但 Anthropic 开发者关系团队负责人 Alex Albert 在 X 上发布了一个帖子,强调了 Claude 3.5 Sonnet 如何“开始变得非常擅长编码和自主修复拉取请求”,甚至说:“很明显,在一年的时间里,很大一部分代码将由 LLM 编写。
同样,Anthropic 技术人员 Maggie Vo 在 X 上发帖说,Claude 3.5 Sonnet 现在可以做“我的一半工作......我再高兴不过了。
向 OpenAI 施加压力
其他人则观察到,现在 Claude 3.5 Sonnet 已经超越了 OpenAI 的 GPT-4o,并且价格相似,后者面临着新的压力,需要继续将其模型作为正确的选择。
宾夕法尼亚大学沃顿商学院教授兼人工智能助推器伊桑·莫利克(Ethan Mollick)将Artifacts功能与OpenAI的GPT-4的“代码解释器的更简单版本”进行了比较。
X用户@kimmonismus走得更远,称OpenAI将“通过AGI”或通用人工智能“休眠,这是该公司的既定目标,即人工智能模型在最具经济价值的工作中胜过人类。他们抨击该公司宣布了尚未发布的 GPT-4o 附加功能,包括新的语音模式。
仍然不是人类水平
儘管對X的讚揚很高,但其他人指出,Claude 3.5 Sonnett仍然在一些看似基本的認知任務上苦苦挣扎,而人類可以相對輕鬆地執行這些任務,例如玩“井字遊戲”。
同样,科技记者蒂莫西·B·李(Timothy B. Lee)在X上@binarybits,他指出,它“有时仍然会犯愚蠢的错误”,并发布了一张截图,要求它回答一个简单的数学单词问题:哪个更值钱:100便士还是四分之三?它最初回答了四分之三。
尽管如此,即使存在这些小问题,Claude 3.5 Sonnet 似乎对 Anthropic 和 LLM 来说是一个巨大的飞跃,并表明单个 AI 模型制作者的性能提升肯定不会随着当前可用计算资源(即 GPU)的水平而放缓。
关注+星标“硅基LIFE”,每日获取关于人工智能、芯片领域最新动态。 加微信fusion9000,进“硅基LIFE”粉丝交流群交流并接收实时滚动推送的最新信息
本文链接:https://ki4.cc/Claude/31.html
Claude下载claude官网claude官网下载claude官网如何注册claude官网商城claude官方网页版claude官网注册claude官网网址claude 2官网claude官网名字
网友评论