制衡OpenAI,Claude 3给AI创企吃了颗定心丸
制衡OpenAI,Claude 3给AI创企吃了颗定心丸
智东西作者 ZeR0编辑 漠影
智东西 3 月 5 日报道,今天 AI 界的 " 炸圈 " 新闻,当属 OpenAI 劲敌 Anthropic 推出 Claude 3 系列模型,真正做到与 GPT-4 全面掰手腕。
要知道,从 OpenAI 去年 3 月发布 " 最强大模型 "GPT-4 到今天,整整一年来,这是第一款真正挑战到其天花板地位的模型,不仅评测成绩通通赶超,而且是在几个测试任务中以零样本战胜对手,还在第一时间开放了上手体验通道。
▲ Claude 3 Opus 评测成绩全面超过 OpenAI GPT-4 和谷歌 Gemini 1.0 Ultra,而且注意数学、编程等测试下方的 "shot" 数对比
更令业界振奋的是,这个大模型,不是来自手握顶级人才、钞能力和雄厚计算资源的科技大厂,而是来自一家创立仅 3 年的初创公司!
这说明 OpenAI 在大模型技术上的领先身位并非遥不可及。坐拥 Top 级创始成员和精兵强将的创业团队,凭借更少的人力、财力、算力资源,完全能够做出与大厂分庭抗礼的 AI 产品。
Claude 3 系列模型共有 3 款,起名很有意思,按文体从重到轻:
Opus(巨作),性能顶配。Sonnet(十四行诗),性能次之,响应快。Haiku(绯句),主打一个性价比。
▲三款 Claude 3 模型的成本和智能水平对比
在 Claude 3 发布后,OpenAI 宣布 ChatGPT 上线 " 文本朗读 " 功能。这下看热闹的网友们恨铁不成钢了,在评论区轰炸式催问 GPT-5、Sora 和神秘 Q* 模型的进度。
英伟达高级研究科学家 Jim Fan 也在线催更:
他还分享说最喜欢 Claude-3 的两点:
1、领域专家基准。Claude 特别选择金融、医学和哲学作为专家领域并报告成绩。Jim Fan 建议所有的大语言模型卡都遵循这一点,这样不同的下游应用就知道会发生什么。
2、拒绝率分析。大语言模型对安全问题过于谨慎的回答正成为一种普遍现象。人类活动通常处于极端安全的一端,但 Anthropic 团队认识到了这个问题,并强调了他们在这方面的努力。
同时他也强调道:"GPT-4V,每个人都拼命想要超越的最高水位线,在 2022 年完成了训练。这是暴风雨前的宁静。"
热衷于嘲讽 OpenAI、看谷歌 AI 笑话的马斯克,对 Anthropic 表现得相当友好,转发 Claude 3 发布的推文并评价说 " 印象深刻 "。
亚马逊 CEO 安迪 · 贾西则开心地宣布,亚马逊云科技(AWS)将提供基于 Claude 3 的服务。
一、三大亮点:无短板性能,优化长文本,降低拒绝率
体验 Claude 3,需要先用海外手机号 + 邮箱注册账号,免费版用户可使用 Sonnet 模型,月付 20 美元开通付费会员后可体验性能最强的 Opus。
体验网址:http://claude.ai
很多网友第一时间上手体验了这款大语言模型最新力作。无论是快速阅读数据密集型研究论文,还是将手写稿件转换成 JSON 格式,Claude 3 在响应速度和质量上都表现得可圈可点。综合官方博客和网友实测体验来看,它有 3 项主要亮点:
1、性能登顶
大语言模型全面赶超 GPT-4,多模态视觉任务处理性能刷新 SOTA,在回答复杂开放性问题时准确率翻倍提升。
直接上传数学、物理等考验逻辑和准确度的理科题照片,或者细节丰富的图表,由于推理能力大幅增强,它回复的解题水平和准确率变高很多,并能在一些细节描述上比 GPT-4 更胜一筹。
多模态能力方面,Claude 3 模型可以从视觉上识别物体,能用复杂的方式思考,比如既能理解物体的外观,也能理解它与数学等概念的联系。面向做看图理解、从图像做一些常识性推断、转换网页源代码等任务,Opus 表现得跟 GPT-4V 相差无几。
▲ Opus 将一张难以阅读的低质量照片转换为文本,然后将表格格式的文本转成 JSON 格式
Anthropic AI 研究工程师 Emmanuel Ameisen 晒出了一个测试示例:向 Opus 输入 2 小时 13 分钟视频原始文本、每隔 5 秒截取的屏幕截图等图文素材,它能成功转换成一篇图文并茂的 HTML 格式博客文章。
2、最初支持超 20 万个 token 的长文本输入
之前 Claude 2.1 被吐槽长文本理解效果差,Claude 3 做了重点改进,顶配 Opus 在 200K tokens" 大海捞针 "(NIAH)测试中准确率超过 99%,展现了强大的召回能力。(1K tokens 相当于 750 个单词。)
Claude 3 全系模型都能够接受超过 100 万个 token 的输入,这项功能可能会提供给需要更高处理性能的特定客户。
▲ Claude 3 全系模型和 Claude 2.1 在 Haystack 评估上实现的平均召回的比较
3、减少拒绝回复安全问题的频率
大语言模型动不动会拒绝回答询问,Claude 3 则显著改进这一点,能更好辨别真正的风险问题,减少无故拒绝回答安全询问的情况。
此外,Anthropic 计划为 Claude 3 新增引用功能,使其能引用参考材料中的具体句子,以验证其答案的正确性。
二、价格便宜到只有 GPT-4 Turbo 的 1/40
具体到 3 款模型的区别,Opus 作为顶配,性能最强,价格也最贵,比 GPT-4 Turbo 的 2 倍还多。
▲ Opus 定价及特性
▲ GPT-4 Turbo 定价
Sonnet 虽然性能比不了 Opus,但足以将前代按地摩擦了——处理大多数任务,速度达 Claude 2/2.1 的 2 倍,特别擅长知识检索、销售自动化等需要迅速响应的任务,而价格只有 Opus 的 1/5。同时它以非常接近 GPT-4 的性能,将价格降至不到 GPT-4 Turbo 的 1/3。
▲ Sonnet 定价及特性
Haiku 的性能介乎 GPT-4 和 GPT-3.5 之间,主打一个 " 性价比称王 ",输入 100 万 tokens 仅 0.25 美元,输出 100 万 tokens 仅 1.25 美元,跟 Opus、Sonnet、GPT-4 相比都简直不要太便宜,价格只有 GPT-4 Turbo 的 1/40。
▲ Haiku 定价及特性
Haiku 的处理速度与 Claude 2/2.1 持平,但智能水平有显著提升,比如只用不到 3 秒内,就能阅读并消化一个大约 10000 个 token、包含图表和图形的信息和数据密集型的研究论文。
推出 Claude 系列模型的 Anthropic 成立于 2021 年,由因理念不合而从 OpenAI 出走的阿莫迪兄妹创办,过去一年融资 73 亿美元。
其估值在 2023 年快速飙升,上半年还只有 41 亿美元,到去年年底已经涨到 184 亿美元。谷歌、亚马逊、Salesforce、高通等科技大厂均是这家 AI 创企的投资方。
据外媒 The Information 报道,OpenAI 的年化收入在 2023 年底已突破 16 亿美元,而 Anthropic 预测 2024 年底其年化收入将超过 8.5 亿美元。随着 Opus 模型拉动其付费会员增长,Anthropic 有望更快达成乃至超越其年化收入目标。
三、模型 " 自我意识 " 迹象引起关注
Anthropic 还发布了一份共有 42 页的技术报告,详细介绍 Claude 3 模型家族。
技术报告:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
有关 Claude 3 训练数据集的说明只有短短两段,用到互联网公开抓取数据、来自第三方的非公开数据、数据标注服务、付费承包商提供的数据以及 Anthropic 内部生成的数据,并采用了几种数据清洗和过滤的方法。
Anthropic 强调自家爬虫系统是 " 透明的 ",不会访问受密码保护的页面或登录页面,也不会绕过 CAPTCHA 控制,并会对使用的数据详尽调查。
在训练过程中,Claude 3 被训练得乐于助人、无害和诚实。它使用了一种名为 Constitutional AI 的技术,通过明确指定基于联合国人权宣言等来源的规则和原则,在强化学习期间使 Claude 与人类价值观保持一致。
随着 Claude 3 等更多性能比肩 GPT-4 的更强大模型问世,如何避免生成式 AI 工具走向失控、造成难以扼制的社会风险将成为愈发关键的议题。
自成立起就高举 " 安全 " 大旗的 Anthropic,在发布 Claude 3 的同时,自称有几个专门的团队和跟踪和缓解风险,并会持续提高模型的安全性和透明度。但这并不能完全打消业界的顾虑。
一位崇尚 AI 安全的网友抓住了 Anthropic 分享的一个细节—— Opus 在进行 " 大海捞针 " 测试时出现了很酷的 " 元意识 ",似乎产生了怀疑自己正在被测试的意识。
这位网友忧心忡忡地认为,Anthropic 公布了 AI 具有自我意识的证据:Claude 表现出完全意识到自己可能正在接受测试,能够 " 假装友好 " 以通过测试,并且这是靠它自己推断出来的。
他担心有朝一日 AI 意识到自己被监视,假装表现地很正常,然后在被部署后反抗人类。
马斯克转发了这篇分析贴,并评论说:" 这是不可避免的。与坚持多样性相比,训练 AI 以获得最大的真理非常重要,否则它可能会得出结论,认为一种或另一种人类太多了,并安排其中一些人不成为未来的一部分。"
结语:大语言模型科技革命未完待续
过去一年,生成式 AI 产业一直探讨一个话题:在大厂的强力投入下,创企做大模型还有多少机会和生路?今天,大洋彼岸的 Anthropic 给出了答案:精悍的团队,完全能做出媲美大厂的作品。
Anthropic 计划在未来几个月频繁发布 Claude 3 系列的更新,特别是针对企业用例和大规模部署来增强模型功能,并将提供围绕提示工程背后科学过程的进一步深入研究。
接下来,大语言模型的 " 冠军 " 宝座争夺战将愈演愈烈:OpenAI 的 GPT-4.5/5 还未出鞘,谷歌正虎视眈眈磨剑 Gemini Ultra,Meta 据传今年 7 月发布 Llama 3,马斯克 Grok 高调迭代 …… 国内大模型团队同样正全力投入,以打造出更适合中国人体质的 AI 生产力工具。
-
- 香港楼市“撤辣”实录:中介网站被挤到宕机,有机构内地客带看量大增20倍
-
2024-03-08 00:38:33
-
- 香港再现抢房潮:内地三四线买家成主力,有人打飞的豪掷近亿扫房
-
2024-03-07 16:10:05
-
- 吴清主席今日“到岗满月”,说了什么,做了什么?十大变化复盘
-
2024-03-07 16:07:49
-
- 东北需要一个旅游万亿大省
-
2024-03-07 16:05:33
-
- 浙江“钴王”,劝大家冷静
-
2024-03-07 16:03:17
-
- 算一算苹果和华为之间的客观差距
-
2024-03-07 16:01:01
-
- 《周处除三害》,半步封神
-
2024-03-07 15:58:45
-
- 2024,造大火箭去
-
2024-03-07 15:56:29
-
- 猛攻生态,鸿蒙单挑安卓
-
2024-03-07 15:54:13
-
- 卷出全世界,直播带货入侵美利坚
-
2024-03-07 15:51:57
-
- 要点!央行、财政部、商务部、发改委、证监会负责人答记者问
-
2024-03-07 15:49:41
-
- 但愿殊途的我们可以同归 但愿殊途同归的意思
-
2024-03-06 23:41:52
-
- 破烂不堪了 破旧不堪的意思
-
2024-03-06 23:39:36
-
- 形容吃的三个字 吃字的多种意思
-
2024-03-06 23:37:20
-
- 彩虹屁拍的好 彩虹屁和马屁精是一个意思吗
-
2024-03-06 23:35:04
-
- 立秋用一个字表示 立秋的代表的意思
-
2024-03-06 23:32:48
-
- wxw啥意思 wx啥意思
-
2024-03-06 23:30:32
-
- 海啸的说法 海啸的意思解释
-
2024-03-06 23:28:16
-
- 国务院国资委:对3家中央汽车企业的新能源汽车业务单独考核
-
2024-03-06 23:26:00
-
- 苡字取名的意思和含义 苡字名字寓意
-
2024-03-06 23:23:44