大模型价值跃升“赛点”:算力还是数据
大模型价值跃升“赛点”:算力还是数据
2023 世界人工智能大会期间,有人直言,没有大算力做大模型就是天方夜谭。但也有人认为,数据要素在人工智能大模型的发展中具有关键性作用,决定了模型的训练质量、性能表现和应用领域的广度与深度。
全球大模型群雄逐鹿,算力最先告急。今年 5 月 29 日,英伟达创始人黄仁勋断言," 我们已经达到生成式 AI 引爆点,从此全世界的每个角落都会有算力需求 "。一天后,英伟达市值突破万亿美元,屹立世界之巅。
人们常把算力、算法、数据形容为人工智能的三驾马车,但这三驾马车之间可能也不是完全的并行关系。如果说算力是大模型的 " 根 ",那数据或者说是高质量的语料库,或许就会成为算力的 " 根 "。
一热一冷
大模型浪潮,率先将算力推至风口浪尖。2023 世界人工智能大会上,算力成为大模型绝对的关键词之一。中国工程院院士、鹏城实验室主任高文把算力比作电力,认为没有大算力做大模型就是天方夜谭。华为轮值董事长胡厚崑也提到,大模型训练的效率或者是创新的速度,根本上取决于算力的大小。中国的算力已经成为一个越来越稀缺的资源。
大会期间,毕马威与联想集团联合发布《普慧算力开启新计算时代》报告。毕马威中国数字化赋能主管合伙人张庆杰在解读报告时提到,算力供给增速明显难以满足指数式爆发的需求,储备算力成为各行各业的必要举动。
据了解,深度学习出现之前,用于 AI 训练的算力增长大约每 20 个月翻一番;之后,用于 AI 训练的算力大约每 6 个月翻一番;2012 年后,全球头部 AI 模型训练算力需求更是加速到每 3-4 个月翻一番,即平均每年算力增长幅度达到惊人的 10 倍;目前大模型发展如火如荼,训练算力需求有望扩张到原来的 10-100 倍,算力需求的指数级增长曲线将更加陡峭。
大模型对算力的需求是显而易见的,但更关键的点可能在于是否能把算力更高效地挖掘出来。一家芯片企业的技术人员对北京商报记者提到,一个模型上线需要用到很多硬件,如果只支撑了少量用户,就会因为太贵导致用户不买账,由此撑不起正向循环的情况,但太便宜又会出现亏本的问题。特别是到落地阶段,如何能够结合模型上的一些改进,把硬件的特性最大程度地发挥出来,就会变得非常重要。
" 也就是说在训练阶段,大家对算力的追求可能是‘大’,这一方面能够做出更大的模型,另一方面也能够进行更快速的迭代。但到用户开始接受这个效果的时候,就要涉及到怎样做才能更划算的问题,也就是说在部署阶段,可能要更关注‘精’的问题,尽可能用相对少的算力实现最大程度的作用。" 上述技术人员说道。
大会期间,比起对算力的探讨,数据就显得有些 " 冷清 " 了。" 数据要素比大模型早好几年,大模型被‘炒’起来了,但数据要素却一直不温不火。"7 月 8 日,在 2023 世界人工智能大会 " 大模型时代下的数据要素流通 " 论坛的主题演讲中,拓尔思总裁施水才开场便提出了这样一种现象,在他看来,这场论坛为人们认识数据要素流通提供了一个新的视角。
机遇与挑战
在上述论坛上,中国知网副总经理张宏伟表示,数据是人工智能的基石,数据的质量和数量最终决定人工智能水平高低,影响其安全性、可信性。施水才更是认为,高质量数据才是大模型价值跃迁的制胜法宝。
但当下的问题在于,数据并不都是高质量的。过去一段时间,一度出现 "AI 正在污染中文互联网 " 的讨论,而 AI 最让人诟病的就是 " 幻觉 " 问题,也就是人们常说的 " 一本正经地胡说八道 "。
大模型 " 幻觉 " 也是人工智能大会期间被提到的高频词汇。施水才对北京商报记者提到," 幻觉 " 问题的出现,主要是因为大模型缺乏理论的支撑,因为其核心技术原理主要就是 Transformer 架构下的 Next Token Prediction,即 " 下一个字符的预测 "。另一方面大模型并不是越大越好,数据也不是越多越好,真正好的大模型是参数大小适中,数据高质量。
算力可以堆硬件,相比起来,优质数据的供给可能会复杂得多。中国电子副总经理陆志鹏提到,大模型技术实现高质量发展,数据有效供给是关键,急需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。
在接受北京商报记者采访时,上海数据交易所副总经理韦志林提到,从推动数字经济,推动数据作为生产要素的角度看,数据应该是最核心、最长远、最基础性的因素。" 大模型的预训练对数据要求也特别高,必须在前期进行清洗、标注、标识,但围绕千行百业的数据训练,在数据供给方面也呈现出了许多问题和挑战。"
首要的就是头部厂商并不愿意开放数据。数据是生产要素,数据有价值,这些已经达成共识,但进行数据共享就一定会牵扯到安全问题,如何解决数据在共享过程中的安全机制至关重要。而数据的开放流通,也自然涉及收益分配,且数据流通过程中创造的新价值更多服务于企业内部,拿出去的动力还需进一步培育。
" 所以从数据流通本身看,更多压力还存在供给侧这一方面,需要解决供给侧中产权制度问题、收益分配制度问题、安全问题、基础设施问题等,让数据流通更加便捷、更加合规。" 韦志林表示,上海数据交易所作为国家战略的承接者,需要解决的就是这些问题。
据了解,7 月 8 日,上海数据交易所启动语料数据生态创新合作伙伴计划,而在此前一天,上海数据交易所官网刚刚正式上线语料库,累计挂牌近 30 个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。
北京商报记者 杨月涵
-
- 俄罗斯很愤怒,泽连斯基高调干成了这件事
-
2023-07-11 05:24:45
-
- “ 5 年内人类程序员没了”,Stability AI 老板大胆预测被一众大佬狂怼
-
2023-07-11 05:22:29
-
- 有人差点被骗 160 万元!华为、苹果机主注意:这个功能赶紧关闭
-
2023-07-11 05:20:13
-
- 自行车 +ChatGPT 主打“陪伴”?感觉哪里怪怪的
-
2023-07-11 05:17:57
-
- 昨天连夜通报:确诊 4 例,已隔离!
-
2023-07-11 05:15:41
-
- “敬礼娃娃”郎铮接受总台专访,15 年里他经历了怎样的生命拔节?
-
2023-07-11 05:10:49
-
- 美国宣布了!
-
2023-07-10 22:15:52
-
- 但斌在做一种很新的投资
-
2023-07-10 22:13:35
-
- “把中国式现代化的美好图景一步步变为现实”——习近平总书记考察江苏纪实
-
2023-07-10 22:11:20
-
- 口碑崩塌、虚假宣传,iQOO 正被边缘化?
-
2023-07-10 22:09:04
-
- 从“猪王”之争里,我看到了人类的赛博未来
-
2023-07-10 22:06:48
-
- “道系短视频”带火玄学经济,道系玄学价值几何?
-
2023-07-10 22:04:32
-
- 当一家卖出几千万台电饭煲的公司,开始布局人形机器人
-
2023-07-10 22:02:16
-
- 巴黎的浪漫滤镜,经不起打砸抢烧
-
2023-07-10 22:00:00
-
- 黄仁勋是如何管理万亿英伟达的
-
2023-07-10 21:57:44
-
- 我在越南直播带货:这里年轻人没 KPI,月薪三千也敢买买买
-
2023-07-10 21:55:28
-
- 诺基亚e71安装软件(诺基亚最成功的E系列街机)
-
2023-07-09 15:54:47
-
- 联通宽带错误代码676怎么解决_网络故障自查方法
-
2023-07-09 15:52:30
-
- 播音员主持人资格证(播音主持培训师证书有用么?)
-
2023-07-09 15:50:15
-
- 美缝剂十大排名榜及价格(美缝剂十大排名榜及价格——让你轻松选购最高性价比的
-
2023-07-09 15:47:58