WAIC 2024：无孔不入的大模型共绘未来生活图景

2024-07-06 04:57 来源：略喷网点击：

WAIC 2024：无孔不入的大模型共绘未来生活图景

7 月 4 日，2024 年世界人工智能大会（WAIC）在上海盛大开幕，汇聚了全球 AI 领域的精英与创新成果。今年大会的主题聚焦于 " 以共商促共享，以善治促善智 "，强调了在全球范围内促进开放合作、推动 AI 技术健康发展的重要性。在这个充满智慧碰撞的舞台上，行业领袖、学者和政策制定者共同探讨了人工智能的未来趋势、伦理治理以及对社会的深远影响。

不得不提的是，本届大会共有 500 余家企业确认参展，市外企业和国际企业占比超 50%，展品数量超 1500 项。展览规模、参展企业数、亮点展品数、首发新品数均达历史最高。因此，动点科技也选取了本次颇具代表性的展商及其展品，供读者参考。

蚂蚁集团

据介绍，首次展示的 " 支付宝智能助理 " 是国内首款办事型的 AI 生活管家。依托支付宝这一国内最大的服务型 App，用户不用找入口，通过 " 闲聊 " 就能完成办事、问诊、打车等服务。为了让智能助理的服务能力得到具象化展示，蚂蚁展区搭建了智能助理与咖啡机器人的联动。记者参与了现场体验，只需简单对话，就能获得一杯热气腾腾的咖啡。同时，AI 点单这一新功能，也已在支付宝 App 开启测试，首批支持星巴克、瑞幸、喜茶、霸王茶姬、蜜雪冰城等 12 个茶饮品牌的支付宝小程序。用户通过支付宝智能助理下达指令，比如 " 我想点一杯星巴克的中杯冰拿铁 "，AI 便会进入小程序自动下单，用户确认并付款后，就能到附近的线下门店取到咖啡。

看病求医，是普通人的日常刚需。利用 AI 大模型、数字人等技术，支付宝打造了 "AI 就医助理 " 方案，助力医疗机构为患者提供就医前、中、后全流程服务。蚂蚁展区展示的形象亲切的 " 安诊儿 "，就是浙江省采用支付宝 AI 就医助理方案推出的全国首个 AI 陪诊员，帮助浙江省人民医院前台咨询量减少了 50%。目前全国医院、医疗机构也正在借助这一方案打造更加便利、更具温情的就医服务。

" 多模态 AI 鉴真 " 是模拟蚂蚁大模型安全检测平台 " 蚁天鉴 2.0" 的 AIGC 检测和证照深度合成检测两大能力推出的互动产品。观众可选择证照、音频、视频等多样化素材，该互动会先对这些素材做一番伪造模拟生成。之后，该产品能对上述伪造的素材快速进行精准鉴别，并形成检测报告。在真实的生产场景，蚁天鉴 AI 鉴真解决方案，支持多模态内容真实性和深度伪造检测，防范深度合成技术滥用风险，图像识别准确率 99.9%，达到信通院测评行业最高优秀级别，已经具备了引领性的 AI 安全对抗能力。

在 " 谍影重重 " 互动装置前，观众还可用一场情景剧的方式打开深度伪造（Deepfake）的攻防 " 魔盒 "。首先，用户在该装置上传一张照片，可通过 AI 换脸合成一张新的人脸照片。下一步，可使用合成后的照片甚至视频去刷脸，该互动能够鉴别出该照片或者视频是否是 AI 合成，进而阻止风险行动。

腾讯集团

在 " 腾讯元宝 " 展区，现场观众可以与腾讯元宝 App 进行互动，通过互动装置，生成个人多风格专属头像。作为一款基于腾讯混元大模型开发的 AI 原生应用，腾讯元宝覆盖工作提效、生活娱乐两大场景，除了提供 AI 搜索、AI 总结、AI 写作等核心功能，还提供创意绘画、口语陪练、百变 AI 头像等有趣好玩的特色应用，以及更多用户创建的智能体。而在 " 腾讯元器 " 展区，参会嘉宾可以通过添加提示词、插件、知识库等自由创建智能体，也可以在智能体商店选择、使用智能体，以满足不同场景下的需求。

由腾讯多媒体实验室打造的云境智能 XR 演播室、Tencent266 高清低码直播、全息视频 6DoF 等多款技术应用，专注于多媒体和相关领域的前沿技术探索、产品研发和应用落地，助力传媒、文化、旅游等行业的发展。

舞动极光作为腾讯首款体感健身应用，用户无需额外购置其他外部设备，1 台智能电视、1 部手机，在家打开腾讯视频极光 TV 就能随时快乐健身、暴汗燃脂；以抓宠为核心玩法的手游《创造吧！我们的星球》以图片模型训练技术构建与玩家的互动，提供 " 成为星球远航者 "、" 疯狂啾啾城 " 等轻量 AI 合成玩法。

在养老领域，腾讯则聚焦老年人安全、健康等痛点问题探索科技解决方案，通过公益赋能、方案共创的模式，联合生态伙伴共同探索出隐形护理员 AI 看护摄像头、天籁 inside 助听器、银发听力健康小程序等智慧助老产品，让参观者深刻体会到科技带给银发人群的切实帮助和关怀。

合合信息

本次合合信息展示的文档解析技术是支撑大模型语料训练的关键技术之一，面临着从海量文档中高效提炼 " 智慧燃料 " 的艰巨任务。合合信息的文档解析引擎具备强大的 " 动能 "，最快 1.5 秒可解析百页长文档中的文本、表格、图像等非结构化数据，也是当前市面上同类文档解析引擎中处理速度最快的产品之一；同时，引擎还具备优秀的文档 " 理解力 "，可智能还原文档阅读顺序，加速了模型在预训练、开发、使用落地等多方面的流程。

在文档解析范畴中，针对图表类素材的识别、内容理解是多数大模型亟待解决的障碍，合合信息大模型 " 加速器 " 则打通了这一堵点：引擎能够深度 " 洞察 " 图表内容，对研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表进行 " 还原 "，巧妙转化大模型能够理解的 markdown 格式，使数据和图表的价值潜能充分释放。

在文档解析引擎的帮助下，大模型可以直接获取图表原始的结构化数据，高效地学习理解商业研报和学术论文等专业文档中的论证逻辑，提升语言理解、数据处理、知识推理分析的效率和准确性，满足更高价值的金融和学术等应用场景的需要。

百川智能

展会现场，百川智能展示了其一年多时间里大模型的研发进展。成立以来，百川智能先后发布了 Baichuan-7B/13B，Baichuan2-7B/13B 四款开源可免费商用大模型，以及 Baichuan2-192K、Baichuan-NPC、Baichuan 4 等 7 款闭源大模型。此外，还与国家级研究机构鹏城实验室共同发布了 128K 长窗口大模型 " 鹏城 - 百川 · 脑海 33B"，模型研发速度领先行业水平。

本次展会上也带来了其通用医疗增强大模型和 AI 医疗应用的最新突破。百川智能的通用医疗增强大模型不仅在 USMLE（美国医考）的评测中超越了 GPT-4，并且在由医生（协和、北医等头部三甲高年资主任、主治医师）和心理学专家作为评测主体，对模型进行多角度评测的真实人工评测中，同样超越了 GPT-4。

在此基础上，百川智能研发了一款全新的 AI 医疗应用—— AI 健康顾问，AI 健康顾问依托百川智能的通用医疗增强大模型打造，不仅拥有丰富的医药学知识，并且还具备医生思维。它能够像从业多年的全科医生一样，在用户提出问询之后，根据用户的问题持续提问，从更多维度更深入地了解症状，收集到足够多病症信息后再进行综合判断，给出诊断结果和用药建议。比如，用户问 AI 健康顾问 " 我肚子疼，该怎么办？"，收到问题之后，AI 健康顾问会相继向用户提出，" 是否有呕吐、恶心、腹泻等其他的症状？是否发烧？肚子疼的具体位置？" 等多个角度的问题，最后根据用户的回答综合判断病因，给出治疗建议。

科大讯飞

本次大会，科大讯飞带来了新近推出的基于全国产算力平台 " 飞星一号 " 训练的全民开放大模型——讯飞星火 V4.0。讯飞星火 V4.0 七大核心能力全面提升，全面对标 GPT-4 Turbo。

值得一提的是，本次科大讯飞还展示了大模型助力企业数字化转型的解决方案——星火企业智能体平台。星火企业智能体平台的 " 任务链 " 功能自动链接外部权威信源，" 知识库 " 功能自动链接企业内部知识系统，打通内外信息鸿沟，为企业生产经营快速精准找到关键信息，敏捷触达大模型企业落地 " 最后一公里 "。

用户只需在星火企业智能体平台上 " 拖拖拽拽 "，或者直接用语音操控，以零代码、低代码的方式就能完成企业场景应用开发，配置出各种专业功能的智能体，每一个岗位都可以快速配置特定职能模块的 AI 岗位助手，每一个人都可以定义自己的 AI 个人助手，大幅降低企业研发成本。

特斯拉

特斯拉在今年的 WAIC 展示了其赛博越野旅行车、Optimus 人形机器人、FSD（完全自动驾驶能力）最新成果等。

赛博越野旅行车是世界上第一款采用 48V 低压架构的车，革新了行业沿用七十多年的传统架构，大幅提升了车辆整体的能效表现，为更多智能化功能的部署拓展了空间。它也是首款采用线控转向的量产车型，即完全用电能实现转向，实现更安全灵敏的转向操控。

赛博越野旅行车坚固的外骨骼，经得住外部凹陷、损坏和腐蚀的考验，48V 技术使得车辆可以搭载线控转向和后轮转向技术，避免了机械结构的磨损。作为一辆电动越野车，它拥有近 5 吨的牵引能力（相当于一头非洲象的平均体重），最大载荷 1134 千克（相当于一头成年野牛）。

基于大规模行驶里程、自研运算平台、巨大算力的深度布局，搭载 HW4.0 的特斯拉 FSD 完全自动驾驶持续升级迭代，已进入 V12.4 阶段，能够对相当复杂的路况做出灵活准确的反应。特斯拉 2024 年第一季度安全报告显示，使用 Autopilot 自动辅助驾驶系统的特斯拉，让行车安全达到美国平均水平的 11.4 倍。与此同时，特斯拉正将高效推理计算机技术引入电动车中，并将在未来的 Optimus 人形机器人项目中进一步应用。

值得一提的是，本次特斯来带来的是新一代 Optimus 人形机器人 , 尽管未在会场进行动态展示，但据介绍，该机器人将可以借助视觉神经网络和 FSD 芯片帮助人类进行一些工业生产操作。特斯拉预计将于明年开始限量生产人形机器人，并将有超过 1000 个 Optimus 在特斯拉工厂帮助人类完成生产任务。

商汤科技

在本次大会上，商汤科技带来了首个面向 C 端用户的可控人物视频生成大模型—— Vimi。Vimi 基于商汤日日新大模型的强大能力，仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频，并支持多种驱动方式，可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

智慧医疗方面一直是商汤关注的重点，商汤医疗全面打造了大模型驱动的数智化病理科整体解决方案，串联切片数字化扫描、高性能阅片、AI 智能辅助诊断、数据存储等病理智慧化诊断全流程，可适配众多品牌扫描仪及存储设备，实现千人并发秒级无卡顿调阅，同时大模型支持百余种临床辅助诊断任务，满足多院区病理智能分析需求，开启大模型赋能下的病理诊断 " 新纪元 "。

针对临床诊疗领域，商汤医疗为医院提供一站式智能影像分析，实现覆盖诊、疗、愈全流程的 AI 辅助。除了医疗 AI 应用模块扩容至近 30 款外，采用创新的 " 通专融合 " 路径，充分挖掘医疗大模型的智能调度能力，统筹调用覆盖 CT 影像、MR 影像、DR 影像、病理图像等多种数据模态的 AI 辅助模型及智能工具，从而突破单一模态的限制，提供更加丰富的交互能力，帮助医生进一步提升诊断的准确性和效率。

随着新能源车产业的发展，自动驾驶日益受到关注。DriveAGI 是商汤绝影研发的首个应用于驾驶决策规划的智驾大模型，由多模态大模型支持的下一代自动驾驶技术。DriveAGI 可充分增强端到端智驾方案的可解释性，不仅让车辆能够更像人一样理解复杂的现实世界，洞察各类交通参与者的行为动机，快速学习各种交通规则，掌握瞬息万变的道路信息，还能向用户解释驾驶决策的推理过程。DriveAGI 还提升了端到端智驾方案的交互性，用户不仅可以通过问询让自动驾驶系统解释自己的决策过程，还能通过语音或手势指令来控制自动驾驶行为。

猿力科技

猿力科技于今年 5 月通过大模型备案后，首次通过 WAIC 展示其自研大模型支撑的教育产品 " 全家桶 "，其中包括飞象星球、猿编程、小猿学练机、海豚 AI 学等国内教育服务产品，及旗下两款 AI 教育出海产品 CheckMath、LeapMath。

从展会现场了解到，猿力科技大模型技术已覆盖对话辅导、口语陪练、阅读理解等面向家庭教育端的应用场景，以及作业批改、学情分析、答疑辅导等服务于政府和学校端的教育应用场景。

海豚 AI 学所展示的 "AI 答疑功能 " 与 " 超时空对话 AI 名人 " 在展会现场引发围观。AI 答疑再升级，区分学练场景。学习环节新增视频 AI 答疑，利用多模态技术，学生可以与视频内容实时问答。练习环节，采用苏格拉底启发式 AI 答疑，主要应用于数学和物理习题解析场景，多轮问答引导孩子主动思考、掌握原理。

小猿学练机本次展出了与大语文场景深度融合的 "AI 伴读大模型 " 与 "AI 百科大模型 "，其中，"AI 伴读大模型 " 可就阅读内容与学习者展开深度互动，实现主动阅读、主动思考，进而提升深度表达、理解和写作能力。

展会现场还亮相了此次 WAIC 上为数不多的设计工具类产品 "Motiff 妙多 "。面对观众随机提出的需求，Motiff 妙多给观众们展示了一系列 AI 生成 UI 的内容。" 创建一个欧洲杯直播 App 界面，要有实时评论区域，主题颜色是绿色。" 输入这段描述性指令，不到一分钟，Motiff 妙多就生成了一版设计稿。进一步输入更多指令后，还可以生成赛事预告、小组比分、最佳射手、最佳助攻等界面，和当下热门的体育类 App 别无二致。除此之外，Motiff 妙多还给观众展示了生成餐饮、金融、媒体、社交等不同行业、不同类型的 App 设计稿，生成的设计稿还可在 Motiff 妙多的编辑器中不断调整优化，直至定稿。

岩芯数智 RockAI

RockAI 此次在 WAIC 首次展示自家 Yan 1.2 大模型，据悉，该大模型可以 " 原生无损 " 地以 6+tokens/s 的速度运行于算力仅普通电脑八分之一的树莓派上，并在这个仅有信用卡大小的芯片上实现超强的多模态能力，不仅能 " 听说读 "，还可以识别模糊指令，进行学习、创作及互动。

大会现场，研发团队展示了一款部署了 Yan1.2 多模态大模型的智能机器人小智，它能够基于 Yan1.2 的语音和视觉处理能力，实时识别环境、准确理解用户的模糊指令和意图，并据此控制其机械躯体高效完成各类复杂任务。值得一提的是，此次 " 小智 " 机器人搭载的核心硬件是以低算力著称的树莓派第五代芯片。在极低算力的设备上实现了强大的多模态能力。

比如，小智可以根据 " 让一让，我要放东西 " 的模糊指令识别其意图和行动方向，从而做出相应的避让动作。当有人问 " 小智，你现在看到了什么 " 或手捧书籍邀请小智一同看书时，它能够基于多模态能力进行学习和创作，精确描述环境和人物特征、学习书籍信息。而对于需要大脑和躯干协调完成、复杂程度翻倍的任务，小智的表现同样毫不逊色，如 " 在四步之内创作出以枫叶为主题的一首古诗 "。

除机器人外，此次大会 RockAI 团队不仅展示了 Yan1.2 的云端应用能力，也向在场观众展示了 Yan1.2 多模态大模型在树莓派端、手机端、PC 端等其他低算力设备上的无损运行能力。

在 PC 端和手机端，Yan1.2 可流畅地执行大规模数据集的自然语言处理任务和复杂计算，无需依赖云端即可实现快速响应，实现每秒 20+tokens 的输出，其 Agent 联动能力可根据用户指令进行图文识别、主体创作等多项任务，为用户提供更优质的体验。而在树莓派这样的微型计算机上，Yan 模型甚至实现了每秒 6-7 个 tokens 的响应速度。

摩尔线程

本次大会，摩尔线程展示了夸娥集群管理平台（KUAE Platform），该平台是摩尔线程大规模 GPU 计算集群产品可视化管理平台，是用于 Al 大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台，深度集成全功能 GPU 计算、网络和存储，提供高可靠、高算力服务。通过该平台，用户可灵活管理多数据中心、多集群算力资源，集成多维度运维监控、告警和日志系统，帮助智算中心实现运维自动化。

MT AIReality（MT AIR）是摩尔线程自研的新一代的 AI 渲染平台，以 AI 赋能渲染，最大化发挥摩尔线程全功能 GPU 的图形能力与计算能力。AIR 的愿景是大幅降低高质量资产制作门槛与成本，构建拥有照片级、视网膜级、堪比物理世界真实度的实时渲染管线，造福影视、动画、游戏、乃至元宇宙等领域。

九章云极 DataCanvas

本次亮相的 DataCanvas Alaya NeW 智算操作系统是九章云极面向智算产业的又一 AI 软件力作。通过算力管理内核、人工智能服务以及内置自研及生态伙伴的前沿大模型和智能体，Alaya NeW 凭借多层次算力需求满足、一体化 AI 服务、原生适合高性能智算、大幅提升算力效能和利用率，以及低门槛、高效率的 AI 运维等产品优势，成功贯通智算产业基础硬件基础设施和软件基础设施，从而加速大模型应用的广泛落地。

本次展览中，九章云极展出了 DataCanvas Alaya 文旅行业大模型和制造行业大模型。DataCanvas Alaya 行业大模型产品是 DataCanvas Alaya 九章元识大模型矩阵的核心成员，基于公司自研的通用大模型，以及高品质、多领域垂类语料库和图库，DataCanvas Alaya 行业大模型具备丰富的垂类知识储备和强大的逻辑推理能力，能够为广大行业用户提供更加精准、丰富和深入的大模型服务和体验，赋能其加速行业个性化数据的价值转换。

结语

近一年来，通用大模型正飞速发展。业界普遍认为，尽管通用大模型在推动产业发展方面展现出巨大潜力，但在落地过程中仍面临着三个 " 能力短板 "。首先，领域知识的相对缺乏限制了 AI 模型在特定行业的应用深度。其次，复杂决策的挑战表明，AI 在处理高度不确定性和多变量决策时仍显不足。最后，对话交互与有效协同之间存在差异，突显了 AI 在理解语境、实现真正协同工作方面的进步空间。

面对这些挑战，本届大会不仅是一个展示最新 AI 技术成果的平台，更是一个寻求务实解决方案、推动技术进步的论坛。与会者通过深入交流和思想碰撞，探索如何克服这些短板，促进 AI 技术的创新和应用，以实现更广泛的社会和经济效益。随着对生成式人工智能的迷恋逐渐过去，业界更加呼唤那些能够切实落地、解决实际问题的 AI 应用和服务，这正是 2024 世界人工智能大会所承载的使命与期待。

​WAIC 2024：无孔不入的大模型共绘未来生活图景

WAIC 2024：无孔不入的大模型共绘未来生活图景