近日,2024北京智源大会“人工智能+数据新基建”专题论坛在京举办。论坛由中国互联网协会指导,北京智源人工智能研究院主办,中国互联网协会人工智能工作委员会(以下简称“工作委员会”)、中国移动研究院共同承办。
中国互联网协会理事长尚冰
尚冰理事长出席论坛并致辞。他指出,以 AIGC、通用大模型为代表的人工智能技术引发了第四次工业革命,成为全球关注的焦点和科技革命争夺的制高点,高质量数据已成为AI大模型研发的战略性资源,数据工程建设成为从 X+AI 转向 AI+X 根本性变革的关键力量。当前,国内开源数据集在数据规模和语料质量上相比海外仍有较大差距,且数据来源较为单一,更新频率较低。尚冰理事长就此提出四点建议:一是加快高质量数据资源开放共享,推动政府、企业、高校合建公开数据集,尤其是公共数据、政府数据和科学数据;二是及时跟进合成数据等技术发展,推进不同领域、不同模态合成数据的技术发展,繁荣AI产业发展;三是尽快构建完善的数据交易机制,制定适配大模型的数据标准体系,畅通数据确权、价值评估、数据定价等流程。四是坚持数据治理与数据流通并重,确保数据基础设施安全、数据流通过程尤其是跨境数据流动安全,加快隐私计算、数据隔离等技术发展。
工作委员会主任委员、北京智源人工智能研究院理事长黄铁军
黄铁军作了题为《 大模型需要大数据流转模式创新》的主题报告。他通过回顾人工智能的发展历程、技术演进路径,分析了计算机“理解”词语含义的方式,及大模型的发展规模与涌现特点,提出了智能的源头是数据(环境)的重要观点;通过分析智源悟道大模型的发展,及传统数据加工方法、迈向Agent主导数据生产产线的实践探索,提出未来数据加工主要靠人工智能的重要观点;通过目前数据到智能转化路径的堵点分析,提出“先使用后付费”实现“数据-智能”正反馈的重要观点,才能加快数据流通,迈向智力、智业时代。
启动仪式
中国互联网协会副秘书长戴炜、智源研究院副院长兼总工程师林咏华,以及来自北京市委网信办、北京市科委、北京市海淀区、北京能源集团、中国移动研究院、工作委员会等相关领导共同参与“北京人工智能数据运营平台”暨“行业数据集-场景应用创新计划”启动仪式。
工作委员会副主任委员南新生
南新生介绍了“行业数据集-场景应用创新计划”。中国互联网协会、智源研究院作为发起单位,依托北京人工智能数据运营平台,向全产业提供开源开放的高价值行业数据集,涉及18个行业4.33TB数据,服务于行业场景的人工智能应用创新与能力提升。
中国移动集团首席科学家、工作委员会副主任委员冯俊兰
冯俊兰作了题为《 数据新基建赋能AI+新质生产力》的主题演讲。她表示,在行业中真正产生新质生产力当前仍面临多方面挑战,实现AI+是一项宏大而复杂的系统工程,开展“AI+”,需要把握好夯实基础底座、坚持价值导向、守牢安全底线、健全配套机制这四个关键点。结合中国移动十多年来在人工智能领域技术研发和规模化落地实践的模式和经验,冯俊兰博士提出,AI+时代,要从大模型的视角重新审视行业:一是需要建立以最低成本来感知和表征复杂系统的行业数据体系;二是构建模拟现网生产的仿真环境,使得智能能够与环境动态互动、实时反馈和提升;三是建立以价值增长为导向的“数据运河”,使得数据在传输过程中价值能得到不断地提升和反馈,进而保证数据的真正流通。
北京大学人工智能研究院副院长、北京大学数据空间技术与系统全国重点实验室主任黄罡主题演讲
黄罡作了题为《基于数联网的大模型智能体数据供应链》的主题演讲,他表示,随着第四范式从科学领域扩展到全领域,全体数据因复用关系自然形成一种巨型复杂网络——数联网,但是第四范式数据基础设施建设与发展“严重滞后于”数联网的规模和效率增长需求,大数据和大模型为代表的第四范式面临“高质量数据危机”。数据基础设施成为网络空间的新型基础设施,要打造专网+公网+跨境的一体化数据基础设施,在互联网全体数据和应用之上打造“开放式”数据飞轮,实现基于数联网的大模型智能体数据供应链,进一步研究以数据为中心的大模型+人机物的智能体环境研究。
复旦大学教授、博导,上海市数据科学重点实验室主任肖仰华
肖仰华作了题为《大模型助力数据要素价值变现》的主题演讲,他表示人类社会日益演变成为一个人、机、物多元融合的复杂系统,数据内涵发生变化,数据科学日益面临新环境、承担新使命。数据要素具有持续流动、多方主体、开放生态、动态增值等特征,对其他生产要素的配置作用日益显著。当前,大模型成为驱动数据要素市场发展、激发数据价值的智能新引擎,“(大模型+数据要素)×千行百业”或将成为推动数据要素市场发展的重要范式。
中国信息通信研究院人工智能研究所高级工程师,中国人工智能产业发展联盟数据委员会主任李荪
李荪作了题为《面向大模型的数据工程》的主题演讲,她指出,大模型时代,数据成为新一轮人工智能竞争的壁垒与制高点,数据工程贯穿于大模型全生命周期。面向大模型的数据工程核心旨在提升大模型数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,涵盖管理体系、开发维护、质量控制、资源运营、合规可信等五大核心要素。中国信息通信研究院在2023年成立AIIA数据委员会,深入产业调研,建立数据集分级评估方法,建立大模型评测实施框架和工具平台,联合产学研加快共建评测数据集资源池。
中国电子云副总裁、数据产品线总经理冯进
冯进作了题为《全国性数据流通交易体系的探索实践》的主题演讲,他认为数据要素化发展面临供给难、确权难、入场难、定价难、流通难等问题,需要全国性布局,从合规保障、流通支撑、供需衔接和生态发展四个方面打造覆盖数据交易全链条的赋能能力,加快解决大模型训练数据荒问题,探索大模型赋能产业高质量发展的可行路径。
会议现场
圆桌讨论环节以“人工智能+数据新基建”为主题。中国移动集团首席科学家冯俊兰作为主持人,与智源研究院副院长兼总工程师林咏华,复旦大学教授、博士生导师肖仰华,南方电网数字化部大数据管理处高级经理陈彬,中国航信资本运营与创新业务部副总经理赵玉霞,国双科技副总裁彭俊等专家就数据新基建的发展战略、数据交易合作模式、数据应用平台建设、数据智慧运营等新思路,面向人工智能+的数据汇聚、生产、挖掘、交易、流通等新路径展开了精彩的讨论。
来自政府、知名专家、学者、企业代表等200余人出席了论坛,会议由工作委员会副主任委员南新生主持。