“当下,人工智能发展首先需要攻克的是数据量不足的问题。”日前举行的2023大湾区科学论坛上,中国工程院院士、鹏城实验室主任高文直言,虽然企业可通过公开渠道相对容易地购买数据,但“仍不解渴”。
如果把发展人工智能比喻成烹饪,我们不仅在算力大模型这个动力端上差点“火候”,还要加点“料”,即数据。“人工智能的竞争,本质上是数据创造权、数据所有权的竞争。”香港科技大学(广州)协理副校长熊辉说。
广东有着完备的制造业体系,多年来沉淀了海量的制造业数据。同时,作为数字经济大省,广东拥有的数据量也位居全国之首。如何借助人工智能技术挖点“好料”,做出数据的“好菜”,让资源越用越多、越用越好,是广东发展人工智能产业的重要课题。
(资料图片)
蓝海待挖
随着ChatGPT的火爆,未来有可能会导致一部分人员的失业,但同时也会孕育出一批新职业。目前其中最吸人眼球的,就是被称为“AI喂养员”的数据标注员。
给AI喂数据成了专业工作。这也从侧面反映出,在AI时代,数据拥有的重要价值。
5月23日,国家互联网信息办公室发布的《数字中国发展报告(2022年)》显示,2022年我国数据产量达8.1ZB,同比增长22.7%,全球占比达10.5%,位居世界第二。
“海量的数据正在改变现有的商业模式。”大数据专家、科技作家涂子沛举例说,微信每日步数成为保险公司保费定价参考,步数多的人保费可能更低。“数据会成为我们的通行语言,每一家企业都会变成数据公司。”
对于工业大省广东来说,其制造业体系丰富,沉淀了海量的制造业数据。这些贯穿在生产、设计、营销等全链条的数据,在人工智能技术的加持下,正在为制造业发展注入更大动能、打开更大空间。
用AI“提炼”数据,可以让数据变成资本。近日,在广州数据交易所,广州首个公共数据运营产品“企业经营健康指数”顺利完成交易。通过人工智能手段,用经营数据给企业画像,以数据资产化作为新型融资方式,将破解中小企业融资难问题。截至当前,广州数据交易所累计交易金额突破10亿元。
数据价值的不断挖掘,也在反向催生如何获取更多有用数据的市场需求。在深圳数据交易所,可信数据空间技术正式实现国产商业化落地,实现了“数据为我所用,但不一定为我所有”,直击行业痛点。
该技术通过人工智能隐私计算等方式,可实现消费电子产品、新能源锂电池等生产全过程质量数据的可信共享,打消企业数据流通的顾虑。
“该技术未来还可以进一步扩展到制造业、物流等泛工业行业,服务于企业研发、生产、销售、供应、物流等全过程,提升产业链竞争力。”深圳数据交易所董事长李红光说。
在广东数字政府研究院副院长傅建平看来,广东拥有中国制造业全部31个国民经济行业大类,其中15个大类的规模更是居全国之首。挖掘利用好海量的制造业数据,可以推动传统制造业智能化升级,支撑构建虚拟产业集群,催生新产品、新模式、新业态,加快制造业与服务业深度融合,推动人工智能产业加快发展。
仍不解渴
丰富的数据,就如同待开采的金矿,但如何“掘金”仍是一个问题。
“数据之于AI大模型就像原油之于汽车,汽车是无法直接使用原油的,原油要经过一系列复杂的炼化过程。”鹏城实验室云脑使能研究所所长张伟说。
同样的,海量原始数据需要经过“炼化”构建成数据集,才能真正有效地提供给AI大模型训练。
“国内数据流通存在供给不足的问题,尤其是高质量数据不足,限制了国内AI大模型发展。”李红光注意到,国内大模型语音聊天机器人在表达上,中文反馈结果往往不如英文准确,除了中文更难理解、搜索难度更大之外,一个关键因素是数据支撑不足。
如何获取量足、质优的数据,成为人工智能产业向前发展绕不开的问题。
“数据分散在不同的地方,碎片化比较严重。同时,没有经过整理的数据,存在字段缺失、信息不准等问题,影响了数据价值的发挥。”李红光说。
但是,如果数据类型太过丰富,也会进一步分散数据价值。兴森科技PCB事业部(广州)总经理杜子良说,除了文本等结构化数据,工厂还经常留存图像、音频、视频等多样的非结构化数据,处理起来更加困难。随着业务扩张,这家企业在深圳、江苏宜兴等地新建了多个生产基地,这些生产基地之间也面临数据资源高效共享、协同、流动的挑战。
“数据挖掘的痛点是‘孤岛效应’突出,难点是数据利用和保护机制不健全。”琶洲实验室战略研究中心林韬杰博士说。
在实践过程中,还有许多企业仍未建立数据采集能力。树根互联联合创始人、CEO贺东东举例说,比如将机器等“哑设备”用传感器连接,采集数据后还要传输和存储、建模分析,才能将数据变成资产,“但这么做成本高昂”。
释放潜能
“数据应该和广东优势产业尤其是制造业深度融合,才能最大限度激活要素潜力,并助力产业转型升级。”傅建平建议,广东可从盘活数据资源、挖掘数据价值、释放数据潜能三个方向对数据要素进行突破。
所谓“见多才能识广”,AI的迭代同样来自“见多识广之后的沉淀和创造力”。数据的治理、算法的进步,需要大量结构化标注数据,并对模型进行训练、调优。
“过去很多企业的数据被白白浪费掉了,但现在通过传感器即可采集和挖掘数据,再借助基于机器的人工智能算法,不断优化生产和营销。”贺东东说,数据已经成为智能决策的依据,未来也将取代传统厂房、设备,成为企业最有价值的要素。
如今,广东正分门别类推动传统产业转型升级,并为此出台了专门的转型指引,“手把手”指导企业数字化转型。
今年4月,广东省工信厅印发的《广东省纺织服装行业数字化转型指引》和《广东省家具行业企业数字化转型指引》提出,推动大数据挖掘应用迈上新台阶。
比如,在纺织服装行业,充分挖掘广州、深圳、上海等纺织服装展会数据资源,为招展、招商、服务和制定行业政策提供支撑。
在家具行业,加强与家具卖场、经销商、电商平台深度合作,用好用足各类平台数据银行,分析挖掘消费者群体画像,孵化培育热销产品,打造具有特色和影响力的消费新品牌。
赛迪顾问广州分公司总经理贾纺纺认为,在此基础上,还要大力培育一批同时掌握行业和技术知识的制造业数字化转型领域复合型人才,满足行业发展对高素质人才的迫切需求,以数字化转型助力广东传统产业转型升级,提高广东制造业核心竞争力。
需求和机遇往往伴随着行业痛点诞生,不少企业已经“嗅”到了商机,开始借助广东海量的数据资源,研发高质量挖掘数据的系统平台。
比如,数据标注企业云测数据,目前就在华南设有数据交付中心和数据采集基地。在智能驾驶、智能制造等场景中,其自主研发的数据标注平台,可帮助企业快速获取高质量数据,教会人工智能如何识别行人、车辆、交通标识等。
“针对数据分析难的问题,通过AI大模型自动识别并建模分析,可帮助企业快速提炼数据价值。”就在上周,云从科技在广州宣布“从容”大模型亮相。该公司战略部总监马磊说,大模型在制造业领域将大有“用武之地”。
南方日报记者 郜小平 昌道励 李赫