京 津 冀 晋 蒙 辽 吉 黑 沪 苏 浙 皖 闽 赣 鲁 豫 鄂 湘 粤 桂 琼 渝 川 黔 滇 藏 陕 甘 青 宁 新
首页 / 社会 / 详情
人民网自贡6月17日电 (记者焦磊)6月16日,由人民网主办的2026人民数据大会在四川省自贡市举行。海天瑞声CTO黄宇凯在主旨发言中表示,高质量数据集是人工智能模型能力提升的重要基础,推进高质量数据集建设,需要从总体规划、工程化建设、质量评测和产业生态等方面协同发力。
黄宇凯表示,高质量数据集可直接用于开发和训练人工智能模型,是能有效提升模型性能的数据集合,具有规模大、质量高、安全牢、观点正、效果好、应用广等核心特点,是大模型能力的基础,也决定了模型能力的上限。
黄宇凯认为,高质量数据集建设应遵循“总体规划、分步实施,先易后难、先简后繁”的原则。他表示,数据是人工智能的关键基石,也关系企业和组织内部多部门、多系统协同,需要顶层设计和指导。
对于围绕建设路径,黄宇凯表示,高质量数据集建设需要从供给侧和需求侧两个方向发力。从供给侧看,应站在数据产品和数据服务角度,在数据生产、数据处理、数据供给等方面加大投入;从需求侧看,则应站在人工智能赋能各行业、各场景落地的角度,以应用需求牵引数据建设、释放数据价值。两者之间,需要通过数据技术、数据服务和数据生态协同供需两端,促进人工智能产业高质量发展。
可信数据空间建设与行业高质量数据集建设密切相关。对此,黄宇凯表示,围绕国家数据局推进的可信数据空间,可以从个人、企业、行业、城市、跨境等不同层面展开,根据不同可信数据空间面向的应用场景,需要数据提供方、使用方、服务方、运营方和监管方等多方共同参与。
黄宇凯介绍,在文旅行业,海天瑞声也在多个景区推动多模态伴游助手应用,利用景区文本、图片、视频等数据,结合具体应用场景打造文旅行业高质量数据集,推动导览服务从被动响应向主动服务、从通用答案向深度体验转变。在数字人领域,围绕直播带货、品牌宣传、动画游戏、文化推广等不同场景,也存在文本、声音、视频等多模态定制化数据需求。
据介绍,海天瑞声成立于2005年,长期专注于人工智能高质量数据集能力建设和产品服务,已累计形成1800多个数据集,服务全球超过1200家客户。
黄宇凯表示,结合人才资源、数据资源和工程化、规模化智能平台能力,持续构建高质量数据集,将有助于人工智能更好赋能千行百业。
72岁大妈和35岁男子一见钟情甜蜜照上传朋友圈
李长根的卖官账本
习近平:在庆祝改革开放40周年大会上的讲话
山西沁源县脱贫攻坚之:“一个也不落下”
新时代的人民法典——《中华人民共和国民法典》诞生记
习近平的幸福年心里话
钟南山团队首篇新冠病毒论文 一半以上患者早期不发热,最
巴黎奥运会中国体育代表团成立 参赛运动员共405人
民间法术与道教正法的区别!
习近平会见朝鲜外相李勇浩
福州发布禁毒“战报”:多项成效居福建省第一
古北水镇将于6月19日至21日推出“古北水镇长城龙舟节”
怀柔区第二十一届“京韵满乡”文化旅游节开幕
端午假期 北京公交重点增加景区商圈及火车站运力保障
张海霞:以纪实影像铸文化之魂 以全链运营育文旅长红
侯会斌:数据振兴实体经济 重构商业新生态
全国信标委第一次全体会议暨2026年“标准周”主论坛在京
南京携21家文化科技企业亮相深圳文博会
江苏出台23条措施支持城市更新行动
北京金石博物馆三周年特展《瓦当千秋・金石永寿》公益启幕