本报讯(记者 吴巧君)昨天,2024世界智能产业博览会召开首日,市数据局在国家会展中心(天津)举办我市第一批行业高质量数据集发布活动,37家单位的80个行业高质量数据集公开发布。市科技局、市工业和信息化局、市国资委等市有关部门以及各区数据主管部门、行业数据集建设单位、人工智能产业重点企业、高校和科研机构等60多家单位参加。
高质量数据集是人工智能模型训练、推理和验证的关键基础,是按照特定标准,依次开展数据采集、数据清洗、数据归类和数据标注等智能化处理,并具备更新和维护机制的数据集合。我市首批发布的数据集涵盖工业制造、交通运输、科技创新、文化旅游、医疗健康、城市治理等12个重点领域,类型包含文本、图片、音频、视频等多种模态。其中,中国手语多模态数据集、“海河·谛听”言语多模态数据集、基于隐私计算技术政务流通数据集、恒达文博文旅·科普基础数据集等69个数据集为国内首次公开发布;14个数据集已应用支撑“数智本草”中医药研发大模型、“海河·谛听”言语交互大模型、“海河·尔语”聋人手语理解大模型、蜜度文修大模型等津产自研大模型,充分展示了我市在重点领域行业数据集建设的特色和成果。
此次发布的数据集数据应用价值高,智能汽车驾驶场景库数据集旨在建成国内分类最齐全、格式最标准、内容最丰富的面向智能网联汽车研发测试的场景数据库,已支持国际标准、国家标准制定。恒达文博文旅·科普基础数据集规模超300TB,具有5种以上模态数据,已支撑训练了基于ChatGLM等先进架构的大语言模型,并应用于图像识别、古文字识别、文物病害识别等专用模型。
市数据局相关负责人表示,下一步,天津市将依托产业、科技、人才等优势,持续支持鼓励行业企业、数商和社会资本,整合通用、政用、商用数据资源,加速提升数据供给能力,开发更多细分领域行业数据集。同时,开展数据标注基地建设,推进数据标注产业生态构建、能力提升和场景应用,推动打造国家级试点项目,加快行业高质量数据集发展,催生新产业、新模式。