第02版:世界智能产业博览会 上一版3  4下一版  
 
标题导航
回到首页 | 标题导航
2024年06月21日 星期五
3 上一篇  下一篇 4 放大 缩小 默认
发布
我市发布首批行业高质量数据集
吴巧君

  本报讯(记者 吴巧君)昨天,2024世界智能产业博览会召开首日,市数据局在国家会展中心(天津)举办我市第一批行业高质量数据集发布活动,37家单位的80个行业高质量数据集公开发布。市科技局、市工业和信息化局、市国资委等市有关部门以及各区数据主管部门、行业数据集建设单位、人工智能产业重点企业、高校和科研机构等60多家单位参加。

  高质量数据集是人工智能模型训练、推理和验证的关键基础,是按照特定标准,依次开展数据采集、数据清洗、数据归类和数据标注等智能化处理,并具备更新和维护机制的数据集合。我市首批发布的数据集涵盖工业制造、交通运输、科技创新、文化旅游、医疗健康、城市治理等12个重点领域,类型包含文本、图片、音频、视频等多种模态。其中,中国手语多模态数据集、“海河·谛听”言语多模态数据集、基于隐私计算技术政务流通数据集、恒达文博文旅·科普基础数据集等69个数据集为国内首次公开发布;14个数据集已应用支撑“数智本草”中医药研发大模型、“海河·谛听”言语交互大模型、“海河·尔语”聋人手语理解大模型、蜜度文修大模型等津产自研大模型,充分展示了我市在重点领域行业数据集建设的特色和成果。

  此次发布的数据集数据应用价值高,智能汽车驾驶场景库数据集旨在建成国内分类最齐全、格式最标准、内容最丰富的面向智能网联汽车研发测试的场景数据库,已支持国际标准、国家标准制定。恒达文博文旅·科普基础数据集规模超300TB,具有5种以上模态数据,已支撑训练了基于ChatGLM等先进架构的大语言模型,并应用于图像识别、古文字识别、文物病害识别等专用模型。

  市数据局相关负责人表示,下一步,天津市将依托产业、科技、人才等优势,持续支持鼓励行业企业、数商和社会资本,整合通用、政用、商用数据资源,加速提升数据供给能力,开发更多细分领域行业数据集。同时,开展数据标注基地建设,推进数据标注产业生态构建、能力提升和场景应用,推动打造国家级试点项目,加快行业高质量数据集发展,催生新产业、新模式。

3 上一篇  下一篇 4 放大 缩小 默认
版权说明:天津日报报业集团所属10报2刊所有作品,版权均属于天津日报报业集团,受《中华人民共和国著作权法》的保护。所有关于天津日报报业集团及其子报子刊内容产品的数字化应用,包括但不限于稿件签约、网络发布、转稿等业务,均需与天津日报报业集团商谈,与天津日报报业集团有互换稿件协议的网站,在转载数字报纸稿件时注明“来源-天津日报报业集团-XX报”和作者姓名,未与天津日报报业集团有协议的网站,谢绝转稿,违者必究。
天津日报报业集团法律事务部