2025年1月9日,在中国网络空间安全协会人工智能安全治理专业委员会工作年会上,中文互联网语料资源平台正式面向社会发布。平台支持行业领域、体量规模、内容模态等多种标签分类,便于用户下载与使用。
据了解,这项创新成果是在中央网信办指导下,由中国网络空间安全协会会同国家互联网应急中心,协同人工智能产、学、研、用单位共同打造的。
值得一提的是,中文互联网语料资源平台已入驻27个语料数据集,数据总量约2.7T。下一步,平台将依托中国网络空间安全协会人工智能安全治理专委会建立的语料共建共享机制,持续吸纳优质中文互联网语料进驻,探索开展数据来源合规评估、质量评价、安全检测等服务,构建健康可持续的中文互联网语料开发利用生态,促进和支撑大模型产业发展。