最新!新时代人民日报通用语料库发布,由南农教授团队制作推出
2019-12-03 11:00:13

扬子晚报网12月3日讯(通讯员 许天颖 记者 王赟)记者从南京农业大学获悉,新时代人民日报通用语料库日前正式发布,这是由南农黄水清教授团队推出的最新版现代汉语通用语料库,是对北京大学1998年人民日报语料库的补充。黄水清教授表示,相关语料将对学界公布,供学术研究用,并且后续还将不断补充最新语料,以促进语料资源的开放和共享。

据了解,语料库是由人工或机器标注好的真实语言材料组成的数据集,是开展与自然语言有关研究的有效工具和手段。依据语料库既可以研究语言普遍规律也可以针对具体文本开展研究。作为现代汉语通用语料,北京大学计算语言研究所的1998年人民日报语料无论在学界和业界都有巨大的影响力。但是随着时间的推移,该语料库在词汇的时效性、完备性和覆盖度上均需要进行更新和补充。

黄水清教授告诉记者,最新发布的“新时代人民日报语料库”收录的是2012年以后即中国特色社会主义进入新时代以后《人民日报》刊发的文章。

当前,人工智能方兴未艾,机器学习被广泛应用于自然语言的计算机处理,而语料库是保证机器学习算法正常运行的先决条件,计算机学习了语料库中的知识,才能对未知问题进行分析、决策。

黄水清教授

黄水清给记者打了个比喻,语料库好比是机器学习的“教材”。教材的好坏影响教学水平,语料库的质量影响机器学习算法的运行效果。高质量的语料库相当于优质“统编教材”,而人民日报语料库就是面向现代汉语文本的机器学习“统编教材”,而且是从文字到思想、从内容到形式都是一流的国标版统编教材。

| 微矩阵

地址:南京市建邺区江东中路369号新华报业传媒广场 邮编:210092 联系我们:025-96096(24小时)

 

互联网新闻信息服务许可证32120170004 视听节目许可证1008318号 广播电视节目制作经营许可证苏字第394号

版权所有 江苏扬子晚报有限公司

 苏ICP备13020714号 | 电信增值业务经营许可证 苏B2-20140001