宾州树库和CTB的Python预处理脚本

来源:转载



本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/nlp/ptb-ctb-python.html


在写句法分析器之前,通常需要将PTB和CTB预处理为:一行一个句子,单文件;符合规范比例的训练集/开发集/测试集;去掉CTB中的xml标签,只保留句子,编码转换。这些步骤很麻烦,因为bracketed的树形结构需要先解析才能转为一行,CTB的组织结构、文件格式与PTB的不同等等。本以为如此古老的数据集,肯定有开源项目做这些脏活累活的。不料并没有,所以我写了几个脚本,自动完成这些预处理,开源在GitHub上。其中,数据集拆分具体是按照Chen and Manning (2014), Dyer et al. (...

继续阅读:码农场 » 宾州树库和CTB的Python预处理脚本


原文链接:http://www.hankcs.com/nlp/ptb-ctb-python.html

感谢阅读本文,欢迎 查看原文或访问 码农场 获取更多内容

分享给朋友:
您可能感兴趣的文章:
随机阅读: