中文CCG树库的构建

Journal of Chinese Information Processing(2012)

引用 0|浏览23
暂无评分
摘要
组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经济有效的解决方案是利用现有短语句法树库来自动生成CCG树库。该文提出在清华中文树库的基础上自动生成CCG树库的方法,在预定义的中文句型和基于清华树库的动词子范畴框架的支持下,通过标准转换算法,得到一个包含32 737句、超过35万词次的中文CCG树库。该树库通过手工和自动评价验证,又与已有文献所报告的多语种CCG树库构建工作比较,均证明该文所述方法的有效性。
更多
查看译文
关键词
Chinese sentence pattern,combinatory categorical grammar,treebank,verb sub-categorization frame
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要