基于维基百科的未登录词译文挖掘

Jisuanji Yanjiu yu Fazhan/Computer Research and Development(2011)

引用 0|浏览23
暂无评分
摘要
未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对目标缺失环境下的译文挖掘难点,它采用频度变化信息和邻接信息实现候选单元抽取,并建立基于频度-距离模型、表层匹配模板和摘要得分模型的混合译文挖掘策略.实验将基于搜索引擎的未登录词挖掘技术作为baseline,并采用TOP1进行评测.实验验证基于维基百科的混合译文挖掘方法可达到0.6822的译文正确率,相对baseline取得6.98%的改进.
更多
查看译文
关键词
Cross-language information retrieval (CLIR),Out of vocabulary (OOV),Target-deficit environment,Translation mining,Wikipedia
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要