基于维基百科的双语语料挖掘技术研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于维基百科的双语语料挖掘技术研究

引用本文：	孟桂国.基于维基百科的双语语料挖掘技术研究[J].科技风,2010(18).

作者姓名：	孟桂国

作者单位：	苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州,215006

摘要：	双语句段是机器翻译的重要资源,目前句段级语料库数量有限且集中在特定领域,很难适应真实的应用.本文介绍了利用维基百科上存在的海量多语言文本资源,采用URL命名规则、HTML网页结构相似性、词语对齐和最大熵分类器技术,研究了一个双语语料自动挖掘方法.实验结果表明挖掘到的双语平行或可比较句段的召回率为88%,准确率为99%o
关键词：	维基百科双语句段平行或可比较网页
本文献已被万方数据等数据库收录！