基于维基百科的双语语料挖掘技术研究 |
| |
引用本文: | 孟桂国.基于维基百科的双语语料挖掘技术研究[J].科技风,2010(18). |
| |
作者姓名: | 孟桂国 |
| |
作者单位: | 苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州,215006 |
| |
摘 要: | 双语句段是机器翻译的重要资源,目前句段级语料库数量有限且集中在特定领域,很难适应真实的应用.本文介绍了利用维基百科上存在的海量多语言文本资源,采用URL命名规则、HTML网页结构相似性、词语对齐和最大熵分类器技术,研究了一个双语语料自动挖掘方法.实验结果表明挖掘到的双语平行或可比较句段的召回率为88%,准确率为99%o
|
关 键 词: | 维基百科 双语句段 平行或可比较网页 |
本文献已被 万方数据 等数据库收录! |
|