首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于维基百科的双语语料挖掘技术研究
引用本文:孟桂国.基于维基百科的双语语料挖掘技术研究[J].科技风,2010(18).
作者姓名:孟桂国
作者单位:苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州,215006
摘    要:双语句段是机器翻译的重要资源,目前句段级语料库数量有限且集中在特定领域,很难适应真实的应用.本文介绍了利用维基百科上存在的海量多语言文本资源,采用URL命名规则、HTML网页结构相似性、词语对齐和最大熵分类器技术,研究了一个双语语料自动挖掘方法.实验结果表明挖掘到的双语平行或可比较句段的召回率为88%,准确率为99%o

关 键 词:维基百科  双语句段  平行或可比较网页
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号