首页 | 本学科首页   官方微博 | 高级检索  
     

问答服务中的基于类文档排名的问题分类算法
引用本文:王雅蕾,王君泽,王国华,徐晓林. 问答服务中的基于类文档排名的问题分类算法[J]. 情报科学, 2012, 0(2): 296-301
作者姓名:王雅蕾  王君泽  王国华  徐晓林
作者单位:华中科技大学公共管理学院
基金项目:国家社会科学基金项目(10BTQ046);武汉市社会科学基金项目(whsk10056)
摘    要:"新浪爱问"和"百度知道"这类问答服务系统的主要任务之一是对问题进行分类,以便于组织用户产生的问题数据,并进行进一步的分析处理。问答服务系统的实际应用需求对问题分类算法在分类效果、计算复杂度以及对噪声数据敏感度等方面提出了较高的要求。基于信息检索思想,本文提出一种基于类文档排名的分类算法,并从语言模型的角度对该算法进行分析和改进。通过在一个大尺度的问题数据集合进行的一系列实验,表明本文提出的算法在问题分类任务中可以取得优于传统算法的分类效果;同时,该算法计算量较小,适用于处理大规模数据,可以很好的满足问答服务系统中对于问题分类算法的要求。

关 键 词:短文本分类  信息检索  语言模型

Question Classification Algorithm in Community-based Q&A Service
WANG Ya-lei,WANG Jun-ze,WANG Guo-hua,XU Xiao-lin. Question Classification Algorithm in Community-based Q&A Service[J]. Information Science, 2012, 0(2): 296-301
Authors:WANG Ya-lei  WANG Jun-ze  WANG Guo-hua  XU Xiao-lin
Affiliation:(College of Public Administration,Huazhong University of Science and Technology,Wuhan 430074,China)
Abstract:In community-based Q&A service like Sina iask and Baidu Zhidao,one of the major tasks is question classification.Question classification task is important for organize the Q&A archive.The question classification algorithm for the cQA service needs to get hig h accuracy,low computation and low sensitivity to noise.This paper introduces a new question classification approach which based on the idea of information retrieval.Besides that we analyze and improve the new classification approach with language model.The experiment results with great corpus show a significant improvement when the above mentioned approach used.The new approach can deal with the huge Q&A archive.It is fit for the actual demand of the Q&A service.
Keywords:short text classification  information retrieval  language model
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号