排序方式: 共有13条查询结果,搜索用时 15 毫秒
1.
本文通过实验比较了互信息、χ2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响.实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能.同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和χ2统计算法.另外,对于K最近邻分类算法,随着K值的增大,文本分类的查准率在增加,而查全率在降低.最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的性能. 相似文献
2.
互联网中包含着海量的用户评论,这些评论中包含着用户对产品、服务、品牌、厂商的观点和情感倾向等主观信息,是一种重要的竞争情报.但由于自然语言中人类情感表述的复杂和微妙,现有的竞争情报系统难以实现对这些主观信息的挖掘和利用.在现有情感分析和观点挖掘研究的基础上,本文提出了一种观点挖掘方法,利用手工标注的语料库和针对特定领域的知识树,提高了现有观点挖掘方法的性能.并利用这种方法建立了一个竞争情报系统,自动采集互联网中海量的用户评论信息,从中挖掘用户观点,探讨了对挖掘结果进行分析的方法,并展示了分析结果可视化生成的情报产品. 相似文献
3.
网络事件案例库建设与案例数据分析 总被引:1,自引:0,他引:1
随着因特网的普及,网络舆论对现实社会的影响越来越显著.但当前对网络舆情的传播规律和预警、控制机制研究还处于起步阶段.网络事件往往是网络舆情形成的关键诱因,其传播和讨论对推动网络舆情发展有重要影响.本文以半自动方法自动采集大量网络事件案例相关信息,包括网络事件的发展、传播过程和相关网络文献,建立网络事件案例库,开发了对案例库中的数据进行查询、统计、聚类和信息计量等分析工具,并实现了分析结果的可视化.以网路事件案例库为支撑,本文分析网络舆论的传播要素和传播规律,探讨了网络事件的监控预警和引导控制机制. 相似文献
4.
5.
词义消歧是一个分类过程,局部上下文是主要的分类特征.对称窗口指上下文边界与歧义词的左右距离相等,大部分消歧系统凭经验将其作为最优的局部上下文窗口,很少选择非对称窗口.对称窗口是否优于非对称窗口?本文以Senseval-3中文数据集为例对这一问题展开研究.首先,对训练集采用交叉验证法确定最优窗口,它是非对称的.并采用此非对称窗口与多组经典的对称窗口进行了对比消歧测试,结果表明非对称窗口的表现优于对称窗口.进一步在独立采用词或词性作为特征的情况下进行交叉验证评估,发现趋于对称的窗口总体上表现是优秀的.在不进行辅助计算的情况下,可以选择对称窗口作为局部上下文窗口,但它并不是最优的. 相似文献
6.
文本分类实验包括实验文本集准备、文本索引、特征降维、分类以及性能评估等多个步骤,每个步骤都有很多方法可供选择,而每个不同的选择都会对最终的实验结果产生影响.比较同一步骤中适用的不同算法的性能时,需要保证其他步骤使用相同的方法,使它们在相同的条件下运行.本文提出了文本分类的DICV研究框架,该框架包括核心数据(core data)、文本索引(text indexing)、分类算法(classification algorithm)和可视化界面(visualization interface)4个模块.该框架设计的重点在于①提炼一个统一的文本分类模型,为每个步骤的算法提供一个接口,实现了这个接口的算法就可以通过简单的配置应用于框架中,这使得研究者可以方便地选择各种文本索引、特征降维和分类算法,或添加新的文本集和算法,来完成其需要的文本分类实验.②自动记录文本分类实验各个步骤使用的算法、参数和结果,这使得系统能够将研究者的选择和实验步骤的中间结果记录下来,供研究者在后续研究中使用,可避免不必要的重复性工作,提高文本分类研究的效率. 相似文献
7.
8.
9.
一种关键情报课题管理模型 总被引:1,自引:1,他引:0
提出一种新的关键情报课题管理模型,这个模型能够有效地表示有关情报需求、情报支持和情报要素的CI专业知识,帮助CI专业人员更好地搜集、分析和整合决策者的情报需求,改善对关键情报课题的管理,更好地实现信息的采集和情报共享。 相似文献
10.