共查询到20条相似文献,搜索用时 46 毫秒
1.
基于模糊处理的中文文本关键词提取算法* 总被引:2,自引:0,他引:2
张红鹰 《现代图书情报技术》2009,25(5):39-43
研究关键词提取算法,在分析可能影响关键词提取词语的各种属性并将其量化的基础上,提出并实现一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。 相似文献
2.
基于统计频率的文本分类特征选择算法研究* 总被引:1,自引:0,他引:1
通过分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency, SF )算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。 相似文献
3.
基于句子的文本表示及中文文本分类研究 总被引:1,自引:0,他引:1
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的. 相似文献
4.
提出一种基于基本要素方法的中文自动文本摘要模型(BESM)。该模型主要借鉴基本要素的思想进行建立,和单纯的基于词的自动文摘模型相比,它将语义信息作为评估句子重要程度的一部分,实现基本要素中提出的将语义信息和统计方法的结合。通过与普通方法的实例对比,突出基本要素方法的优越性和BESM模型的可行性。 相似文献
5.
文本可视化及其主要技术方法研究* 总被引:1,自引:0,他引:1
文本可视化是通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现来的一种方法。通过分析文本可视化典型系统,分析现今的文本可视化的特点。并从基于词汇、基于篇章、基于时间序列、基于主题领域4种不同的文本可视化方式入手来分析其的主要技术方法。最后探讨文本可视化如何在信息环境下发挥作用。 相似文献
6.
基于XML的Web日志挖掘研究* 总被引:2,自引:0,他引:2
潘有能 《现代图书情报技术》2006,1(5):62-64
设计一个基于XML的Web日志挖掘体系结构,简要介绍XGMML和LOGML,并在此基础上讨论LOGML文档的生成方法及利用Apriori算法对日志文档进行频繁集、频繁序列和频繁子图挖掘。 相似文献
7.
对多语言信息处理中的文本表示问题进行阐述。在分析单语言文本表示的模型和过程的基础上,说明多语言文本表示的过程,详细分类并阐述其中的各种方法,对其进行比较分析。概括多语言文本表示的特点,指出尚存在的问题,并对多语言文本表示的发展趋势进行探讨。 相似文献
8.
XML检索系统及其比较研究* 总被引:2,自引:0,他引:2
探讨XML检索与传统信息检索的区别、XML检索的目标与任务以及XML检索系统研究的核心问题,并对现有的几个XML检索系统进行介绍和比较研究。 相似文献
9.
10.
基于XML的PDF文档信息抽取系统的研究* 总被引:3,自引:0,他引:3
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。 相似文献
11.
12.
13.
针对文本聚类分析结果表达中缺乏语义关系的缺陷,本文利用人们在可视化形式下对模型和结构的理解和获取能力,提出了一种新的可视化表达方法。通过改进的Force-directed模型对聚类分析结果进行文本布局,表现文本间的语义相似关系;使用等值线生成算法构建层次性主题图,聚集和提炼文本主题;最终实现文本聚类分析结果的语义直观表达。实验结果表明,这种可视化方法不仅能够有效地表达聚类结果,体现类间、文本间的语义相关程度,而且还有助于发现隐含的信息,并通过类别之间的关联实现有效的信息导航。 相似文献
14.
一种基于Native XML的全文检索引擎 总被引:5,自引:0,他引:5
随着XML的日益流行 ,基于XML的全文检索应用需求也迅速扩大。在这些应用中 ,native XML数据库是发展方向。虽然商业化的native XML数据库已经出现 ,但其全文检索的性能还不尽人意。本文提出一种方法 :在传统的倒排索引的框架下 ,对XML的标记建立索引 ,使得一个全文数据库能够以Native的方式存储、索引、检索和输出XML文档 ,成为一个真正意义上的native XML全文数据库 ,既有传统全文数据库的优越性能 ,又能满足基于na tive XML的应用需求 相似文献
15.
基于领域本体实现Web文本挖掘研究 总被引:1,自引:0,他引:1
16.
17.
18.
19.