首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于模糊处理的中文文本关键词提取算法*   总被引:2,自引:0,他引:2  
研究关键词提取算法,在分析可能影响关键词提取词语的各种属性并将其量化的基础上,提出并实现一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。  相似文献   

2.
基于统计频率的文本分类特征选择算法研究*   总被引:1,自引:0,他引:1  
通过分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency, SF )算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。  相似文献   

3.
基于句子的文本表示及中文文本分类研究   总被引:1,自引:0,他引:1  
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的.  相似文献   

4.
提出一种基于基本要素方法的中文自动文本摘要模型(BESM)。该模型主要借鉴基本要素的思想进行建立,和单纯的基于词的自动文摘模型相比,它将语义信息作为评估句子重要程度的一部分,实现基本要素中提出的将语义信息和统计方法的结合。通过与普通方法的实例对比,突出基本要素方法的优越性和BESM模型的可行性。  相似文献   

5.
文本可视化及其主要技术方法研究*   总被引:1,自引:0,他引:1  
 文本可视化是通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现来的一种方法。通过分析文本可视化典型系统,分析现今的文本可视化的特点。并从基于词汇、基于篇章、基于时间序列、基于主题领域4种不同的文本可视化方式入手来分析其的主要技术方法。最后探讨文本可视化如何在信息环境下发挥作用。  相似文献   

6.
基于XML的Web日志挖掘研究*   总被引:2,自引:0,他引:2  
设计一个基于XML的Web日志挖掘体系结构,简要介绍XGMML和LOGML,并在此基础上讨论LOGML文档的生成方法及利用Apriori算法对日志文档进行频繁集、频繁序列和频繁子图挖掘。  相似文献   

7.
 对多语言信息处理中的文本表示问题进行阐述。在分析单语言文本表示的模型和过程的基础上,说明多语言文本表示的过程,详细分类并阐述其中的各种方法,对其进行比较分析。概括多语言文本表示的特点,指出尚存在的问题,并对多语言文本表示的发展趋势进行探讨。  相似文献   

8.
XML检索系统及其比较研究*   总被引:2,自引:0,他引:2  
探讨XML检索与传统信息检索的区别、XML检索的目标与任务以及XML检索系统研究的核心问题,并对现有的几个XML检索系统进行介绍和比较研究。  相似文献   

9.
针对目前适用于中文文本非等级关系提取方法偏少以及关联规则筛选方法忽略了集中出现在部分文本集中的领域词汇关系的问题,通过对中文文本的统计分析,尝试定义一套中文非等级关系提取的规则,同时提出一种加入平均值变量的改进的关联规则。实践证明,基于自定义的语法规则提取方法能够有效地从中文文本中提取出主、谓、宾语,进而提取出非等级关系,改进的关联规则方法能够提取出集中出现在部分文本集中的领域词汇非等级关系。  相似文献   

10.
基于XML的PDF文档信息抽取系统的研究*   总被引:3,自引:0,他引:3  
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。  相似文献   

11.
文本信息可视化模型研究   总被引:2,自引:0,他引:2  
周宁  张会平  金大卫 《情报学报》2007,26(1):155-160
本文针对文本信息资源的特征,提出了一个基于XML的文本信息可视化的通用模型,详细介绍了模型的三个对象空间——XML文档库、XML特征库和可视化对象以及三项关键技术——中文分词、文本分割和可视化映射,并结合实例验证了模型的实用性、易扩展性以及可移植性。  相似文献   

12.
基于信息可视化技术的文本聚类方法研究   总被引:4,自引:0,他引:4  
杨峰  周宁  吴佳鑫 《情报学报》2005,24(6):679-683
信息可视化是信息管理和信息系统的热点研究问题。随着网络技术的发展,充分有效地利用丰富的文本资源成为人们关注的焦点。文本聚类是处理文本的重要方法之一。本文在分析现有文本聚类方法的基础上,结合可视化技术解决该类问题的一般过程,给出了一个基于非线性映射实现的可视化技术进行文本聚类的方法,并通过案例说明该方法的特点,指出它与目前流行方法的不同以及其优势所在。  相似文献   

13.
针对文本聚类分析结果表达中缺乏语义关系的缺陷,本文利用人们在可视化形式下对模型和结构的理解和获取能力,提出了一种新的可视化表达方法。通过改进的Force-directed模型对聚类分析结果进行文本布局,表现文本间的语义相似关系;使用等值线生成算法构建层次性主题图,聚集和提炼文本主题;最终实现文本聚类分析结果的语义直观表达。实验结果表明,这种可视化方法不仅能够有效地表达聚类结果,体现类间、文本间的语义相关程度,而且还有助于发现隐含的信息,并通过类别之间的关联实现有效的信息导航。  相似文献   

14.
一种基于Native XML的全文检索引擎   总被引:5,自引:0,他引:5  
王弘蔚  肖诗斌 《情报学报》2003,22(5):550-556
随着XML的日益流行 ,基于XML的全文检索应用需求也迅速扩大。在这些应用中 ,native XML数据库是发展方向。虽然商业化的native XML数据库已经出现 ,但其全文检索的性能还不尽人意。本文提出一种方法 :在传统的倒排索引的框架下 ,对XML的标记建立索引 ,使得一个全文数据库能够以Native的方式存储、索引、检索和输出XML文档 ,成为一个真正意义上的native XML全文数据库 ,既有传统全文数据库的优越性能 ,又能满足基于na tive XML的应用需求  相似文献   

15.
基于领域本体实现Web文本挖掘研究   总被引:1,自引:0,他引:1  
阮光册 《图书情报工作》2011,55(18):116-120
为弥补改进传统Web文本挖掘方法缺乏对文本语义理解的不足,采用本体与Web文本挖掘相结合的方法,探讨基于领域本体的Web文本挖掘方法。首先创建Web文本的本体结构,然后引入领域本体“概念-概念”相似度矩阵,并就概念间关系识别进行描述,最后给出Web文本挖掘的实现方法,发现Web文本信息的内涵。实验中以网络媒体报道为例,通过文本挖掘得出相关结论。  相似文献   

16.
竞争情报实践离不开收集大量资料,在这些收集到的公开资料中有大量自由文本,从这类文本中正确高效地提取出情报是非常重要的。从可视化技术角度,把文本可视化划分为文本内可视化和文本间可视化技术,并分别就这两大类技术下的各类文本可视化技术的特点以及如何将它们应用于竞争情报文本分析进行阐述,提出文本可视化是竞争情报分析的新的重要手段。  相似文献   

17.
吴育芳  陆春华 《晋图学刊》2010,(3):34-36,49
本文在介绍了Web挖掘的基础上,重点分析了Web文本挖掘的概念、过程及其关键技术,包括文本的特征表示与提取、文本的分类与聚类等。  相似文献   

18.
安海忠  崔娜 《图书情报工作》2009,53(12):117-120
根据新闻要素说,提取专题新闻文本中的关键词并进行预处理;采用向量空间模型表示文本,运用K means算法实现文本聚类并构建关键词关联网络模型以实现文本的可视化。实例表明:该方法能直观地显示专题新闻文本集的主要信息,便于快速掌握新闻中的主体与事件的关系以及新闻关注点随时间的变化,从而加深对信息的理解,有利于信息的充分利用。  相似文献   

19.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

20.
文本可视化可以帮助人们在海量的文本文档中快速获取知识,随着信息技术的发展和信息需求的增加,文本可视化的应用愈加广泛。作为情报学的主要研究对象,文本可视化对基于文献资料的情报研究具有重要的价值。本文结合情报研究任务和文本可视化的应用场景,将27 个案例分为基于文本概览、文本主题、文本情感和文本关系的四类应用,对近期文本可视化的研究状况进行了分析和总结。最后针对可视化方法在情报学的应用提出了建议,以期为相关研究人员提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号