首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
一种基于TFIDF方法的中文关键词抽取算法   总被引:3,自引:1,他引:3  
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著.  相似文献   

2.
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.  相似文献   

3.
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。  相似文献   

4.
随着互联网技术兴起,人类信息积累速度越来越快,对网页信息自动抽取的需求随之变大。本文对现今网页信息扫描和抽取特点进行分析,对其存在的问题给予阐述,并结合PHP语言,解析如何运用其相关技术对网页信息实现企业级别的精确提取。  相似文献   

5.
基于词义的关键词抽取方法研究   总被引:5,自引:0,他引:5  
In the fielk of automatic information processing,how to precisely describe the text's content has become a rather critical problem.The vector space presentation,which is widely applied at present,is used to approximately illustrate conceptions and meanings by extracting keywords from the text.  相似文献   

6.
基于文本内容的农业网页信息抽取和分类研究   总被引:1,自引:0,他引:1  
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

7.
基于关键词驱动的信息抽取系统的每个关键词都必须对应着相应的抽取规则。为了确保信息抽取系统具有较好的可移植性,设计了一种信息抽取规则描述语言。它由1-N条规则表达式构成。每条规则表达式由测试规则和提取规则两部分构成。它具有很强的描述能力和较高的处理效率,能满足信息抽取的实际需要。  相似文献   

8.
基于分块和统计相结合的新闻正文抽取   总被引:1,自引:0,他引:1  
本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。  相似文献   

9.
专利关键词是对专利文献的高度概括,正确提取专利文献中的关键词对于专利文献的分类、标引、聚类等具有重要意义。结合专利文献的特点,在目前已有方法的基础上,提出了专利文献中领域公共词提取方法、词素加权方法以及并列结构惩罚的方法,将其应用到专利文献关键词抽取中。在过滤公共词的基础上,综合运用词在文献中出现的位置、词频、词素和并列结构计算词对文献主题的影响度,抽取专利文献中的关键词。实验结果表明,在抽取关键词个数为5-9个时,所提方法优于局部加权TF-IDF方法,验证了所提方法的有效性。  相似文献   

10.
11.
利用网络搜索关键词的搜索量变化来分析和预测相关事物发展趋势是一种逐渐被广泛关注的研究领域。提出网络搜索关键词时序变化特征包括领先、同步和滞后三种特征。通过采集搜索网站关键词的搜索量数据,针对分析预测对象进行时差相关分析,可以识别出相关关键词时序变化特征。通过H7 N9禽流感关键词时序变化特征识别实验,说明该方法的可行性。  相似文献   

12.
在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的基础上,提出一种发现新词的方法,并将提取出的未登录词添加到原始词库中,从而构造一部数量适当、覆盖面全、更新方便的关键词词典。基于大规模的新闻语料作为实验资源,采用了一种利用N-gram算法切分,用关键词抽词词典、停用词词典等过滤筛选非专名的新词识别方法。实验结果的测评表明这一方法是简便易行的。  相似文献   

13.
面向社科领域的网络新闻分析与监测   总被引:1,自引:0,他引:1  
通过自然语言处理技术和数理统计方法的运用,网络新闻在经济金融、公共卫生、政治科学、科研管理、舆情监测与预警等社会科学领域具有很大的利用价值。对新闻分析与监测在各个社会科学领域的应用现状进行分析和综述,包括新闻来源、关键技术、领域特点、实施方法和典型系统,总结得出当前研究的特点及发展趋势。  相似文献   

14.
信息采集中Web文档模型的表示是影响采集精度的重要因素之一。本文通过LIRA系统对用户的信息需求进行目标表示,对Web文档模型结构进行分析,提出基于该模型的特定领域目标信息预测采集控制方法,并通过用户自学习实验给出该模型的优化指标。  相似文献   

15.
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。  相似文献   

16.
基于Web2.0应用的电子商务案例分析研究   总被引:1,自引:0,他引:1  
李理  刘春茂 《现代情报》2010,30(2):167-169,115
本文从基于Web2.0应用的电子商务建设的必要性、可行性出发,结合具体案例分析,讨论了将Web2.0理念与技术应用于企业电子商务的具体形式,以及在这个过程中可能出现的问题。最后指出企业在Web2.0环境下成开展电子商务的根本依然是保证产品、服务的质量和企业的诚信。  相似文献   

17.
汉语文献文外频率加权与逆文献频率加权方法的比较   总被引:1,自引:1,他引:0  
本文针对信息表示和信息检索中的文外频率加权和逆文献频率加权进行定量分析。以《软件学报》2004年发表的166篇计算机类的文献为测试集,通过计算机切词,统计词频,分别计算出各种语词加权方式不同的权重,并进行比较分析,得出了逆文献频率加权优于文外频率加权法,对文献频率取对数的逆文献频率加权公式优于不取对数的加权公式的结论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号