共查询到17条相似文献,搜索用时 62 毫秒
1.
一种基于TFIDF方法的中文关键词抽取算法 总被引:3,自引:1,他引:3
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著. 相似文献
2.
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值. 相似文献
3.
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。 相似文献
4.
5.
基于词义的关键词抽取方法研究 总被引:5,自引:0,他引:5
In the fielk of automatic information processing,how to precisely describe the text's content has become a rather critical problem.The vector space presentation,which is widely applied at present,is used to approximately illustrate conceptions and meanings by extracting keywords from the text. 相似文献
6.
基于文本内容的农业网页信息抽取和分类研究 总被引:1,自引:0,他引:1
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。 相似文献
7.
基于关键词驱动的信息抽取系统的每个关键词都必须对应着相应的抽取规则。为了确保信息抽取系统具有较好的可移植性,设计了一种信息抽取规则描述语言。它由1-N条规则表达式构成。每条规则表达式由测试规则和提取规则两部分构成。它具有很强的描述能力和较高的处理效率,能满足信息抽取的实际需要。 相似文献
8.
基于分块和统计相结合的新闻正文抽取 总被引:1,自引:0,他引:1
本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。 相似文献
9.
10.
11.
利用网络搜索关键词的搜索量变化来分析和预测相关事物发展趋势是一种逐渐被广泛关注的研究领域。提出网络搜索关键词时序变化特征包括领先、同步和滞后三种特征。通过采集搜索网站关键词的搜索量数据,针对分析预测对象进行时差相关分析,可以识别出相关关键词时序变化特征。通过H7 N9禽流感关键词时序变化特征识别实验,说明该方法的可行性。 相似文献
12.
13.
面向社科领域的网络新闻分析与监测 总被引:1,自引:0,他引:1
通过自然语言处理技术和数理统计方法的运用,网络新闻在经济金融、公共卫生、政治科学、科研管理、舆情监测与预警等社会科学领域具有很大的利用价值。对新闻分析与监测在各个社会科学领域的应用现状进行分析和综述,包括新闻来源、关键技术、领域特点、实施方法和典型系统,总结得出当前研究的特点及发展趋势。 相似文献
14.
信息采集中Web文档模型的表示是影响采集精度的重要因素之一。本文通过LIRA系统对用户的信息需求进行目标表示,对Web文档模型结构进行分析,提出基于该模型的特定领域目标信息预测采集控制方法,并通过用户自学习实验给出该模型的优化指标。 相似文献
15.
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。 相似文献
16.
基于Web2.0应用的电子商务案例分析研究 总被引:1,自引:0,他引:1
本文从基于Web2.0应用的电子商务建设的必要性、可行性出发,结合具体案例分析,讨论了将Web2.0理念与技术应用于企业电子商务的具体形式,以及在这个过程中可能出现的问题。最后指出企业在Web2.0环境下成开展电子商务的根本依然是保证产品、服务的质量和企业的诚信。 相似文献