首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
介绍了数据挖掘和Web挖掘的基本概念,在此基础上,对基于Web的文本信息挖掘技术进行了分析研究,给出了一个基于Web的文本挖掘的结构模型。  相似文献   

2.
Web文本挖掘技术研究   总被引:1,自引:0,他引:1  
WWW上的信息量迅猛增长,Internet成为一个拥有大量Web文本资源的巨型数据库。大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战。分析了Web文本的特点、Web文本挖掘的一般流程以及Web文本挖掘中的关键技术。  相似文献   

3.
提出了一种基于XML的Web数据挖掘模型,该模型能很好地体现XML的优越性,并有效地实现Web数据挖掘。  相似文献   

4.
Web文本特征提取方法的研究与发展   总被引:4,自引:0,他引:4  
庞景安 《情报理论与实践》2006,29(3):338-340,367
本文对当前有关Web文本特征提取方法的研究和试验进行了简要的综述和分析,比较了每类方法的优势和不足,指出研究中存在的难点和共同探讨的问题,并在此基础上,对该领域未来研究的发展方向和趋势进行了预测。  相似文献   

5.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。  相似文献   

6.
聚类分析在Web文本挖掘中的应用   总被引:2,自引:0,他引:2  
徐海霞 《情报杂志》2004,23(12):99-101
在区分Web挖掘与数据挖掘的基础上,较详细地分析了Web文本挖掘的过程,并给出了一个具体的Web文本挖掘模型。重点在介绍聚类分析的基础上,以PCCS为算法原型分析了聚类分析在Web文本挖掘中的具体应用。  相似文献   

7.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。  相似文献   

8.
基于改进VSM的Web文本分类方法   总被引:2,自引:0,他引:2  
Web文本自动分类技术是Web文本挖掘的关键技术之一.针对Web文档中不同标签中的文本具有不同的表达文档内容的能力,提出了改进的特征项加权计算方法.根据特征项在文档中的位置和出现频率计算其权值,并给出了具体的Web文本分类算法和评测方法.经实验验证,改进后系统的微平均查准率均大于0.8,分类性能明显好于改进前.  相似文献   

9.
基于信息抽取的文本知识挖掘模型研究   总被引:3,自引:0,他引:3  
从文本知识挖掘的定义入手,分析了文本知识挖掘的关键技术,并在此基础上建立了基于信息抽取的文本知识挖掘模型,最后通过实例(DiscoTEX)说明这个模型是可行的。  相似文献   

10.
於实 《科技通报》2012,28(8):168-170
提出了一种基于改进的隐条件随机场的异构Web数据源数据抽取算法。通过对隐条件随机场进行的改进,对隐含变量进行更为准确的计算,并且克服了该模型的性能严重依赖于初始参数选择的问题,而且进行模型训练时不需要大量的人工标注的样本数据。实验结果表明,对比已有方法,本文算法在对具有缺省属性以及多属性特征的网站进行数据抽取时,在查全率,查准率以及F1值上都获得了令人满意的性能。  相似文献   

11.
Web文本挖掘在辅助研究中的应用   总被引:1,自引:0,他引:1  
刘进锋  荣冈 《情报科学》2006,24(3):400-404
应用Web文本挖掘对网络数据库中检索到的信息进行分析,能够得到对研究工作有辅助作用的知识。文中对数据收集、预处理和数据挖掘的方法进行了详细的介绍。实例证明利用Web文本挖掘能充分利用网络数据库中的信息,对辅助研究是有效的。  相似文献   

12.
基于可视化数据挖掘的管理科学科技文本分析研究   总被引:8,自引:0,他引:8  
通过可视化数据挖掘方法的研究,使用数据挖掘和科技文本分析的方法,获取管理科学研究的新进展、新思想和新方法。综合评价、对比分析了国内外管理科学研究力量和能力水平的分布状况,对管理科学研究主体度资助主体决策活动有较强的支持作用,并对我国管理科学领域进行了实证分析。  相似文献   

13.
基于分块和统计相结合的新闻正文抽取   总被引:1,自引:0,他引:1  
本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。  相似文献   

14.
基于多因素方差分析的文本向量特征挖掘算法   总被引:2,自引:0,他引:2  
文本向量特征挖掘应用于信息资源组织和管理领域,在大数据挖掘领域具有较大应用价值,传统算法精度不好。提出一种基于多因素方差分析的文本向量特征挖掘算法。使用多因素方差分析方法得到多种语料库的特征挖掘规律,结合蚁群算法,根据蚁群适应度概率正则训练迁移法则,得到种群进化最近时刻获得的数据集有效特征概率最大值,基于最优划分的K-means初始聚类中心选取算法,先对数据样本进行划分,然后根据样本分布特点来确定初始聚类中心,提高文本特征挖掘性能。仿真结果表明,该算法提高了文本向量特征的聚类效果,进而提高了特征挖掘性能,具有较高的数据特征召回率和检测率,时间耗时较少,在数据挖掘等领域应用价值较大。  相似文献   

15.
随着大数据信息技术的发展,数据在线监测和数据挖掘成为计算机信息领域研究的热点。通过对Web热点数据分割挖掘,提高信息热点追踪和Web数据分类能力。传统算法采用非结构化数据挖掘算法,无法有效对Web热点数据进行准确定位和分层挖掘。提出一种基于半结构化分割的Web热点数据挖掘算法。采用半结构化数据进行特征分割,基于优秀基因位进行差分进化,使寻优曲线不断趋于平缓,在多个节点上并行的运行比较脚本,采用半结构化分割,使得Web热点特征挖掘实现自适应寻优,得到Web热点数据的分配因子,提高了挖掘性能。仿真结果表明,该算法获得了良好的效率和精度,提高了Web热点数据挖掘的自适应寻优能力。  相似文献   

16.
在领域本体已知和文本语义标注主要步骤的基础上,本文用数据挖掘技术实现文本语义信息的获取,提出了文本语义分析与标注的基本思想和处理流程,深入探讨了用聚类分析完成实例分析与标注过程,用关联挖掘和分类方法完成实例间关系的分析与标注过程。  相似文献   

17.
网络文本数据搜索引擎与搜索技术   总被引:3,自引:0,他引:3  
This paper describes the functions, characteristics and operating principles of search engines based on Web text, and the searching and data mining technologies for Web-based text information. Methods of computer-aided text clustering and abstacting are also given. Finally, it gives some guidelines for the assessment of searching quality.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号