共查询到17条相似文献,搜索用时 62 毫秒
1.
2.
3.
4.
Web文本特征提取方法的研究与发展 总被引:4,自引:0,他引:4
本文对当前有关Web文本特征提取方法的研究和试验进行了简要的综述和分析,比较了每类方法的优势和不足,指出研究中存在的难点和共同探讨的问题,并在此基础上,对该领域未来研究的发展方向和趋势进行了预测。 相似文献
5.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。 相似文献
6.
聚类分析在Web文本挖掘中的应用 总被引:2,自引:0,他引:2
在区分Web挖掘与数据挖掘的基础上,较详细地分析了Web文本挖掘的过程,并给出了一个具体的Web文本挖掘模型。重点在介绍聚类分析的基础上,以PCCS为算法原型分析了聚类分析在Web文本挖掘中的具体应用。 相似文献
7.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。 相似文献
8.
9.
基于信息抽取的文本知识挖掘模型研究 总被引:3,自引:0,他引:3
从文本知识挖掘的定义入手,分析了文本知识挖掘的关键技术,并在此基础上建立了基于信息抽取的文本知识挖掘模型,最后通过实例(DiscoTEX)说明这个模型是可行的。 相似文献
10.
提出了一种基于改进的隐条件随机场的异构Web数据源数据抽取算法。通过对隐条件随机场进行的改进,对隐含变量进行更为准确的计算,并且克服了该模型的性能严重依赖于初始参数选择的问题,而且进行模型训练时不需要大量的人工标注的样本数据。实验结果表明,对比已有方法,本文算法在对具有缺省属性以及多属性特征的网站进行数据抽取时,在查全率,查准率以及F1值上都获得了令人满意的性能。 相似文献
11.
Web文本挖掘在辅助研究中的应用 总被引:1,自引:0,他引:1
应用Web文本挖掘对网络数据库中检索到的信息进行分析,能够得到对研究工作有辅助作用的知识。文中对数据收集、预处理和数据挖掘的方法进行了详细的介绍。实例证明利用Web文本挖掘能充分利用网络数据库中的信息,对辅助研究是有效的。 相似文献
12.
基于可视化数据挖掘的管理科学科技文本分析研究 总被引:8,自引:0,他引:8
通过可视化数据挖掘方法的研究,使用数据挖掘和科技文本分析的方法,获取管理科学研究的新进展、新思想和新方法。综合评价、对比分析了国内外管理科学研究力量和能力水平的分布状况,对管理科学研究主体度资助主体决策活动有较强的支持作用,并对我国管理科学领域进行了实证分析。 相似文献
13.
基于分块和统计相结合的新闻正文抽取 总被引:1,自引:0,他引:1
本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。 相似文献
14.
基于多因素方差分析的文本向量特征挖掘算法 总被引:2,自引:0,他引:2
文本向量特征挖掘应用于信息资源组织和管理领域,在大数据挖掘领域具有较大应用价值,传统算法精度不好。提出一种基于多因素方差分析的文本向量特征挖掘算法。使用多因素方差分析方法得到多种语料库的特征挖掘规律,结合蚁群算法,根据蚁群适应度概率正则训练迁移法则,得到种群进化最近时刻获得的数据集有效特征概率最大值,基于最优划分的K-means初始聚类中心选取算法,先对数据样本进行划分,然后根据样本分布特点来确定初始聚类中心,提高文本特征挖掘性能。仿真结果表明,该算法提高了文本向量特征的聚类效果,进而提高了特征挖掘性能,具有较高的数据特征召回率和检测率,时间耗时较少,在数据挖掘等领域应用价值较大。 相似文献
15.
随着大数据信息技术的发展,数据在线监测和数据挖掘成为计算机信息领域研究的热点。通过对Web热点数据分割挖掘,提高信息热点追踪和Web数据分类能力。传统算法采用非结构化数据挖掘算法,无法有效对Web热点数据进行准确定位和分层挖掘。提出一种基于半结构化分割的Web热点数据挖掘算法。采用半结构化数据进行特征分割,基于优秀基因位进行差分进化,使寻优曲线不断趋于平缓,在多个节点上并行的运行比较脚本,采用半结构化分割,使得Web热点特征挖掘实现自适应寻优,得到Web热点数据的分配因子,提高了挖掘性能。仿真结果表明,该算法获得了良好的效率和精度,提高了Web热点数据挖掘的自适应寻优能力。 相似文献
16.
在领域本体已知和文本语义标注主要步骤的基础上,本文用数据挖掘技术实现文本语义信息的获取,提出了文本语义分析与标注的基本思想和处理流程,深入探讨了用聚类分析完成实例分析与标注过程,用关联挖掘和分类方法完成实例间关系的分析与标注过程。 相似文献
17.
网络文本数据搜索引擎与搜索技术 总被引:3,自引:0,他引:3
This paper describes the functions, characteristics and operating principles of search engines based on Web text, and the searching and data mining technologies for Web-based text information. Methods of computer-aided text clustering and abstacting are also given. Finally, it gives some guidelines for the assessment of searching quality. 相似文献