首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
文本挖掘与中文文本挖掘模型研究   总被引:9,自引:0,他引:9  
谌志群  张国煊 《情报科学》2007,25(7):1046-1051
文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCTMF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。  相似文献   

2.
3.
[研究目的]随着国内智库的不断发展和建设,智库成果越来越多,涉及领域也纷繁复杂。为了方便决策者对所关注问题的查找,以及对问题类型的判断,需要对智库研究成果资源进行有效的数字化管理,本研究旨在研究如何对智库文本成果资源进行有效分类,从而实现智库成果高效系统的数据化管理。[研究方法]针对智库文本成果多为长文本的特点,利用基于Self-Attention的层次结构文本分类模型SHTC(Hierarchical structure model based on self-attention)依次从词、句两个层面对文本语义进行学习,并使用多尺寸卷积层提取关键特征信息获得最终的文档表示,再通过Softmax层进行分类。[研究结论]结果表明,基于Self-Attention的层次结构模型SHTC在智库文本分类任务中准确率达到82.43%,在智库文本分类任务上具有更优的分类效果。  相似文献   

4.
徐彤阳  尹凯 《情报科学》2019,37(10):13-19
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工 智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理 的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习 模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习 的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智 能化程度,还可以提高数字图书馆信息服务的效率和质量。  相似文献   

5.
基于信息抽取的文本知识挖掘模型研究   总被引:3,自引:0,他引:3  
从文本知识挖掘的定义入手,分析了文本知识挖掘的关键技术,并在此基础上建立了基于信息抽取的文本知识挖掘模型,最后通过实例(DiscoTEX)说明这个模型是可行的。  相似文献   

6.
基于深度学习的文本表示方法   总被引:2,自引:0,他引:2       下载免费PDF全文
李枫林  柯佳 《情报科学》2019,37(1):156-164
【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/ 过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、 句子表示、篇章(段落)表示的方法,并提出了未来的研究方向。【结果/结论】实验发现,通过在神经网络模型中融入 更多的特征能得到更优的词向量,但词向量还缺乏统一的评价标准,句子向量表示通常根据具体NLP任务建模,不 同结构的模型在特征表示、运算速度上各有优劣势,篇章表示通常使用层次组合模型。  相似文献   

7.
基于VSM的文本分类挖掘算法综述   总被引:2,自引:0,他引:2  
简要介绍了VSM和文本分类挖掘的流程,分析了基于统计方法和基于机器学习的6种常用构造文本分类挖掘分类器的算法,指出了利用各种算法构造的分类器的特点,同时给出了这些算法的优化方向,为使用者选择、学习、改进算法提供依据。  相似文献   

8.
一种基于向量空间模型的改进文本分类算法   总被引:2,自引:0,他引:2  
牛玲 《情报杂志》2006,25(6):63-64,67
探讨了基于向量空间模型的文本分类技术,通过规范化向量空间模型术语,论述了向量空间模型中TD-IDF向量化文档的不足;提出基于位置等因素的权重改进算法;借助扩展的潜在语义索引算法KLSC和辅助主题词表来消除模型很难处理一词多义、一义多词的现象;根据用户个性化的服务需求,给出了个性化服务的意见。  相似文献   

9.
周源  刘怀兰  杜朋朋  廖岭 《情报科学》2017,35(5):111-118
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环 境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:①基于文本网 络和改进PageRank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;②增加特征值IDF值 的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的 不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分 类效果,验证了该方法能够有效提高文本特征词提取的准确度。  相似文献   

10.
王倩  曾金  刘家伟  戚越 《情报科学》2020,38(3):64-69
【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经网络的特征对学术文本段落进行表达,然后进行分类。【结果/结论】文本提出的深度学习方法在整体分类结果上优于传统的机器学习方法,同时极大的减少了传统特征工程的人力需求。  相似文献   

11.
基于多因素方差分析的文本向量特征挖掘算法   总被引:2,自引:0,他引:2  
文本向量特征挖掘应用于信息资源组织和管理领域,在大数据挖掘领域具有较大应用价值,传统算法精度不好。提出一种基于多因素方差分析的文本向量特征挖掘算法。使用多因素方差分析方法得到多种语料库的特征挖掘规律,结合蚁群算法,根据蚁群适应度概率正则训练迁移法则,得到种群进化最近时刻获得的数据集有效特征概率最大值,基于最优划分的K-means初始聚类中心选取算法,先对数据样本进行划分,然后根据样本分布特点来确定初始聚类中心,提高文本特征挖掘性能。仿真结果表明,该算法提高了文本向量特征的聚类效果,进而提高了特征挖掘性能,具有较高的数据特征召回率和检测率,时间耗时较少,在数据挖掘等领域应用价值较大。  相似文献   

12.
介绍了基于深度学习方法的视频目标跟踪算法及其研究进展,包括基于分类模型的目标跟踪,基于回归模型的目标跟踪算法。  相似文献   

13.
近年来,语音文摘提取技术作为人机交互研究的关键技术,受到了越来越多研究者的关注。而书面文档文摘技术已经发展了几十年,已经相当成熟。如何将书面文摘技术应用于语音文档文摘的抽取,已经有许多重要的研究成果。首先将对近年来的这些应用成果进行介绍,然后展望未来在语音文摘技术中可能出现的研究热点。  相似文献   

14.
关联规则挖掘是-种主要的也是用途最广的数掘挖掘方法.本文首先对关联规则挖掘及其经典Apriori算法作了介绍,然后针对Apriori算法的缺陷,提出了一种改进的关联规则挖掘算法,充分地证明了改进算法的性能优势.  相似文献   

15.
王静茹  宋绍成  徐慧 《情报科学》2019,37(12):159-165
【目的/意义】本文基于深度学习的理论框架,以突发事件中多模态危机情报智能采集加工生成应对策略的 过程作为研究对象,构建出第三视角视频采集模型,并按照“数据→信息→知识→情报”的递进顺序建立危机情报 多层次多阶段智能化模型。【方法/过程】提供不同层次多模态情报挖掘智能方法,使其达到对突发事件中多模态危 机数据智能采集后,通过智能挖掘分析把危机信息加工成危机知识并利用其智能生成突发事件分阶段应对策略, 从而最终构建多模态危机情报智能管理体系。【结果/结论】本文的研究架构和情报智能挖掘,可为突发事件应急决 策提供科学、客观的实践参考和理论指导。  相似文献   

16.
应用Python、Gephi对30个省区市的102份产业扶贫政策文件从区域分布、政策主体、涉及的产业范围、利用的政策工具等方面进行研究,分析了产业扶贫政策存在贫困地区就业问题不能得到彻底解决;单靠人才引进无法促进扶贫产业长效发展;扶贫产业单一,抗风险能力不足等问题,提出了提高乡村就业质量,提升农村工作幸福感;积极培育行...  相似文献   

17.
大数据转变成可视化数据依靠的是计算机领域中的文本挖掘技术。文本挖掘中最重要且最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。本文重点讲述如何利用文本挖掘技术对当前的电子商务市场表现进行研究。  相似文献   

18.
随着智能电网的发展和SDN技术的广泛应用,需要采用更加先进的路由技术满足电网业务的传输需求。通过分析电力通信业务的带宽、时延和可靠性需求,在基于SDN架构的智能电网通信网中采用基于深度强化学习DDPG的路由策略,构建状态集,以电力通信业务QoS指标为奖励策略,设计基于深度强化学习的电力通信网路由策略,可通过反复训练控制器路由模块,实现路由策略的优化。  相似文献   

19.
20.
在电力系统领域,粒子群优化算法(PSO)被广泛应用于实现电能优化、电压控制、以及电容器优化配置等问题。但现有的PSO算法在电力系统优化应用中容易过早收敛,不能得到精确解。文章根据电网最优潮流具有典型的有约束、非线性的特点,提出了一种应用于电网经济调度问题的快速有效的求解方法,即改进粒子群(PSO)算法。从模仿生物遗传进化的角度出发,在参考现有PSO算法的基础上设计一种可以随适应度变化而变化的PSO算法模型。通过该算法与标准PSO算法在IEEE30节点系统上进行算法检验比较,可以清楚地看到所改进的算法在求解电网系统经济调度问题方面所具有的优越性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号