首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

2.
基于深度学习的中文专利自动分类方法研究   总被引:2,自引:0,他引:2  
[目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。  相似文献   

3.
在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。  相似文献   

4.
将神经网络集成思想引入WEB文本分类领域,构造一个用于Web文本分类的多BP神经网络集成模型;详述模型的设计思路与结构框架,并分别在公有的英文数据集、实际的中文数据集上进行分类实验;与经典的SVM模型、KNN模型相比,神经网络集成模型具有更高的分类精度,且对于训练样本集规模具有更好的鲁棒性,不失为一种高效的文本分类新方法,研究其在文本分类领域的应用将是一个有前景的方向。  相似文献   

5.
基于机器学习的自动文本分类模型研究   总被引:2,自引:0,他引:2  
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。  相似文献   

6.
本文依据KNN分类算法和反馈学习的思想,在分析中文文本分类过程的基础上,给出了基于反馈学习的中文文本分类模型和基于KNN的中文文本分类反馈学习过程。通过实验研究了反馈学习对中文文本分类模型性能的影响。结果表明,反馈学习是实时变化信息的一种有效的学习方法,它对训练不充分的文本分类器具有很大的改善作用。  相似文献   

7.
一种基于类别信息的文本自动分类模型   总被引:2,自引:0,他引:2  
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。  相似文献   

8.
【目的】为提高报业集团舆情相关工作的准确度和效率,文章研究热度分析技术在吹哨系统中的实际应用效果。【方法】提出热度及关联度计算,通过热度话题计算、关键词的关联相关度分析及关联热度计算,最后完成事件热度预测。【结果】通过热度分析技术实际应用,满足日常工作中的热点话题捕捉和及时跟踪,对舆情管理具有重要实施。【结论】通过本研究证明了吹哨系统中所使用的热度计算和关联热度计算等方法,极大地提高了吹哨系统的精确性,使用户可以从海量新闻信息中高效、智能地获得受关注、感兴趣、有价值的目标新闻信息,从而更加有力地支撑舆情监测、新闻追踪、新闻生产等业务工作。  相似文献   

9.
【目的】从党的新闻工作史中汲取智慧和力量,探索主流媒体的转型发展之路,在中国式现代化进程中进一步推进媒体深度融合,推动新时代党的新闻事业创新发展。【方法】文章以党的新闻史为脉络梳理党的新闻工作优良传统,总结历史经验,将马克思主义新闻观与全媒体传播工程结合起来,不断深化媒体融合。【结果】得出中国式现代化进程中主流媒体转型发展必须坚持的世界观和方法论。【结论】一以贯之坚持党的领导,创新实践党的群众路线,坚持理论联系实际,尊重新闻传播规律,是加速推进媒体深度融合的根本保障,也是主流媒体在中国式现代化进程中转型发展的必由之路。  相似文献   

10.
【目的】生成式人工智能AIGC的出现和广泛应用对新闻舆论格局产生了颠覆性的影响,使算法和算力逐步进化成为高质量内容生产和传播的权力核心,新闻舆论工作需要在新趋势下掌握主动权。【方法】AIGC大模型成为潜在的社会舆论成员,并以远超人类个体的知识面和内容处理生成速度,在潜移默化中掌握舆论引导的话语权,而决定AIGC大模型能力和价值观立场的核心是训练数据集的构建。【结果】随着美西方在价值观和意识形态数据集训练下产生的AIGC大模型在全球的普及,我国主流新闻舆论工作面临着严峻挑战与风险,必须开辟面向大模型的可信训练数据采集和数据服务的建设阵地。【结论】这不仅可以做到“守土有责”,履行好议题设置、舆论引导、内容生产和传播的把关人角色,更可以通过规范准确、代表主流价值观和意识形态的数据集与服务供给,抢占AIGC时代舆论引导、思想引领、文化传承、服务人民的传播高地。  相似文献   

11.
【目的】分析典籍英译作者身份识别的关键问题,提出不完整数据作者身份识别的有效方法。【方法】针对诗词典籍篇幅短小和语料不平衡的特点,建立基于词汇、句子和语篇层面的文体特征向量空间模型,提出用于不完整数据作者身份识别的加权朴素信念分类算法。【结果】加权朴素信念分类算法可以有效改善朴素信念分类算法性能,与目前主流分类算法对比实验表明其在不完整数据集上具有很好的综合性能。【局限】需进一步扩展数据集的样本数量和作者数量,在大数据集上提高文体特征提取效率和作者身份识别的准确性。【结论】提出的多层面文体特征模型和加权朴素信念分类算法在诗词典籍英译作品集上具有较好的准确性和应用性。  相似文献   

12.
一种基于自组织神经网络的中文文本聚类新方法   总被引:8,自引:0,他引:8  
徐建锁  王正欧  王莉 《情报学报》2003,22(6):676-680
针对传统K—均值等算法在文本聚类中的缺陷 ,本文提出了一种树形动态自组织映射 (TGSOM)神经网络来实现中文文本聚类 ,克服了传统的K—均值等算法中文本种类需要预先给定的缺点。本文详尽描述了该网络模型的生成算法和算法中扩展因子的作用 ,并阐述了中文文本的数字化方法———TF .IDF .IG方法  相似文献   

13.
王煜  白石  王正欧 《情报学报》2007,26(5):643-647
本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.  相似文献   

14.
基于融合实体信息,建立图卷积神经网络模型,该模型结构分别由类别输出、特征学习、嵌入输入以及实体链接四个模块构成,将其应用于短文本分类,在实际操作中,可以利用实体链接工具对短文本中实体进行抽取,并在图卷积神经网络支持下,进行建模、拼接以及融合处理,最后完成短文本分类。相较于传统文本分类方法,前者不仅可以保证极高的分类准确率,其分类性能也明显优于目前文本分类领域中现有主流方法,对后续自然语言处理更进一步研究有着重要现实意义。  相似文献   

15.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

16.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

17.
喻爽 《中国传媒科技》2023,(5):35-38+55
【目的】探究四种数据新闻的视觉修辞生产模式——时间修辞模式、空间修辞模式、交互修辞模式和技术修辞模式,剖析数据新闻的现实应用困境,总结数据新闻未来发展的策略,助力数据新闻的创新发展。【方法】采用视觉修辞理论探究数据新闻的四种视觉修辞生产模式,运用抽丝剥茧的方法层层递进,融入案例研究法针对四种不同的视觉修辞生产模式进行剖析,得出数据新闻现实应用上的困境,提出数据新闻现实应用上的破壁策略。【结果】经分析,发现数据新闻现实应用上的困境在于报道方式上避重就轻,内容呈现上千篇一律,图表形式上标新立异。【结论】总结出数据新闻未来发展的优化策略在于视觉形式上讲求技术之思,视觉内容上做到内容之新,视觉法则创作上追求规律之美。  相似文献   

18.
【目的】随着人工智能技术在新闻传播领域的全面渗透,正确审视智能AI写作的发展变革过程,将人与机器更紧密更深度地捆绑和融合,从而具有更强的学习能力和更好的传播效果。【方法】通过逻辑思辨范式中思辨性研究方法,探索智能AI写作的兴起及其原理和优势,正确审视人工智能的发展和变革对“人”的影响并进行反思。【结果】智能AI写作是时代发展的必然产物,目前存在无深度思考、无情感感知、无深度探究三个方面的局限性。【结论】人、机将会更为紧密地结合,与应用领域有更深度的捆绑和融合,同时也会具有更强的学习能力,从而达到更为有效的传播效果。  相似文献   

19.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

20.
【目的】通过构建个性化分类体系,研究面向TRIZ应用的专利自动分类方法。【方法】基于主题模型,从宏观、中观、微观三个层面构建面向TRIZ个性化分类体系;通过对不同分类特征项与算法进行组合,挑选分类准确率最高的组合构建初始分类器;采用平滑非平衡数据与特征项降维方式对分类器进行优化,完成对专利的自动分类。【结果】实现半自动构建面向TRIZ的个性化分类体系及基于该分类体系的专利自动分类。在中等数据量级场景下(千条),实现专利自动分类,分类效果综合评价指标高达90.2%。【局限】该方法不适用于数据量较小(百条)时的专利分类;在较大数据量(万条)场景下,该方法的有效性尚未得到验证。【结论】对中等规模专利数据,能快速构建面向TRIZ的分类体系,并实现自动分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号