共查询到17条相似文献,搜索用时 78 毫秒
1.
基于句子的文本表示及中文文本分类研究 总被引:1,自引:0,他引:1
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的. 相似文献
2.
【目的】文章比较多个基于深度神经网络的中文新闻文本分类模型,旨在找到准确度较高的方法用以实际工作,为中文新闻文本分类提供更加高效的方法。【方法】对文本分类技术和中文新闻分类进行了梳理和归纳,对中文新闻文本的特征和预处理进行了阐述,详细介绍FastText算法、Bert分类算法、TextCNN算法和TextRNN算法。【结果】四种深度神经网络算法均可以应用于中文新闻文本分类,可以有效处理信息紊乱问题以及快速准确进行分类。【结论】通过对四种深度神经网络算法进行试验和效果对比,发现FastText模型在实际工作中的文本分类效果最为优异。 相似文献
3.
4.
为了丰富专利分类的网络和文本语义表示,实现两者更有效的语义融合,提高技术融合预测效果,提出基于专利分类序列和文本语义表示的技术融合预测方法。首先,综合考虑专利分类位置及其上下文语境,直接对专利分类序列进行语义表示,提出基于专利分类序列语义表示的技术融合预测方法;其次,根据专利分类在序列中的重要性排序研究专利分类文本分配方法,形成基于专利分类文本语义表示的技术融合预测方法;在此基础上,设计多种特征融合方法,提出融合专利分类序列结构和文本内容语义表示的技术融合预测方法;最后,基于链路预测的理论和方法对提出的多种技术融合预测方法进行定量评价。在无人机领域的实验证实,专利分类序列语义表示模型的效果明显优于其他网络表示学习方法;依据重要性排序的专利分类文本赋予方式优于文本平均分配方式,基于此的专利分类文本语义表示能更好地进行技术融合预测;“SVM (support vector machine)+哈达玛积”的特征融合方法在所有方法中表现最优,较单一方法均有提高。本文提出的方法能够提高技术融合预测的效果,更好地为技术布局、技术研发提供借鉴和参考。 相似文献
5.
6.
基于深度学习的中文专利自动分类方法研究 总被引:2,自引:0,他引:2
[目的/意义]面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程]针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论]实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。 相似文献
7.
8.
简单介绍了文本分类的定义及应用,针对文本信息自动分类的研究动态,分析了当前我国文本信息自动分类研究中存在的问题,提出进一步完善文本自动分类的建议和方法。 相似文献
9.
10.
Web自动文本分类技术研究综述 总被引:1,自引:0,他引:1
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势. 相似文献
11.
Web文本分类技术研究现状述评 总被引:1,自引:0,他引:1
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。 相似文献
12.
Neural Network Agents for Learning Semantic Text Classification 总被引:1,自引:0,他引:1
Stefan Wermter 《Information Retrieval》2000,3(2):87-103
The research project AgNeT develops Agents for Neural Text routing in the internet. Unrestricted potentially faulty text messages arrive at a certain delivery point (e.g. email address or world wide web address). These text messages are scanned and then distributed to one of several expert agents according to a certain task criterium. Possible specific scenarios within this framework include the learning of the routing of publication titles or news titles. In this paper we describe extensive experiments for semantic text routing based on classified library titles and newswire titles. This task is challenging since incoming messages may contain constructions which have not been anticipated. Therefore, the contributions of this research are in learning and generalizing neural architectures for the robust interpretation of potentially noisy unrestricted messages. Neural networks were developed and examined for this topic since they support robustness and learning in noisy unrestricted real-world texts. We describe and compare different sets of experiments. The first set of experiments tests a recurrent neural network for the task of library title classification. Then we describe a larger more difficult newswire classification task from information retrieval. The comparison of the examined models demonstrates that techniques from information retrieval integrated into recurrent plausibility networks performed well even under noise and for different corpora. 相似文献
13.
14.
A number of linear classification methods such as the linear least squares fit (LLSF), logistic regression, and support vector machines (SVM's) have been applied to text categorization problems. These methods share the similarity by finding hyperplanes that approximately separate a class of document vectors from its complement. However, support vector machines are so far considered special in that they have been demonstrated to achieve the state of the art performance. It is therefore worthwhile to understand whether such good performance is unique to the SVM design, or if it can also be achieved by other linear classification methods. In this paper, we compare a number of known linear classification methods as well as some variants in the framework of regularized linear systems. We will discuss the statistical and numerical properties of these algorithms, with a focus on text categorization. We will also provide some numerical experiments to illustrate these algorithms on a number of datasets. 相似文献
15.
基于SUMO和WordNet本体集成的文本分类模型研究 总被引:1,自引:0,他引:1
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 相似文献
16.
本文分析了传统定标比超方法的思想和缺陷,提出将传统情报分析方法与智能分析技术相结合,构建了融合文本自动分类的竞争情报定标比超分析模型。本文提出构建定标比超内容层次指标体系,将其作为文本自动分类的分类体系。两种方法相辅相成、相互优化,实现竞争情报的良性循环型、科学的智能分析。进而,深入研究了该模型的功能任务和情报分析过程与算法。最后,从科学性、时效性、全面性、准确性和动态性方面对该模型进行了性能评价。 相似文献
17.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究 总被引:1,自引:0,他引:1