期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘海峰王元元张学仁刘守生《情报杂志》2008,27(2):3-6

提出了一种特征选择和特征抽取相结合的特征降维方法.首先使用改进的k-means聚类算法对特征进行选择,然后使用SVD方法在基于语义层面上对特征空间进行压缩,试验结果表明,这种特征降维模式在文本分类的准确性方面效果较好. 相似文献

2.

赵辉刘怀亮范云杰左晓飞《情报理论与实践》2012,35(3):115-118

针对向量空间模型中语义缺失问题,将语义词典（知网）应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。相似文献

3.

基于潜在语义索引和遗传算法的文本特征提取方法 总被引：9，自引：0，他引：9

郝占刚王正欧《情报科学》2006,24(1):104-107

本文采用潜在语义索引（LSI）和遗传算法（GA）进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM（Vector Space Model）中，通过奇异值分解（SVD，Singular Value Deccvaposition）可以有效地降低向量空间的维数，但通过维数约简后的文本特征仍要保持在数百维左右，因此本文采用遗传算法在此基础上继续降维。实验结果表明，这两种方法结合可以极大的降低文本向量空间的雏数，并能提高分类准确率。相似文献

4.

一种基于“特征降维”文本复杂网络的特征提取方法

下载免费PDF全文

张丽马静《情报科学》2019,37(10):20-25

【目的/意义】本文构建一种“特征降维”文本复杂网络进行文本表示,解决传统词同现文本复杂网络处理海量数据时的维数灾难与语义不足问题,再结合机器学习方法提升文本特征提取效果。【方法/过程】依据共现关系抽取二级词条,再结合依存句法关系抽取三级词条,构建“特征降维”文本复杂网络,接着利用PCA算法和TOPSIS法评价网络节点重要性提取反映文本主题的关键词作为文本特征词,实现文本特征提取。【结果/结论】本文以网络新闻数据为实验对象。实验结果表明,特征降维文本复杂网络能较好地表示中文文本,并且在较好地保留了文本语义信息的同时有效减少网络节点冗余,结合PCA算法的特征提取方法可以使文本分类性能提高。相似文献

5.

LDA模型在专利文本分类中的应用 总被引：1，自引：0，他引：1

廖列法勒孚刚朱亚兰《现代情报》2017,37(3):35-39

对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果：与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。相似文献

6.

基于神经网络与贝叶斯的混合文本分类研究

陈世立高野军《情报杂志》2007,26(5):34-36

采用向量空间模型（VSM）描述文本，利用隐性语义索引（LSI）R术进行特征重构与降维，构造了BP神经网络文本分类器。将朴素贝叶斯分类技术与前者结合构造了一种混合文本分类器。实验结果表明混合分类器分类准确度和分类速度得到提高。相似文献

7.

基于向量空间模型的特征抽取技术分析

任克强张国萍赵光甫《科技广场》2007,(9):16-18

特征降维是基于向量空间模型(VSM)文本分类的关键技术之一,特征抽取是特征降维的主要方法。本文主要分析了几种常用的特征抽取方法,并给出了它们的实现步骤。相似文献

8.

基于文本潜在特性分类方法研究与仿真

巫桂梅《科技通报》2012,28(7):148-151

研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。相似文献

9.

一种基于特征词聚类的文本分类方法

伍建军康耀红《情报理论与实践》2007,30(1):109-111

本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。相似文献

10.

改进的图神经网络文本分类模型应用研究——以NSTL科技期刊文献分类为例

张晓丹《情报杂志》2021,(1):184-188

[目的/意义]随着互联网数字资源的剧增,如何从海量数据中挖掘出有价值的信息成为数据挖掘领域研究的热点问题。文本大数据分类是这一领域的关键问题之一。随着深度学习的发展,使得基于深度学习的文本大数据分类成为可能。[方法/过程]针对近年来出现的图神经网络文本分类效率低的问题,提出改进的方法。利用文本、句子及关键词构建拓扑关系图和拓扑关系矩阵,利用马尔科夫链采样算法对每一层的节点进行采样,再利用多级降维方法实现特征降维,最后采用归纳式推理的方式实现文本分类。[结果/结论]为了测试该文所提方法的性能,利用常用的公用语料库和自行构建的NSTL科技期刊文献语料库对本文提出的方法进行实验,与当前常用的文本分类模型进行准确率和推理时间的比较。实验结果表明,所提出的方法可在保证文本及文献大数据分类准确率的前提下,有效提高分类的效率。相似文献

11.

Efficient implementation of associative classifiers for document classification

Yongwook Yoon Gary Geunbae Lee 《Information processing & management》2007

In practical text classification tasks, the ability to interpret the classification result is as important as the ability to classify exactly. Associative classifiers have many favorable characteristics such as rapid training, good classification accuracy, and excellent interpretation. However, associative classifiers also have some obstacles to overcome when they are applied in the area of text classification. The target text collection generally has a very high dimension, thus the training process might take a very long time. We propose a feature selection based on the mutual information between the word and class variables to reduce the space dimension of the associative classifiers. In addition, the training process of the associative classifier produces a huge amount of classification rules, which makes the prediction with a new document ineffective. We resolve this by introducing a new efficient method for storing and pruning classification rules. This method can also be used when predicting a test document. Experimental results using the 20-newsgroups dataset show many benefits of the associative classification in both training and predicting when applied to a real world problem. 相似文献

12.

基于协同训练的意图分类优化方法

邱云飞刘聪《现代情报》2019,39(5):57

[目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题，提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先，为丰富语义信息，在提取文本特征的同时融合带有情感倾向的心理语言学线索对特征维度进行扩展。其次，针对标记数据有限的问题，在模型训练阶段使用半监督集成法对两种机器学习分类方法（基于事件内容表达分类器与情感事件表达分类器）进行协同训练（Co-training）。最后，采用置信度乘积的投票制进行分类。[结论/结果]实验结果表明融入心理语言学信息的语料再经过协同训练的分类效果更优。相似文献

13.

The impact of preprocessing on text classification

Alper Kursat Uysal Serkan Gunal 《Information processing & management》2014

Preprocessing is one of the key components in a typical text classification framework. This paper aims to extensively examine the impact of preprocessing on text classification in terms of various aspects such as classification accuracy, text domain, text language, and dimension reduction. For this purpose, all possible combinations of widely used preprocessing tasks are comparatively evaluated on two different domains, namely e-mail and news, and in two different languages, namely Turkish and English. In this way, contribution of the preprocessing tasks to classification success at various feature dimensions, possible interactions among these tasks, and also dependency of these tasks to the respective languages and domains are comprehensively assessed. Experimental analysis on benchmark datasets reveals that choosing appropriate combinations of preprocessing tasks, rather than enabling or disabling them all, may provide significant improvement on classification accuracy depending on the domain and language studied on. 相似文献

14.

基于类集和类对的有监督流形学习的肺结节分类

李缨于谦《科技通报》2012,28(8):29-32

维数简约是肺结节分类识别问题中的关键步骤,现有的方法中都是将所有类别的数据作为一个整体进行降维,忽略了不同类别数据之间在特征子集上的差异性。本文提出了一种将类集和类对相结合的有监督流形特征抽取思想,并将之应用于肺结节的分类中,最终形成一个基于CT影像的肺结节分类系统。实验结果表明了方法的有效性。相似文献

15.

非线性数据变换及其在离群聚类中的应用

徐雪松《人天科学研究》2009,(10)

为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。相似文献

16.

文本分类中特征预抽取方法研究

郑伟吕建新张建伟《情报科学》2011,(1)

在文本分类中,特征抽取是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果。在研究了文本分类中常用的文本特征词预抽取方法的基础上,提出了一种基于词性选择的特征预抽取方法,结合IG方法进行特征抽取。在分类实验中实验结果显示,这种基于词性的特征预抽取方法在分类过程中可以在不降低分类精度的同时可以减少特征维数和训练时间。相似文献

17.

基于粗集的支持向量机文本分类方法研究 总被引：1，自引：0，他引：1

崔彩霞王素格《科技广场》2006,(8):4-6

本文提出了一种基于粗糙集的支持向量机文本分类方法。该方法利用粗糙集的约简理论降低了支持向量的维数,同时保证了分类性能。实验表明该方法能获得较好的分类效果。相似文献