期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

宣照国党延忠《情报学报》2008,27(5)

在文本分类的实际应用中经常使用粗略分类的数据来训练分类器,但是这种数据中经常会包含类别标记有误的数据,这些数据对文本分类结果的精度会造成不良影响。本文针对这个问题提出了一种噪声修正算法,首先建立文档关联网络,把文档上标记的类别作为在网络上划分的集团结构,并用模块度衡量集团结构的质量,通过优化模块度指标把噪声数据调整到合适的类别中,从而提高数据质量。实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,且有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作。相似文献

2.

基于模糊VSM和RBF网络文本分类方法的研究与实现

郑凤萍《图书情报工作》2007,51(7):47-49

首先提出一种基于模糊向量空间模型和径向基函数网络的文本自动分类方法,该网络由输入层、隐层和输出层组成：输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来 ;其次,构造更详细的算法推导及实施方案 ;最后,以中国期刊网全文数据库部分文档数据为例,对该方法的有效性进行验证,结果表明该方法分类效果较好。相似文献

3.

Web文本分类技术研究现状述评 总被引：1，自引：0，他引：1

高淑琴《图书情报知识》2008,(3):81-86

本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。相似文献

4.

文本粗分类数据中噪声的快速修正算法

宣照国党延忠《情报学报》2009,28(5)

训练数据中的噪声数据对文本分类结果的精度会造成不良影响,本文提出了一种对噪声数据进行修正的快速算法.针对以前的算法,每次迭代只对一个文档进行修正,迭代次数与噪声数据数量相当,算法运行效率较低的问题,本文通过分析调整文档所属类别对评价指标的影响,提出依据模块度变化量判断噪声数据,一次迭代过程中可以对多个文档进行修正处理,从而提高算法效率.实验结果表明,本文所提算法能够更快地修正粗分类数据中的噪声,算法复杂度从以前算法的O(Tnm2)降低为O(Tnm).该算法可以用于对大数据量数据进行处理,实用价值更高. 相似文献

5.

网络环境下文本自动分类分析

杨应全文汝《科技文献信息管理》2005,19(1):31-34

简单介绍了文本分类的定义及应用，针对文本信息自动分类的研究动态，分析了当前我国文本信息自动分类研究中存在的问题，提出进一步完善文本自动分类的建议和方法。相似文献

6.

一种基于复杂网络的中文文本分类算法

赵辉刘怀亮张倩《情报学报》2012,31(11)

为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果. 相似文献

7.

Web自动文本分类技术研究综述 总被引：1，自引：0，他引：1

蒲筱哥《情报学报》2009,28(2)

Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势. 相似文献

8.

文本挖掘及其在信息检索中的应用 总被引：3，自引：0，他引：3

鹿小明《情报资料工作》2004,137(6):26-28

文本挖掘是指利用数据挖掘技术,从大量的文本数据中提取感兴趣的、潜在的有用模式和隐藏的信息。文章详细阐述了文本挖掘系统的组成、过程及相关技术,并介绍了文本挖掘在信息检索中的应用。相似文献

9.

文本增强与预训练语言模型在网络问政留言分类中的集成对比研究

施国良陈宇奇《图书情报工作》2021,65(13):96-107

[目的/意义]政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因.[方法/过程]设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本... 相似文献

10.

引文文本分类与实现方法研究综述

王文娟马建霞陈春张凌波《图书情报工作》2016,60(6):118-127

[目的/意义] 对引文文本分类的标准、实现方法和应用进行梳理,分析存在的问题,提出可改进的方向。[方法/过程] 总结目前引文文本分类的几个重要角度,如基于引用功能、基于情感倾向、基于引文影响力等,对引文文本分类的实现方法进行比较,分析其优缺点。[结果/结论] 目前引文文本没有统一的分类标准和实现方法,引文文本的获取较为困难,计算机分类算法准确率较低,中文引文文本分析文献少。未来研究思路和方向应该是:统一文本分类的标准,提高引文文本计算机处理技术的准确性,扩大应用范围。相似文献

11.

文本分类器准确性评估方法 总被引：10，自引：3，他引：10

程泽凯林士敏《情报学报》2004,23(5):631-636

随着计算机网络与信息技术的飞速发展 ,信息极大丰富而知识相对匮乏的状况在加剧。文本挖掘正成为目前研究者关注的焦点。文本分类是文本挖掘的基础和核心。构建一个分类准确的文本分类器是文本分类的关键。现在有很多文本分类的算法 ,在不同的领域里取得了较好的效果。如何更加客观地评估分类器的性能 ,是目前值得研究的方向之一。结合作者的实际工作 ,本文列出目前常用的分类准确性测试和评估方法 ,简单对评估方法进行比较分析。文末提出了对准确性评估的一些改进设想。相似文献

12.

社会科学信息分析中的文本挖掘

范并思《图书情报工作》2012,56(8):6-9

认为信息分析方法可以用于社会科学研究,具有客观、系统和定量的特点。内容分析作为一种典型的信息分析方法展示了这些特点。但它也具有抽样过程的人为性、手工标引的低效率、人工作业的低信度问题。网络时代出现的文本挖掘方法能够处理海量文献、处理非结构化数据,其研究品质远远高于手工信息分析方法。相似文献

13.

数据挖掘技术在高校图书馆中的应用 总被引：7，自引：0，他引：7

赵卫军《图书馆论坛》2007,27(4):126-128

数据挖掘技术是一种新兴的信息处理技术,其算法及应用是目前国际研究热点,在信息的利用和提取中发挥着日益重要的作用.文章在论述数据挖掘技术的基础上,探讨了数据挖掘在高校图书馆的应用领域和产生的价值.并重点探讨了在优化资源、智能化服务、提供个性化服务、信息自动化处理等几方面的应用. 相似文献

14.

国外专利文本挖掘可视化工具研究 总被引：12，自引：1，他引：12

王敏李海存许培扬《图书情报工作》2009,53(24):86-90

首先简要介绍专利信息分析概念、专利分析的一般流程,专利分析工具可实现的主要功能;其次依据专利分析工具可分析的数据源,将分析工具分为非结构化数据分析工具、结构化数据分析工具和混合型数据分析工具三大类,并从分析工具类型、分析数据源、主要功能、结果呈现、用户群5个方面对国外常用的12种专利文本挖掘可视化分析工具进行系统介绍和比较;最后对专利分析工具应用及其发展提出建议。相似文献

15.

基于元样本稀疏表示分类器的文本资源分类

范少萍郑春厚王召兵《图书情报工作》2011,55(16):115-118

首先分析文本分类的现状,根据文本分类算法的要求和稀疏表示分类算法（SRC）的思想,设计基于元样本的稀疏表示分类器（MSRC）,并应用于文本分类研究。实验结果表明,该MSRC算法具有较好的文本分类效果,有助于提高基于内容的信息检索效率。相似文献

16.

文本分类中一种基于选择的二次特征降维方法 总被引：4，自引：2，他引：2

刘海峰王元元姚泽清陈琦《情报学报》2009,28(1)

特征选择和特征抽取是文本分类中特征降维的主要方法.目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果.本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的.对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好. 相似文献

17.

基于K-近邻方法的科技文献分类 总被引：4，自引：1，他引：3

鲍文胡清华于达仁《情报学报》2003,22(4):451-456

本文提出了一种在小样本数据下、无需分词处理的科技文献分类器建造方法.分析了科技文献的特点,提出了抽取科技文献的关键词作为分类特征词条,以文献的标题、关键词和摘要作为文档主题信息进行词频统计分析建立分类器.最后分别进行了基于最近邻决策和K-邻近决策的分类效果实验研究,实验证明基于欧氏距离相似性测度和基于余弦相似性测度的文本分类效果并不存在显著的差别,K-邻近决策的分类效果要优于最近邻决策的分类效果. 相似文献

18.

数据挖掘中分类方法综述 总被引：3，自引：0，他引：3

钱晓东《图书情报工作》2007,51(3):68-71

数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类，主要包括相似函数、关联规则分类算法、K近邻分类算法、决策树分类算法、贝叶斯分类算法和基于模糊逻辑、遗传算法、粗糙集和神经网络的分类算法。通过论述以上算法优缺点和应用范围，研究者对已有算法的改进有所了解，以便在应用中选择相应的分类算法。相似文献