共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
3.
研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则. 相似文献
4.
分析了在线式文本控制技术目前在电子政务领域中的作用,阐述了在线式文本控制技术中文本控制插件应用以及大容量文本网络分段传输控制技术中的主要关键技术,总结了在线式文本控制插件应用技术在电子政务、电子商务以及企业ERP领域的应用前景。 相似文献
5.
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。 相似文献
6.
自动文本分类技术研究 总被引:1,自引:0,他引:1
文本分类是数据挖掘的重要内容之一,在很多领域经常需要对文本信息进行处理、抽取、分类。通过分析了文本分类过程中涉及的文本表示、特征抽取、分类等方法,指出文本分类的基本特点。 相似文献
7.
在介绍文本分类技术的基础上,结合学科导航特点,探讨了将文本分类技术应用于学科导航的必要条件,分析了应用文本分类技术后给学科导航带来的影响,通过实证显示了文本分类技术应用于学科导航分类所产生的优势. 相似文献
8.
网络文本分类是数据挖掘技术的重要组成部分,是从互联网中获取有效信息资源的重要方式之一.本文论述了网络文本分类及其技术,通过对具有主题的大量网络文本的有效分析和挖掘,使网络文本分类技术在自主网络信息定制和自动信息获取中得到更加广泛地应用研究. 相似文献
9.
10.
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。 相似文献
11.
文本挖掘与中文文本挖掘模型研究 总被引:5,自引:0,他引:5
文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCTMF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。 相似文献
12.
基于词频的中文文本分类研究 总被引:1,自引:0,他引:1
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。 相似文献
13.
14.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。 相似文献
15.
研究了中文词自动分类问题。针对传统的蚁群算法中文词语分类精确度低等问题,提出了一种将蚁群算法应用到了中文词语自动分类中。方法建立在首先对大规模语料文本进行统计和计算的基础上,得到词的一元和二元信息,然后采用了蚁群算法对该信息进行词的分类。实验结果表明,提出的算法有效提高了词语分类的精确度。 相似文献
16.
17.
文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程.文章将对基于贝叶斯算法的文本分类技术进行论述. 相似文献
18.
近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD)、简单数据增强(EDA)算法、word2vec和文本卷积神经网络(TextCNN)的NEWT新型计算框架;实证部分,基于中国地方政府发布的科技政策文本进行算法校验。实验结果显示,在取词长度分别为500、750和1 000词的情况下,应用NEWT算法对中文科技政策文本进行分类的效果优于RCNN、Bi-LSTM和CapsNet等传统深度学习模型,F1值的平均提升比例超过13%;同时,NEWT在较短取词长度下能够实现全文输入的近似效果,可以部分改善传统深度学习模型在中文长文本自动分类任务中的计算效率。 相似文献
19.
在对互联网上海量文本信息进行管理的过程中,文本自动分类是一项关键且基础的技术。本文主要介绍了文本分类的概念、实施过程.相关技术以及文本分类在网络信息服务中的几个典型用途。 相似文献