首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
陈晶 《大众科技》2010,(1):55-56
基于词片网格的语音文档主题分类,为了从网格(lattice)多候选中得到语音文档主题分类召回率更高,提出了在lattice音节网格上直接提取词片,并且在处理语音词片的同时,将非负矩阵分解方法引入语音文档主题的分类。该方法避免了语音识别率低所导致的语音文档主题分类准确性的降低。实验结果表明:当N-best的召回率为91.66%时,基于混淆网络的关键词检出系统的召回率为96.67%,当SVD的F1值为83.38%,NMF的F1值为96.944%。  相似文献   

2.
《科技风》2016,(2)
通过对中文文本中二元组进行分类,可以提取出文本中的中文词汇。研究中文二元组的组合规律,抽取二元组的词频、邻接熵、二元组概率、互信息值、卡方值等多个特征。利用机器学习的方法将二元组分为二元词、非词和待扩展词三类,实现中文词汇的自动提取。实验分别采了用朴素贝叶斯模型和决策树算模型进行训练,利用模型预测中文二元组,抽取中文词汇。实验结果表明,决策树算模型分类效果较好,准确率70.3%,召回率73.5%,F1值71.9%。  相似文献   

3.
张建华  冉佳  刘柯 《科技管理研究》2020,40(19):140-146
针对传统知识推荐算法存在的语义缺失和精准性低问题,本文提出一种基于改进LDA-FCM的知识推荐算法。首先获取用户知识文档,采用主题优化的LDA模型挖掘用户知识主题。继而通过FCM算法将用户聚类,缩小相似度计算的遍历范围,并采用JS散度代替欧氏距离,实现FCM对象到用户的转换。最后基于UserCF算法构建用户对知识的兴趣指数并进行TOP-N推荐。爬取中国知网500篇期刊论文实测发现:与传统UserCF算法相比,改进算法的准确率、召回率和F1值分别提高了28.17%、59.62%、53.88%。  相似文献   

4.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类 时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方 法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高 阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题 发现。  相似文献   

5.
在中文微博数据的文本情感分类任务中使用机器学习方法 ,为研究不同的特征集对情感分类准确率的影响,综合了一元词特征、句法特征、微博特征、基于评价对象特征、词典特征用于支持向量机分类器中,通过准确率、召回率、F指数比较分析不同特征组合对于分类性能的影响。所提方法用于微博数据中关于药品二甲双胍的评论文本,实验结果表明,一元词特征对文本情感分类的准确率高于其他单类特征,而在与句法特征、微博特征、基于评价对象特征、词典特征的综合使用得到了最高的分类精度。  相似文献   

6.
应用于中文文本分类的改进KNN算法   总被引:1,自引:0,他引:1  
本文介绍了文本分类的基本流程及涉及到的相关技术,详细介绍了传统KNN方法并分析了它存在的不足之处,在此基础上提出了一种改进的KNN方法,该方法在相似度计算上进行了改进,通过实验证明了改进的KNN方法在宏召回率、宏准确率、宏F1值以及微F1上都有所提高。  相似文献   

7.
随着互联网信息量呈现指数级增长,人们希望搜索引擎能够把用户最关心的信息排在前面以方便浏览。本文提出了一种基于分类特征选择的信息检索结果重排序方法,将分类特征与其它检索特征融合在一起,在保持分类搜索引擎结果文档召回率的前提下,该方法有效地提高了检索结果的平均准确率。  相似文献   

8.
吴树芳  杨强  侯晓舟  尹萌 《情报杂志》2023,(11):119-125
[研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F1值上均有一定提高。  相似文献   

9.
李旭晖  周怡 《情报科学》2022,40(3):99-108
【目的/意义】关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进行分析更加符合实际需求。本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类的关键词抽取方法。【方法/过程】首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集在一起,为各个词语获取相应的语义类别。然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计算节点得分。最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正。【结果/结论】从整体的关键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率R以及F值上分别提升了12.66%、13.77%、13.16%。【创新/局限】本文的创新性在于使用语义代替词语,从语义层面对相关性网络进行分析。同时,首次引入融合知网义原信息的词向量用于关键词抽取工作。局限性在于抽取方法依赖知网信息,只适用于中文文本抽取。  相似文献   

10.
何学文  张磊 《大众科技》2012,14(3):16-17
对识别后的语音文档进行了向量空间模型的建立,针对得到的高维稀疏矩阵提出了基于局部敏感哈希的语音文档分类算法,算法能够直接在高维稀疏矩阵上进行分类,无需降维。此外,在构建局部敏感哈希函数的时候结合了稳定分布。实验证明,局部敏感哈希算法能够对语音文档进行合理有效的分类,同时获得了较小的时间复杂度。  相似文献   

11.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

12.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

13.
介绍一个航班预定口语对话系统的设计与实现,该系统允许用户通过普通话进行航班信息查询与预定.重点介绍口语对话系统中的口语语言理解.为了克服语音识别引入的识别错误导致语义理解错误的问题,提出基于词混淆网络的两阶段中文口语语言理解方法:首先从词混淆网络中选择N元文法作为分类特征,进行主题分类,并通过语义分类模型解析获取对应的语义树结构;然后利用基于规则的语义槽填充器抽取相应的语义槽属性-值.该方法是数据驱动的,训练数据的标记比较容易.实验在汉语航班预定领域进行,结果表明,在语音识别字错误率很高的情况下,该方法比传统的基于语法规则的语言理解方法更加鲁棒,在语义理解正确率方面有明显改善.  相似文献   

14.
渔业文本分类是充分利用渔业信息资源的有效途径。针对中文文献资料的结构特点,提出一种结合特征词权值和支持向量机(Support Vector Machine,SVM)的渔业文本分类方法,利用向量空间模型(Vector Space Model,VSM)构建文本向量空间,并结合特征词权值计算文本特征向量中的各特征项,将构建的文本向量送入SVM进行渔业文本分类。采用中国知网下载的标准文档进行了实验测试,并考察了准确率和召回率两个指标,实验结果表明,文章提出的渔业文本分类方法具有较好的分类效果。  相似文献   

15.
李海蓉 《情报科学》2012,(6):852-857
简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。  相似文献   

16.
本文将触发词分为时间类和非时间类,对触发词提取算法进行改进,以一定量导电塑料行业新闻为基础语料构建两类触发词词表,并采取时间类触发词优先的事件句识别策略。基于该触发词词表对导电塑料和太阳能行业新闻语料进行事件句识别算法有效性实验,开放测试的召回率和准确率分别超过98%和95%。该结果表明:将触发词进行基于时间特性的分类,并优先使用时间类触发词提取事件句,能取得显著的效果。  相似文献   

17.
【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。  相似文献   

18.
当前建设工程合同管理工作量大,长期依赖人工审核和主观经验,为改变合同审查依赖主观经验的现状,进一步探索和实现合同条款智能识别和智能审核,尝试引入基于深度学习(DL)的自然语言处理(NLP)技术,提出一种建设工程合同智能分类方法。首先,设计合同智能分类方案,分别采用卷积神经网络(CNN)、长短期记忆网络(LSTM)和融合模型进行计算实验;其次,将CNN和LSTM模型用于合同文本特征提取和合同文本分类中,通过融合两个神经网络以提升分类模型的性能指标。结果显示,精确率和召回率的调和平均数(F1值)最高的为融合模型,其次是LSTM模型,CNN模型最低。相较于基于机器学习的其他同类研究,基于NLP和DL的建设工程合同分类融合模型能够提高合同文本分类任务的效果,实现对大规模数据量的施工、勘察、监理等不同类型合同的准确识别以及快速分类和归档。  相似文献   

19.
一种基于主题和分众分类的信息检索优化方法   总被引:1,自引:0,他引:1  
本文针对目前搜索引擎存在的检索结果缺乏组织导致检准率不高的问题,提出一种基于主题和分众分类的信息检索优化方法.首先对用户检索主题进行获取和表达,然后以社会标签为聚类项,采用向量空间模型实现基于分众分类的文档主题聚类,并将检索结果按相似度和标签"受欢迎度"复合排序,达到提高检索准确率和优化检索的效果.  相似文献   

20.
张令通  罗森林  陈燕颖 《科技通报》2014,(3):108-112,125
为降低进行文档搜索时对系统资源的占用,提出了一种实现对主机内文档进行快速高效搜索的方法,采用基于宽度优先非递归搜索算法实现对主机内文档的遍历搜索;采用基于改进的BF算法和改进的KMP算法分别进行文档名和文档关键词匹配;采用降低线程优先级和定时暂停程序的方法控制搜索效率;采用压缩存储的方法对搜索结果进行处理。设计并实现了原型系统,测试结果表明,系统具有较高的准确率和召回率,且对主机内存、CPU、硬盘等资源占用少,降低了在进行文档搜索时对计算机其他进程的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号