首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
[目的/意义]将体验型产品在线评论按照文本长度分为长文本在线评论和短文本在线评论,探究这两类评论的时间和内容特征,为电子商务平台掌握消费者在线评论行为规律和商品需求偏好提供情报依据。[方法/过程]利用Python爬虫语言获取电影评论网站中在线评论的相关信息,构造在线评论时间间隔序列,基于人类行为动力学相关构念,探究不同类型在线评论发布行为的时间特征规律;利用文本挖掘方法找出不同类型在线评论的文本内容特征并进行比较分析。[结果/结论]以电影评论网站在线评论为数据来源,从时间角度总结出不同类型在线评论行为的时间间隔序列符合幂率分布;从文本内容角度发现不同类型在线评论的文本内容特征既有一定的相似性,也表现出明显的差异。  相似文献   

2.
基于Word2vec的情感分析在品牌认知中的应用研究   总被引:2,自引:0,他引:2  
[目的/意义]通过基于Word2vec的文本情感分析技术对某显示器品牌的产品与服务的在线评论进行分析,研究消费者的品牌认知和品牌口碑,为管理者建立更科学的品牌管理体系提供有针对性的建议。[方法/过程]首先利用自然语言处理技术,对评论语料库进行预处理,结合深度学习的Word2vec词向量技术构建产品特征词和情感词词库,进一步构造情感概念对进行情感评分,并将其用于分析品牌产品特定特征的用户情感。[结果/结论]通过Word2vec构建的情感词典相较于传统方法(例如一般的情绪词表)进行情感分析,在情感分析的准确率上有所提高,再结合有效的情感概念对构造与情感评分,可以有效地理解用户的品牌认知。  相似文献   

3.
[目的/意义]从刑事二审案件裁判文书中挖掘上诉理由和相关影响因素,给法院和智慧量刑系统提供相关数据。[方法/过程]以北大法宝网近一年的刑事二审案件裁判文书作为基础数据,用信息抽取、word2vec训练词向量和聚类等文本挖掘方法对文本内容进行挖掘。[结果/结论]在传统的上诉理由之外,发现了基于上诉人自身态度的上诉理由。信息抽取、word2vec训练词向量和聚类等文本挖掘方法可用于裁判文书相关内容挖掘。  相似文献   

4.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

5.
[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary,OOV),同时避免摘要重复,提高文本摘要的质量,本文以解决OOV问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence,seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attention mechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE (recall-oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。  相似文献   

6.
基于词向量扩展的学术资源语义检索技术   总被引:1,自引:0,他引:1  
[目的/意义] 尝试以统计的方法为指导思想,探究基于词向量扩展的语义检索技术来提升学术资源的语义检索能力。[方法/过程] 利用自然语言处理、文本挖掘技术,对采集来的学术资源(主要是学术论文)元数据进行预处理,结合word2vec词向量生成工具和elasticsearch全文检索引擎搭建语义检索系统,对学术资源进行语义检索的探索研究。[结果/结论] 本文提出的方法能够有效提升学术信息的检索效果,一定程度上实现学术资源的语义检索,并为后续语义检索的进一步研究提供借鉴。  相似文献   

7.
[目的/意义]为识别并去除非理性投资者的网络评论,提升评论的专业程度与质量,促进理性投资,本文以识别股吧中的用户是否属于噪声投资者为研究任务,进行用户画像。[方法/过程]对股吧的用户发文内容进行深度用户表示学习(deep user representation learning),结合股吧用户的粉丝数量、影响力、关注量、自选股、吧龄、发帖量、评论量、访问量等行为特征,提出一种行为-内容融合模型(behaviour and content combined model,BCCM),并在标注数据集上进行实证与对比研究。[结果/结论]实验结果显示,该模型对噪声投资者识别的F1值为79.47%,优于决策树方法(69.90%)、SVM方法(75.61%)、KNN方法(73.21%)和ANN方法(74.83%)。在噪声投资者识别这一特定用户画像研究任务中,通过利用深度用户表示学习引入文本内容特征,能够显著提升用户画像的各种评价指标。  相似文献   

8.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

9.
国佳  郭勇  沈旺  潘梦雅 《图书情报工作》2019,63(17):137-144
[目的/意义]提出基于在线评论的网络社区信息可信度评价方法,为信息治理提供有效依据。[方法/过程]构建基于在线评论的网络社区信息可信度评价指标体系,利用改进AHP理论确定指标权重;利用LSTM模型对评论情感分类,采用改进的D-S证据理论模型融合情感分类数据作为指标量化计算方法。以知乎网络社区为例,从3个角度计算网络信息内容的可信度:经过筛选的具有可信观点评价的在线评论、所有在线评论、调查问卷。[结果/结论]实验结果表明,基于可信观点评论的可信度排序与基于调查问卷的可信度排序基本一致,说明利用在线评论对网络信息可信度进行评价具有一定的可行性。  相似文献   

10.
[目的/意义]微博评论情感分类模型可以为相关舆情监管部门正确管控话题事件的发展状况和舆情提供一定的指导作用。[方法/过程]基于字词向量的多尺度卷积神经网络,运用多尺度卷积核改善微博评论中上下文信息有限的条件制约,构建基于字词向量的多尺度卷积神经网络微博评论情感分类模型;通过爬取"微博热搜整改"数据,对模型的可行性和优越性进行验证。[结果/结论]验证结果表明基于字词向量的多尺度卷积神经网络在微博舆情等上下文信息有限的短文本分类任务中表现良好。本文在理论层面为微博舆情情感分类提供了更为准确的情感分类理论模型及分类方法,在实践层面可以更好地指导舆情监管部门对舆情的情感倾向进行更好的引导和监管。  相似文献   

11.
[目的/意义]作为一类面向学科领域科技情报需求、针对全文本关键语义计量分析、旨在实现情报自动化到知识自动化实践应用的探索研究,本文基于语义标注和机器学习等技术,在前期研究从知识元共现视角探测研究前沿演进机理基础上,进一步提出一种基于知识元变异的研究前沿知识演进分析方法。[方法/过程]利用Word2vec词嵌入模型将知识元表示为词向量,通过计算知识元向量的欧几里得距离,利用K-means聚类方法识别具有相似语义语用关联的知识元簇集,计算历时簇集内各知识元TF-IDF值,对变异后知识元重要程度的突发变化结果进行定量测度,进而挖掘ESI研究前沿演进中的知识元变异特征和规律。[结果/结论]通过探测结果的对比检验发现,基于知识元变异的科学计量方法,不仅是对前期研究方法的补充和拓展,使得针对研究前沿内部知识运动规律的挖掘更加具体详实,更是在时间序列范畴内,能够尽早、及时探测研究前沿未来发展动向和关键情报信号的有力证据。  相似文献   

12.
[目的/意义] 针对目前全领域科学知识图谱构建方法中存在的技术难点,结合网络嵌入模型、机器学习聚类、流形学习可视化算法等人工智能领域的方法与模型,提出一套全新发现科学结构的知识图谱构建方案,以完善科学结构发现与可视化布局,并拓展科学知识图谱的分析应用场景。[方法/过程] 引入基于深度学习的网络嵌入模型和聚类方法改进原有的网络社团划分聚类方法,利用流形学习降维可视化算法扩大数据处理能力,并设计由下至上分层可视化布局方法,提升可视化图谱的稳定性与细节揭示能力。[结果/结论] 以科睿唯安公司的基本科学指标数据库(ESI)研究前沿中高被引论文作为分析数据集,使用新聚类算法得到1 169个研究领域,通过改进的可视化布局算法形成全领域科学结构图谱。与前几期科学结构图谱相比,本文提出的方法支持更大规模的数据分析,对可视化细节揭示与稳定性也有大幅优化,可以更好地展示全领域科学研究宏观结构及内在关系,为全领域科学知识图谱的绘制与构建提供更可靠的方法和技术支持。  相似文献   

13.
[目的/意义]微博已成为大众情感表达的重要平台,微博的情感分析在舆情分析、用户体验、商机挖掘等方面有着重要的作用。[方法/过程]提出的情感倾向分类算法WE_SDAE使用单词嵌入的方式将微博表示成一个低维稠密向量,然后通过添加正则项和加噪处理的方式将基本的自动编码器算法优化成深层噪音自动编码器,并在顶层添加分类器,实现情感倾向分类。考虑到微博用词灵活,还从单字和词语两个粒度训练模型。[结果/结论]实验结果表明,基于单字粒度的模型表现优于基于词语粒度的模型。此外,对比实验显示WE_SDAE算法优于传统的SVM、Naive-Bayes、XgBoost等相关算法;单词嵌入的方式优于传统的向量空间模型表示方法,能在微博情感分析中取得较好的效果。  相似文献   

14.
[目的/意义]分析技术主题演化过程可以梳理技术发展脉络,对于发展创新、预测技术发展趋势具有重要意义,但是从语义角度分析技术主题演化轨迹的研究较少。因此,从语义的角度出发,分析技术主题演化过程。[方法/过程]提出基于非负矩阵分解的改进的动态非负矩阵分解模型对专利文本进行动态主题建模,并利用TextRank算法抽取名词短语进行标注,增强所抽取技术主题的可解释性。在此基础上,利用词向量的方式计算技术演化轨迹,并进行可视化展示。[结果/结论]对2002年、2005年、2008年、2011年和2014年的五方专利进行实证分析,识别出65个技术主题及其演化轨迹,表明方法的可行性。  相似文献   

15.
[目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。  相似文献   

16.
[目的/意义]如何理解新手在与学术数据库交互过程中其心智模型的演进过程和学习模式是值得关注的问题,探究任务类型对学术数据库新手用户心智模型和学习模式的影响能够更好地帮助用户使用学术数据库。[研究设计/方法]本研究通过77位新手用户参与完成三种不同类型的任务(事实型搜索、探索型搜索和干涉型搜索)前后分别绘制的中国知网概念图的实验,对概念图的结构差异和内容差异进行分析,探讨不同任务情境下学术数据库新手心智模型的演进规律及学习模式。[结论/发现]研究表明用户信息搜索前后心智模型的演进模式受到任务类型的驱动,呈现出不同的概念图结构和维度内容;用户在不同任务的搜索前后均进行了学习行为,但学习模式存在差异,大多数新手用户在事实型任务和干涉型任务搜索后进行了有意义的学习,而在探索型任务搜索后用户进行了初步学习。[创新/价值]从任务类型的影响视角丰富了“搜索即学习”中的新手用户心智模型和学习模式的研究内容,有利于信息专业人员为新手开展信息检索技能培训和优化检索系统设计。  相似文献   

17.
[目的/意义] 先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法/过程] 通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果/结论] 在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。  相似文献   

18.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

19.
[目的/意义] 为了解决研究生用户面临的检索问题,提出一种基于LDA和社会网络中心度分析的个性化检索推荐模型。[方法/过程] 首先,该模型以研究生学科专业为个性化特征,并据此选择相应的数据源。其次,该模型使用LDA识别主题内容,以完成全面知识的展示。再次,该模型根据用户提交的检索词在相应的关键词-主题共现网络中进行社会网络中心度分析,以完成用户相关知识的推荐。[结果/结论] 实验表明,该模型能够很好地解决研究生检索中个性化特征、全面知识展示以及相关知识推荐三大问题,其有效性得到一定程度的验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号