首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
吕建新  郑伟  马林  李明  谷翠梅 《情报科学》2019,37(12):47-51
【目的/意义】现有特征选择方法可以计算特征所携带的类别信息量,但却不能计算出与主题相关的语义信 息。针对其不足,为了提高分类准确率,提出一种基于词向量语义扩展的特征选择方法。【方法/过程】该方法引入 了词向量进行主题语义计算,筛选出具有类别语义信息的词条实现特征候选集的特征扩展,并采用K近邻分类方 法进行分类实验。【结果/结论】实验结果显示新方法能够有效提取主题语义特征并提高分类准确率。  相似文献   

2.
曾金  陆伟  陈海华  贺国秀 《情报科学》2018,36(1):124-129
【目的/意义】通过社交媒体用户分享的图像、博文及用户标签进行数据挖掘,来判断和预测用户的真实兴 趣,从而更好地为用户做个性化推荐和精准化服务。【方法/过程】在获取微博用户分享的图像、博文及用户标签的 基础上,通过使用机器学习的方法利用图像、博文及用户标签数据来表达用户兴趣特征,基于三类特征使用SVM训 练得到分类器进行用户兴趣类别预测,主要比较单模数据和多模数据的分类指标,探讨多模数据在有监督学习下 的发多分类问题。【结果/结论】实验结果表明,利用图像、博文和用户标签合成的多模数据对用户兴趣进行分类识 别,F值达到77%,比最好的单模数据提升10%。实验结论证实,多模(图像、博文和标签)数据与单模数据相比,提升 了分类效果,同时为多模数据应用研究提供了一定的理论和技术基础。  相似文献   

3.
【目的/意义】本文基于颜色、纹理等外部特征与局部视觉特征构成的底层语义特征数据并采用随机森林的 方法对医学图像信息进行语义自动标注,为医务工作者提供临床决策参考,便于普通公众理解医学知识和了解个 人健康情况,也可以在大数据环境下扩展图书情报领域研究人员对信息组织与处理的范围,促进学科交叉与融合, 提升智慧医学的发展,为健康中国战略提供智力与技术支持。【方法/过程】融合图书情报领域知识与医学知识,将 图像语义标注看作为一个多类分类问题,首先,抽取颜色、纹理等外部特征及局部视觉特征等底层语义特征;然后, 运用随机森林的方法,设计了基于随机森林的医学图像自动标注方案。【结果/结论】融合底层语义特征的医学图像 信息自动标注的方案与随机树标注方案相比较,具有较好的效果。【创新/局限】将视觉语义词典作为医学图像的底 层语义特征引入到图像标注中;运用随机森林构建的医学图像标注方案;局限在于仅采用BreaKHis数据集为实验 数据。  相似文献   

4.
易明  秦涵  蒋武轩 《情报科学》2020,38(2):29-38
【目的/意义】基于标签系统所蕴含的语义信息与隐性社会网络,构建融合标签概念空间及用户网络的语义社 团发现模型,提高社团发现的质量。【方法/过程】通过构建标签的概念空间挖掘标签间的语义关系,并根据标签包 含的隐性社会网络发现用户网络,进而将两者结合融入到社团发现算法中,并以豆瓣网数据对模型进行实证。【结 果/结论】标签概念空间及用户网络能够提升语义社团发现算法效果。  相似文献   

5.
【目的/意义】随着社交网络与新闻媒体的发展,大量虚假信息的滋生与传播已经引发了严重的社会问题。目前的研究主要依赖于收集谣言发生后的传播特征进行识别。为了在早期更准确地发现谣言,本文提出一种融合深度语义知识的谣言识别模型。【方法/过程】本文通过使用Transformer和Multi-head注意力抽取舆情信息深层结构的复杂特征,融合了文档结构及上下文语义知识表征,以提高早期识别虚假舆论信息准确率来及时防止谣言传播扩散。【结果/结论】本文通过在各个平台的真实数据集进行训练和识别实验,较现有基线方法的准确率最少提升了5.6%,最大提高了24.6%。结果表明,本文模型可通过对早期谣言文本的事实验证,提高模型识别谣言的准确性以在早期阶段阻断谣言传播。【创新/局限】本文谣言识别模型在BERT-Base基础上进一步结合了舆情文本语义知识特征表征,能有效提高早期谣言的识别准确度,但目前尚未考虑谣言传播者个性化特征如社会标签、行为信息等,如何融合更多传播者特征有待进一步研究。  相似文献   

6.
【目的/意义】针对基于统计特征的短语识别方法存在的噪声问题,提出了融合多策略的短语识别方法。【方 法/过程】该方法融合多统计量提取候选短语,并基于停用词表进行初步过滤,利用词向量较强的语义表达能力对 候选短语进行过滤,以提高短语识别的准确率。在环保领域专利语料上进行实验,利用搜狗新闻语料与中文专利 数据训练词向量库进行短语识别优化。【结果/结论】该方法对于语料规模较小以及阈值较低的结果过滤还有待进 一步研究。实验结果表明,融合深度学习的方法提高了短语识别的准确率。  相似文献   

7.
【目的/意义】为了提高图书情报的实时检索能力,需要进行图书情报共引数据整合模型设计。【方法/过程】 提出一种基于文献计量共引分析的图书情报数据的整合方法,构建图书情报文献计量共引数据整合的射频标签识 别模型,采用RFID标签技术进行图书情报文献计量共引数据的自动采样,对采样的大数据采用语义相似度特征提 取方法进行信息融合;结合文献计量共引分析方法进行图书情报数据的自适应聚类分析和整合分类,构建反映图 书情报归类的语义本体模型。通过自相关特征匹配方法实现对图书情报文献计量共引数据的优化分类检索和整 合。【结果/结论】测试结果表明,采用该模型进行图书情报文献计量共引数据整合的分类性能较好,数据检索的查 全率和查准率较高,提高了图书情报的检索效率。  相似文献   

8.
曾金  贺国秀 《情报科学》2019,37(3):136-140
【目的/意义】基于社交媒体用户分享的图像、博文及用户标签数据,为用户推荐潜在的好友,从而更好的为 用户做个性化推荐和精准化服务。【方法/过程】在获取微博用户分享的图像、博文及用户标签的基础上,通过使用 深度学习的方法利用图像、博文及用户标签数据来表达用户兴趣特征,基于这三类特征组合,通过计算用户之间的 余弦相似度来挖掘与目标用户兴趣最相近的若干个候选用户。同时,探讨了多模数据在无监督学习下的用户推荐 问题,并与单模数据进行比较。【结果/结论】实验结果表明,利用图像、博文和用户标签合成的多模数据对用户的兴 趣进行建模并进行好友推荐较单模数据效果好。  相似文献   

9.
张国标  李洁  胡潇戈 《情报科学》2021,39(10):126-132
【目的/意义】社交媒体在改变新闻传播以及人类获取信息方式的同时,也成为了虚假新闻传播的主要渠 道。因此,快速识别社交媒体中的虚假新闻,扼制虚假信息的传播,对净化网络空间、维护公共安全至关重要。【方 法/过程】为了有效识别社交媒体上发布的虚假新闻,本文基于对虚假新闻内容特征的深入剖析,分别设计了文本 词向量、文本情感、图像底层、图像语义特征的表示方法,用以提取社交网络中虚假新闻的图像特征信息和文本特 征信息,构建多模态特征融合的虚假新闻检测模型,并使用MediaEval2015数据集对模型性能进行效果验证。【结果/ 结论】通过对比分析不同特征组合方式和不同分类方法的实验结果,发现融合文本特征和图像特征的多模态模型 可以有效提升虚假新闻检测效果。【创新/局限】研究从多模态的角度设计了虚假新闻检测模型,融合了文本与图像 的多种特征。然而采用向量拼接来实现特征融合,不仅无法实现各种特征的充分互补,而且容易造成维度灾难。  相似文献   

10.
徐彤阳  尹凯 《情报科学》2019,37(10):13-19
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工 智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理 的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习 模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习 的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智 能化程度,还可以提高数字图书馆信息服务的效率和质量。  相似文献   

11.
陈杰  马静  李晓峰  郭小宇 《情报科学》2022,40(3):117-125
【目的/意义】本文融合文本和图像的多模态信息进行情感识别,引入图片模态信息进行情感语义增强,旨在 解决单一文本模态信息无法准确判定情感极性的问题。【方法/过程】本文以网民在新浪微博发表的微博数据为实 验对象,提出了一种基于DR-Transformer模型的多模态情感识别算法,使用预训练的DenseNet和RoBERTa模型, 分别提取图片模态和文本模态的情感特征;通过引入Modal Embedding机制,达到标识不同模态特征来源的目的; 采用浅层Transformer Encoder对不同模态的情感特征进行融合,利用Self-Attention机制动态调整各模态信息特征 的权重。【结果/结论】在微博数据集上的实验表明:模型情感识别准确率为 79.84%;相较于基于单一文本、图片模 态的情感分类算法,本模型准确率分别提升了 4.74%、19.05%;相较于对不同模态特征向量进行直接拼接的特征融 合方法,本模型准确率提升了 1.12%。充分说明了本模型在情感识别的问题上具有科学性、合理性、有效性。【创 新/局限】利用 Modal Embedding 和 Self-Attention 机制能够有效的融合多模态信息。微博网络舆情数据集还需进 一步扩充。  相似文献   

12.
桂思思  徐健 《情报科学》2021,39(11):90-95
【 目的/意义】针对查询意图歧义性自动识别,探讨特征有效性及采用不同分类算法识别三类查询意图歧义 性的分类准确率,以期对后续研究提供借鉴与指导。【方法/过程】首先提出了一个面向查询意图歧义性的查询表达 式分类体系;随后,构建了查询表达式特征及相关文档特征共六类;最后,分别采用决策树算法、神经网络算法及k 最邻近算法,探讨采用不同特征组合的有效性及不同分类算法的分类准确率。【结果/结论】①分类准确率较基准实 验提升比例为49.5%;②使用查询表达式特征分类优于使用相关文档特征;③决策树的分类准确率略高于其他两类 分类算法。【创新/局限】构建了一个面向查询意图歧义性的查询分类体系;完成了面向三类查询意图歧义性的分类 任务;然限于数据集获取途径,仅对200数据验证。  相似文献   

13.
王倩  曾金  刘家伟  戚越 《情报科学》2020,38(3):64-69
【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经网络的特征对学术文本段落进行表达,然后进行分类。【结果/结论】文本提出的深度学习方法在整体分类结果上优于传统的机器学习方法,同时极大的减少了传统特征工程的人力需求。  相似文献   

14.
陈文珺  杨佳佳 《情报科学》2020,38(6):126-132
【目的/意义】基于迁移学习理论,提取多领域间共享知识模型,并进行有效的领域适应,提升目标领域推荐 性能。【方法/过程】充分利用领域中的用户-物品评分矩阵,分别对多领域用户和物品进行潜在特征提取,并将用 户-物品特征向量分别进行特征聚类;同时对多领域特征矩阵进行领域适应融合,得到共享知识模型;最后再运用 迁移学习理论与方法,将收敛的共享知识模型从源领域迁移至目标领域,提高目标领域推荐性能。【结果/结论】实 验结果表明,首先,多领域信息融合较于单领域推荐有着更好的推荐性能;其次,本文所提出的基于共享知识迁移 学习的跨领域推荐模型在推荐效果上要优于当前业界已有的其它跨领域推荐算法。  相似文献   

15.
余本功  王胡燕 《情报科学》2021,39(7):99-107
【目的/意义】对互联网产生的大量文本数据进行有效分类,提高文本处理效率,为企业用户决策提供建 议。【方法/过程】针对传统的词向量特征嵌入无法获取一词多义,特征稀疏、特征提取困难等问题,本文提出了一种 基于句子特征的多通道层次特征文本分类模型(SFM-DCNN)。首先,该模型通过Bert句向量建模,将特征嵌入从 传统的词特征嵌入升级为句特征嵌入,有效获取一词多义、词语位置及词间联系等语义特征。其次,通过构建多通 道深度卷积模型,将句特征从多层级来获取隐藏特征,获取更接近原语义的特征。【结果/结论】采用三种不同的数 据对模型进行验证分析,采用对比相关的分类方法,SFM-DCNN模型准确率较其他模型分类性能有所提高,这说 明该模型具有一定的借鉴意义。【创新/局限】基于文本分类中存在的一词多义、特征稀疏问题,创新性地利用Bert来 抽取全局语义信息,并结合多通道深层卷积来获取局部层次特征,但限于时间和设备条件,模型没有进行进一步的 预训练,实验数据集不够充分。  相似文献   

16.
张彬  徐建民  吴树芳 《情报科学》2020,38(4):147-152
【目的/意义】通过对大数据环境下的多源用户兴趣特征有效融合,缓解个性化推荐中用户兴趣偏好数据的稀疏性和准确性问题。【方法/过程】考虑到多域的数据权威度、内容质量及体系结构的差异化较为明显,提出了基于多源用户标签的跨域兴趣融合模型,首先把多个域中的用户兴趣进行标签化处理,然后利用跨域用户识别和标签权重归一方法得到多个域的用户实体-标签矩阵,最后使用域权重影响系数对标签进行融合,构造具有复合权重的用户兴趣标签集。【结果/结论】使用5个来源数据域进行实验与分析,融合模型能够有效提高标签用户覆盖效果,在查全率不断提高的情况,融合域能够保持较高的标签用户查准率,有效提高用户兴趣特征的描绘效果。  相似文献   

17.
【目的/意义】微博情感分析对公共安全事件管控有着重要意义。现有研究将单条微博作为整体进行分析, 情感分析最小单元局限于字或词,而对微博从词到句子,从句子到单条微博这种多层粒度文本结构产生的影响关 注不足,基于此本文提出一种融合双层注意力的Bi-LSTM模型提升情感分析性能。【方法/过程】以红黄蓝幼儿园涉 嫌虐童事件为例,通过Bi-LSTM提取微博词级和句子级特征,结合双层注意力机制学习各级特征权重分布,以递 进顺序综合局部情感得到整条微博的情感分类。【结果/结论】实验结果表明,本研究提出的微博情感分析模型F1 值、准确率分别达到97.39%、97.62%,相比于SVM、RF、XGBOOST和LSTM,该模型能够在公共安全事件微博情感 分析方面取得较好效果。  相似文献   

18.
【目的/意义】提出融合深层演化特征的情感分析方法,以提升公共安全事件微博情感分析精度。【方法/过 程】以红黄蓝幼儿园涉嫌虐童事件为例,使用LDA与爬虫软件提取演化特征中的主题特征、时间特征,结合传统浅 层文本词性特征与情感特征,应用于XGBoost以生成微博情感分析集成模型。【结果/结论】演化特征的融入使得 情感识别准确度Auc值提高4%,且XGBoost分类精度均优于SVM、随机森林。本文提出的情感识别模型能够在公 共安全事件微博情感分析方面取得较好效果  相似文献   

19.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

20.
程雅倩  黄玮  金晓祥  贾佳 《情报科学》2022,39(2):155-161
【目的/意义】由于自媒体平台中的多标签文本具有高维性和不平衡性,导致文本分类效果较差,因此通过 研究5G环境下高校图书馆自媒体平台多标签文本分类方法对解决该问题具有重要意义。【方法/过程】本文首先通 过对采集的5G环境下高校图书馆自媒体平台多标签文本进行预处理,包括无意义数据去除、文本分词以及去停用 词等;然后采用改进主成分分析方法进行多标签文本降维处理,利用向量空间模型实现文本平衡化处理;最后以处 理后的文本为基础,采用Adaboost和SVM两种算法构建文本分类器,实现多标签文本分类。【结果/结论】实验结果 表明,本文拟定的自媒体平台标签文本分类方法可以使汉明损失降低,F1值提高,多标签文本分类效果好,且耗时 较低,具有可靠性。【创新/局限】由于本研究中的数据集数量不够多,所以在测试和验证方面,得出的结果具有一定 局限性。因此在未来研究中期望利用更为丰富的数据库,对所设计的方法做出进一步的改进与创新。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号