首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary,OOV),同时避免摘要重复,提高文本摘要的质量,本文以解决OOV问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence,seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attention mechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE (recall-oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。  相似文献   

2.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

3.
宋英华  吕龙  刘丹 《情报学报》2021,40(2):145-151
针对突发事件新闻与普通新闻文本中关键词的差异性,以及现有基于深度学习新闻文本的单一性,研究词语间相互关系或词语与类别间相互关系,提出基于双输入组合深度学习的新闻文本分类模型。首先,基于词向量表征词语间关系,离散度向量表征词语与类别间关系;其次,考虑CNN (convolutional neural networks)模型学习局部空间特征信息的优势、LSTM (long short-term memory)模型学习时间序列特征信息的优势和MLP (multilayer perceptron)模型学习词语与类别间关系的优势,构建DCLSTM-MLP (deep convolution long short-term memory neural network with multilayer perceptron)深度学习组合模型;最后,爬取5477条具有词语间相互关系和词语与类别间相互关系的突发事件新闻文本,以及2815条普通新闻,通过实验对比分析组合模型性能。研究结果表明:第一级突发事件识别模型准确率、召回率和综合值均达到99.55%;第二级突发事件分类组合模型准确率达到94.82%,且...  相似文献   

4.
为了丰富专利分类的网络和文本语义表示,实现两者更有效的语义融合,提高技术融合预测效果,提出基于专利分类序列和文本语义表示的技术融合预测方法。首先,综合考虑专利分类位置及其上下文语境,直接对专利分类序列进行语义表示,提出基于专利分类序列语义表示的技术融合预测方法;其次,根据专利分类在序列中的重要性排序研究专利分类文本分配方法,形成基于专利分类文本语义表示的技术融合预测方法;在此基础上,设计多种特征融合方法,提出融合专利分类序列结构和文本内容语义表示的技术融合预测方法;最后,基于链路预测的理论和方法对提出的多种技术融合预测方法进行定量评价。在无人机领域的实验证实,专利分类序列语义表示模型的效果明显优于其他网络表示学习方法;依据重要性排序的专利分类文本赋予方式优于文本平均分配方式,基于此的专利分类文本语义表示能更好地进行技术融合预测;“SVM (support vector machine)+哈达玛积”的特征融合方法在所有方法中表现最优,较单一方法均有提高。本文提出的方法能够提高技术融合预测的效果,更好地为技术布局、技术研发提供借鉴和参考。  相似文献   

5.
基于句子的文本表示及中文文本分类研究   总被引:1,自引:0,他引:1  
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的.  相似文献   

6.
[目的/意义]针对生物信息学中著名的序列比对算法在文本相似度中的应用,改进前人的方法并提高文本相似度计算的准确性。[方法/过程]首先,对目标文本进行规范化处理,构成中文序列集。随后,利用训练好的Word2vec中的Skip-Gram模型来构建该中文序列集的语词对打分矩阵并制定好打分规则。最后,对中文序列两两进行全局比对并获得比对的最优解,回溯得到最优解的比对路径,计算中文序列的相似度。[结果/结论]实证结果表明,相较于传统方法,本文方法融合词向量模型提升文本相似度计算的准确性并有效解决传统方法中出现重复词对的问题。  相似文献   

7.
[目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。[方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。[结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。  相似文献   

8.
[目的/意义]将体验型产品在线评论按照文本长度分为长文本在线评论和短文本在线评论,探究这两类评论的时间和内容特征,为电子商务平台掌握消费者在线评论行为规律和商品需求偏好提供情报依据。[方法/过程]利用Python爬虫语言获取电影评论网站中在线评论的相关信息,构造在线评论时间间隔序列,基于人类行为动力学相关构念,探究不同类型在线评论发布行为的时间特征规律;利用文本挖掘方法找出不同类型在线评论的文本内容特征并进行比较分析。[结果/结论]以电影评论网站在线评论为数据来源,从时间角度总结出不同类型在线评论行为的时间间隔序列符合幂率分布;从文本内容角度发现不同类型在线评论的文本内容特征既有一定的相似性,也表现出明显的差异。  相似文献   

9.
文本情感摘要技术的目的是以简洁的形式准确表达文章的核心情感内容。为解决不同的文档结构及内容特征等问题对摘要结果的影响,提出了一种基于主题的SE-TextRank 情感摘要方法。通过LDA 模型自动获取收敛后的文本主题,利用余弦距离算法进行主题句子分组,使用传统多特征融合以及SE-TextRank 情感摘要算法对组内中心句抽取,最终获取目的摘要。实验表明,采用此方法能够更为高效的获取新闻文本摘要结果。  相似文献   

10.
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。  相似文献   

11.
[目的/意义]探究ChatGPT生成与学者撰写的中文论文摘要之间的异同,为AI生成学术论文检测及相关研究提供借鉴。[方法/过程]首先,以信息资源管理领域为例,分别抽取图书馆学、情报学、档案学近3年各500篇高被引论文,基于获取的论文题目采用Prompt方式应用ChatGPT工具生成对应的摘要文本,构建数据集合;其次,采用9种机器学习及深度学习算法对ChatGPT生成与学者撰写的摘要文本进行分类检测;最后,从文本特征、主题模型、ROUGE评测对二者的异同进行多角度分析,从而揭示二者之间的异同点。[结果/结论]基于数据集所训练的主流机器学习及深度学习算法可以有效地分辨摘要是AI生成还是学者撰写,其中BERT和ERNIE的效果最好,而机器学习算法中RF和Xgboost效果最好。ChatGPT生成的摘要字符数量、句子数量较学者撰写的要多,关键词多为模版化的转折性词语;两者的文本主题大部分相同,在“学科体系”“数字人文”等主题上存在差异;ROUGE及余弦相似度定量分析表明ChatGPT生成的摘要与学者撰写的摘要文本存在明显的“形似”而非“神似”的现象。  相似文献   

12.
专利摘要是重要的情报分析数据来源,但其自然语言文本的特征,使得专利摘要的自动内容抽取具有较大难度。文章利用亚洲语言信息检索测评会议(NACSIS Test Collections for IR, NTCIR,)提供的英文专利文摘测试语料,采用文本信息抽取统计方法中的条件随机场模型,通过提取并添加有效的特征,有针对性地抽取专利摘要中表示技术和功效内容的信息,为专利的技术功效矩阵分析提供可机器自动抽取的强大支持。  相似文献   

13.
[目的/意义] 为帮助读者从热点事件产生的海量微博报道中快速了解事件的来龙去脉,提高微博事件摘要的准确性和可读性,提出一种基于事件要素的多模型微博热点事件时间轴摘要提取方法。[方法/过程] 针对微博文本特征,结合主题模型(LDA)与互信息最大熵模型(MaRxEnt-MI)的特点提取事件摘要关键词,以微博传播价值和主题相关性为标准筛选微博,以时间-摘要关键词-摘要微博的形式生成时间轴摘要。[结果/结论] 利用人工标注的测试集,与传统的TextRank方法进行对比,F值提高8%-13%,内部测试表明摘要可读性提高明显。实验文本和测试集的数量及事件丰富度需要进一步扩展,应考虑更多的加权策略模型以提高摘要的准确性。实验结果及测试反馈表明,本文的方法能很好满足用户对热点事件摘要信息需求,提高微博摘要提取的准确率。  相似文献   

14.
基于概率图模型的科研文献主题演化研究   总被引:3,自引:2,他引:1  
学术文献的主题分析对于研究者进行思路整理及发现研究主题非常重要.通过进一步的分析,能够理解主题如何发展变化,以及如何影响研究者的行为等等.探索了基于概率图模型的科研文献主题演化问题,特别分析了主题随时间的相互影响问题,提出了基于模块化网络的方法研究主题之间的相互关系,从而理解其相互影响.首先,利用主题模型获取时间文本的主题及其强度曲线,然后利用时间序列的逐段线性表示方法去除序列中的噪音,从而有效反映趋势信息,使得利用模块化网络能够更加准确地反映主题的影响关系,实验结果及其相关分析证明了方法的有效性.  相似文献   

15.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

16.
习海旭  何胜  黄纯国 《情报学报》2023,(10):1176-1186
在移动互联网时代,移动阅读、碎片化阅读已经成为人们阅读的主流方式。在用户阅读过程中,提供摘要内容以提高阅读效率是解决信息过载问题的重要途径之一。科技研究论文文本长、内容广且包含领域知识,其摘要生成任务相比于新闻等普通文本更具有挑战性。本文提出了一种科技论文结构化摘要方法。首先,将科技论文划分为不同的语步;其次,分别对不同语步文本进行抽取式摘要,将文本多特征按权重融入TextRank算法的迭代计算过程中,引入MMR (maximal marginal relevance)算法对预选摘要集进行冗余处理;最后,使用依存句法分析对文本进行语义分析,进一步精简摘要,并组合成结构化摘要。研究结果表明,相比于基准模型,该方法在不同语步的相关性、多样性和可读性指标提升上具有一定差异;结合人工评价发现,该方法在显著提升摘要多样性的同时,一定程度上提升了摘要的相关性和可读性。  相似文献   

17.
整合中文维基语义的网络论坛话题追踪方法研究   总被引:1,自引:0,他引:1  
研究中文维基语义图上的网络论坛话题追踪,对于提高舆情分析系统获取情报的效率及信息处理质量有很大价值.以涉军主题帖子为背景,借鉴维基百科语义相关度与词语共现关系,构建反映词语间静态与动态关联的文本概念图,改进PR算法的关键词挖掘方法,利用维基知识解决论坛文本中的语义特征稀疏问题,减少噪音以提高论坛文本语义相关度计算的准确性.最后实验证明该方法的优越性.  相似文献   

18.
[目的/意义]区块链技术被纳入“新基建”范畴后,其产业发展演进快、舆情热度高。本研究将情感因素纳入新兴产业网络舆情热度预测,探究区块链产业关注主题及发展态势。[方法/过程]论文融合情感分析与多元时间序列特征提出舆情热度预测模型,采用BERT-BiLSTM(Bi-directional Long Short-Term Memory, BiLSTM)方法对舆情文本分类并赋值,挖掘情感极性类别的主题,将不同情感倾向的情感值分别取绝对值累加,构建基于情感因素的多元时间序列特征体系,并输入LSTM(Long Short Term Memory, LSTM)模型进行区块链产业舆情热度预测。[结果/结论]BERT-BiLSTM在情感分类任务中准确率为84%,其中消极和中性情感类属文本的成因主要为“对于区块链技术的不信任”和“缺乏区块链相关概念的了解”。在热度预测模型中,模型均方根误差(Root Mean Square Error,RMSE)降低17.67,平均绝对误差(Mean Absolute Error, MAE)降低15.14,决定系数(R-Square,R2)提升11%,模型总体性能良好。  相似文献   

19.
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法.首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要.实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高.  相似文献   

20.
基于词序方法的文本相似度计算模型   总被引:1,自引:0,他引:1  
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号