首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
文章提出一种改进的关联规则方法,用于抽取文本中的非分类关系。首先利用基于上下文的术语相似度获取方法得到术语间的相似度权重,再通过加入谓语动词的关联规则算法计算,结合搜索引擎技术得到候选关系对集合,并通过置信度和支持度的对比分析,抽取最终的非分类关系结果,最后对测试数据进行实验,并对结果进行分析。  相似文献   

2.
【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务 的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关 键词在对应学术领域的使用情况,使得关键词抽取的准确率受到限制。针对这一问题,本文提出一种基于先验知 识TextRank的学术文本关键词抽取算法。【方法/过程】首先计算候选关键词的使用情况作为先验概率特征值,然 后运用基于图排序的关键词抽取算法TextRank计算候选关键词的文本内特征值,最后结合以上两个特征计算得到 候选关键词的综合权值并对关键词进行排序。【结果/结论】在计算机科学领域的多个文献集上进行了实验评估,其 结果相较于传统的关键词抽取方法有了明显的提高,证明了基于先验知识TextRank的学术文本关键词抽取算法的 有效性。  相似文献   

3.
开放领域的问答系统是自然语言处理领域中具有挑战性的研究方向.答案抽取是问答系统的关键,在基于模式匹配的答案抽取方法中,答案是借助于问题的答案模式抽取得到,因此,答案模式的评价对候选答案排序及答案的最终选择起着决定性的作用.参照传统的答案模式评价方法,提出一种改进的模式评价方法,分别在传统和改进两种答案模式评价方法下进行了答案抽取实验.实验结果表明应用改进的答案模式评价方法,答案抽取性能明显提高.  相似文献   

4.
迟海 《科技风》2012,(21):198
术语是通过语言或文字来表达所限定专业概念的约定性语言符号,其集中体现和负载了一个学科领域的核心知识。中文专利辅助阅读是基于术语自动抽取(AutomaticTermExtraction:ATE)的一项应用型项目。也是自然语言处理的一项重要课题,在机器翻译、信息检索、文本分类和文本摘要等领域有着广泛的应用。本文研究用基于CRF工具包自动抽取术语问题,通过对抽取出的术语文档进行处理,获得一个标注好的术语文档,及其实现过程中涉及到基于中文分词处理的一系列算法以及数据结构等问题进行剖析,有效提高了中文专利阅读的效率及准确性。  相似文献   

5.
通过对本体、形式概念分析等理论研究进行分析,提出一种以"文档——术语"为核心,形式概念分析为技术手段的气象灾害领域的本体构建方法。针对气象灾害领域知识库和主题词表的缺失,以中英文学术论文为数据源,对气象灾害领域术语的层次关系抽取和分析进行了详细阐述和论证,具体包括领域术语的抽取和筛选,文档术语矩阵的建立,主题概念格的生成,术语层次关系分析;本体OWL描述和可视化展示等过程,最后利用GATE Developer对构建本体的有效性进行了验证。  相似文献   

6.
相对于传统的产品领域意见挖掘研究,文章对中文通用领域的意见挖掘各部分内容进行了尝试性研究。利用基于多种语言特征和候选评价对象的条件随机场模型进行观点表达抽取,对有窗口限制的最近邻方法进行改进,提出一种评价对象—观点表达对的匹配算法,其对评价对象抽取效果也进行了进一步的修正。  相似文献   

7.
【目的/意义】全面分析中外科技文献可以把握当前某个领域或主题的研究热点和研究趋势,为了应对机器 翻译在分析海量外文科技文献时存在的科技术语翻译“领域不一致”问题,需要对科技术语信息匹配进行研究。【方 法/过程】提出了一种基于领域知识库的科技术语信息匹配模型,通过利用领域知识库构建领域多义术语词典,为 科技术语匹配更多翻译候选,并结合语言学特征、领域信息以及LSTM语言模型来挑选最合适译文。【结果/结论】用 化工领域的数据进行测试,验证模型的有效性,为深入分析外文文献中的技术理论提供了可靠又便捷的方法。  相似文献   

8.
基于正则表达式的大规模网页术语对抽取研究   总被引:2,自引:1,他引:1  
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%.  相似文献   

9.
周海炜  吴成凤 《情报杂志》2022,41(2):86-94,48
[研究目的]对新兴技术进行识别,有助于跟踪行业的最新发展动态,为企业提供最新的情报。[研究方法]通过分析以往相关文献,针对目前新兴技术识别研究中存在的不足,构建了基于专利SAO结构和多指标评价的新兴技术识别模型。首先,将基于语言层级的SAO结构和基于关键词语义的TF-IDF算法相结合,划分出各项子技术领域;其次,根据新兴技术特征建立多指标评价体系,结合专利数量年度变化,判别出新兴技术;最后,根据术语的语法规则,利用语言过滤器抽取出特定专利文献中的技术术语,识别新兴技术主题。[研究结论]将新兴技术识别模型应用于手机芯片行业,成功识别出了5G基带芯片和新型存储芯片两项新兴技术,与业界动态基本一致,从而验证了该模型的可行性。  相似文献   

10.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号