共查询到20条相似文献,搜索用时 234 毫秒
1.
2.
3.
一种从医学文本中实现自动关键词抽取和筛选的技术方法* 总被引:2,自引:0,他引:2
鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。 相似文献
4.
杨贺杨奕虹乔晓东李宁朱礼军 《现代图书情报技术》2010,26(6):17-24
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。 相似文献
5.
本文以"非典型肺炎"和"甲型H1N1流感"两个传染病作为研究样本,以中国知网(CNKI)数据库中的文献关键词作为语料库来源,基于用户关键词词频统计,并结合人工核查,分析同一概念的同义词和近义词以确立关键词词间的等同关系。目的是了解用户关键词和MeSH主题词之间的差异,分析用户表达偏好和习惯,进而为叙词表维护中的候选词汇选择提供一定的参考。 相似文献
6.
基于分类思想的论文抄袭判定系统的设计与实现 总被引:1,自引:0,他引:1
文章从抄袭的定义与法律界定出发,分析了当前论文抄袭检测与识别系统的不足之处,并给出一种比较实用的基于分类思想的论文抄袭判定系统的设计思路和实现过程.系统先对待查论文进行分类,然后通过与同类论文全文相似度计算初步筛选出相似论文集,接着待查论文与每篇相似论文再进行基于段落词频统计的精确比较,最后输出结论. 相似文献
7.
对比分析国际标准ISO 25964-1、美国标准ANSI/NISO Z39.19-2005、中国标准GB/T 13190-1991中优选词的定义,总结优选词的4个特性,即抽象性、唯一性、关联性、可变性;并对《英文超级科技词表》构建过程中概念优选词选择方法进行研究,归纳4种优选词选择方法,包括基于来源叙词表、基于文献词频大小、参考中文叙词表以及参考专业人员和用户的推荐;最后讨论优选词选择过程中多种方法的加权,英文术语翻译多样性,词频类型的优先级以及优选词的可变性等问题。 相似文献
8.
基于词频信息确定叙词表概念属性 总被引:2,自引:1,他引:1
认为为了提高叙词表的实用性,在叙词表编制和应用中,需要充分发挥词频信息的重要参考价值。通过总结词频信息的利用方法,包括通过词频和专业偏向度确定专业核心概念、通过词频信息确定优选词属性以及通过词频信息为概念确定范畴号。探讨对词频高低的词汇属性、优选词的重要程度、词频生命周期变化和词频使用的局限性等问题。 相似文献
9.
10.
基于分类标注语料库的关键词标引知识自动获取 总被引:1,自引:0,他引:1
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。 相似文献
11.
对非可信环境下明文传输登录密码等敏感信息导致的数字图书馆安全登录问题进行分析,提出一个基于单向散列函数的改进方案,应用消息摘要及脚本执行等信息技术,将登录密码这类敏感信息散列为定长且单次有效的“数字指纹”,再送入非可信环境里进行传输,可增强数字图书馆的登录安全。 相似文献
12.
基于长度递减与串频统计的文本切分算法 总被引:5,自引:4,他引:5
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。 相似文献
13.
基于词序方法的文本相似度计算模型 总被引:1,自引:0,他引:1
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%. 相似文献
14.
二值化技术是数字图书馆系统中常用的数字图像处理技术,其算法的优劣决定着数字馆藏的阅读质量。本文给出了一种利用图像灰度统计特征值为阈值的全局二值化方法。该算法可针对不同文本图像的灰度直方图,利用高低通滤波的特征对图像进行阈值分割。算法具有较低的时间和空间复杂度。 相似文献
15.
Web内容挖掘在数字图书馆中的应用 总被引:3,自引:1,他引:3
Web信息是数字图书馆数字资源的重要来源,文章详细阐述了对Web内容中的文本信息的挖掘,包括:文本自动摘要、文本分类和文本聚类。在挖掘过程中基于用户需求和用户特征,针对文本分类,重点分析了分类过程和在数字图书馆中的应用;针对文本聚类,介绍两种基本聚类原理以及与文本分类的不同之处,重点论述其在数字图书馆中如何应用。最后提出内容挖掘与用户挖掘的结合更有助于服务用户。 相似文献
16.
数字档案馆建设的不断推进,视频档案的数量在急剧增加,视频档案作为档案资料重要组成部分——视频档案的检索成为了数字档案馆建设亟须解决的问题。针对该问题提出了一种基于Contourlet变换的视频检索框架。该方法首先提取视频关键帧,然后对视频关键帧进行3层Contourlet分解,对各高频方向子带求均值和标准差,生成关键帧的特征向量,再计算所有关键帧特征向量的均值生成视频特征,最后利用欧式距离来度量视频的相似度。实验结果证明该方法比小波变换具有更好的综合性能,对于加边框、添加图标、添加字幕、改变比率、镜像、丢帧和噪声等攻击具有较好的鲁棒性。 相似文献
17.
提出一种新的文档图像多功能水印算法,首先生成依赖于用户身份信息与文档图像特征的数字指纹,然后在文档图像正交分离的两不同区域分别嵌入可擦除可见水印与数字指纹,通过嵌入可擦除可见水印权衡版权告示与用户浏览之间的冲突,利用数字指纹实现图像认证和追踪合法用户泄密行为。实验证实该方案是有效的和高安全的,没有正确密钥的用户无法有效去除可见水印。该方案可为互联网上文档图像资源通信存储提供版权保护与盗版追踪功能。 相似文献
18.
Learning Algorithms for Keyphrase Extraction 总被引:20,自引:0,他引:20
Peter D. Turney 《Information Retrieval》2000,2(4):303-336
Many academic journals ask their authors to provide a list of about five to fifteen keywords, to appear on the first page of each article. Since these key words are often phrases of two or more words, we prefer to call them keyphrases. There is a wide variety of tasks for which keyphrases are useful, as we discuss in this paper. We approach the problem of automatically extracting keyphrases from text as a supervised learning task. We treat a document as a set of phrases, which the learning algorithm must learn to classify as positive or negative examples of keyphrases. Our first set of experiments applies the C4.5 decision tree induction algorithm to this learning task. We evaluate the performance of nine different configurations of C4.5. The second set of experiments applies the GenEx algorithm to the task. We developed the GenEx algorithm specifically for automatically extracting keyphrases from text. The experimental results support the claim that a custom-designed algorithm (GenEx), incorporating specialized procedural domain knowledge, can generate better keyphrases than a general-purpose algorithm (C4.5). Subjective human evaluation of the keyphrases generated by GenEx suggests that about 80% of the keyphrases are acceptable to human readers. This level of performance should be satisfactory for a wide variety of applications. 相似文献
19.
一种基于主题词表的快速中文文本分类技术 总被引:1,自引:0,他引:1
针对中文文本的自动分类问题,提出了一种新的算法.该算法的基本思路是构造一个带权值的分类主题词表,该词表采用键树的方式构建,然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串,并统计匹配成功的权值和,以权值和最大者作为分类结果.本算法可以避开中文分词的难点和它对分类结果的影响.理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平. 相似文献
20.
运用图示法自动提取中文专利文本的语义信息 总被引:1,自引:0,他引:1
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。 相似文献