首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
抄袭剽窃论文识别研究综述   总被引:2,自引:0,他引:2  
抄袭剽窃论文的识别是知识产权保护中一项重要的内容,已有众多的识别方法和系统.本文从抄袭剽窃的定义、文本的表示(向量空间模型、广义向量空间模型、隐性语义索引模型)、文本相似度的研究内容、文本相似度的计算方法(基于统计学的计算方法和基于语义理解的计算方法)、数字指纹和词频统计两大类技术和方法和抄袭剽窃识别系统等方面为基本思路,对该领域中已提出的主要研究方案进行了分类阐述和比较分析,总结了其最新研究进展,为下一步的研究提出了新的课题和设想.  相似文献   

2.
运用非结构化信息挖掘,对网络评论情感进行分析是一个非常重要的方法。本文基于Web客户评论情感文本,在情感文本预处理过程中使用四种不同的停用词表,采用两种不同的特征选择方法,选用著名的TF-IDF权重计算方法,使用基于RBF核函数的支持向量机方法的分类器实现了对携程网上采集的4000个酒店客户评论情感文本的分类研究。通过实验,分析了不同特征选择方和停用词表的使用对客户评论文本情感分类的影响,提出了基于情感文本分类的有效的停用词表。  相似文献   

3.
鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。  相似文献   

4.
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。  相似文献   

5.
本文以"非典型肺炎"和"甲型H1N1流感"两个传染病作为研究样本,以中国知网(CNKI)数据库中的文献关键词作为语料库来源,基于用户关键词词频统计,并结合人工核查,分析同一概念的同义词和近义词以确立关键词词间的等同关系。目的是了解用户关键词和MeSH主题词之间的差异,分析用户表达偏好和习惯,进而为叙词表维护中的候选词汇选择提供一定的参考。  相似文献   

6.
基于分类思想的论文抄袭判定系统的设计与实现   总被引:1,自引:0,他引:1  
文章从抄袭的定义与法律界定出发,分析了当前论文抄袭检测与识别系统的不足之处,并给出一种比较实用的基于分类思想的论文抄袭判定系统的设计思路和实现过程.系统先对待查论文进行分类,然后通过与同类论文全文相似度计算初步筛选出相似论文集,接着待查论文与每篇相似论文再进行基于段落词频统计的精确比较,最后输出结论.  相似文献   

7.
王刘安  常春 《图书情报工作》2014,58(13):107-112
对比分析国际标准ISO 25964-1、美国标准ANSI/NISO Z39.19-2005、中国标准GB/T 13190-1991中优选词的定义,总结优选词的4个特性,即抽象性、唯一性、关联性、可变性;并对《英文超级科技词表》构建过程中概念优选词选择方法进行研究,归纳4种优选词选择方法,包括基于来源叙词表、基于文献词频大小、参考中文叙词表以及参考专业人员和用户的推荐;最后讨论优选词选择过程中多种方法的加权,英文术语翻译多样性,词频类型的优先级以及优选词的可变性等问题。  相似文献   

8.
基于词频信息确定叙词表概念属性   总被引:2,自引:1,他引:1  
认为为了提高叙词表的实用性,在叙词表编制和应用中,需要充分发挥词频信息的重要参考价值。通过总结词频信息的利用方法,包括通过词频和专业偏向度确定专业核心概念、通过词频信息确定优选词属性以及通过词频信息为概念确定范畴号。探讨对词频高低的词汇属性、优选词的重要程度、词频生命周期变化和词频使用的局限性等问题。  相似文献   

9.
指出近年来,学术抄袭事件时有发生,科研诚信引起全社会的广泛关注。随着信息技术的发展,对于学术抄袭的的检验问题已不再停留在传统的"防止复制"阶段。总结整理目前国内外主要抄袭检验的研究内容和研究方法,重点对基于统计的方法和基于数字指纹的方法进行总结,归纳目前抄袭检验技术应用的主要数学算法和各自特点。通过对国内外研究成果的梳理,指出抄袭检验技术存在的不足及未来发展趋势和应用领域。  相似文献   

10.
基于分类标注语料库的关键词标引知识自动获取   总被引:1,自引:0,他引:1  
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。  相似文献   

11.
对非可信环境下明文传输登录密码等敏感信息导致的数字图书馆安全登录问题进行分析,提出一个基于单向散列函数的改进方案,应用消息摘要及脚本执行等信息技术,将登录密码这类敏感信息散列为定长且单次有效的“数字指纹”,再送入非可信环境里进行传输,可增强数字图书馆的登录安全。  相似文献   

12.
基于长度递减与串频统计的文本切分算法   总被引:5,自引:4,他引:5  
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。  相似文献   

13.
基于词序方法的文本相似度计算模型   总被引:1,自引:0,他引:1  
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.  相似文献   

14.
二值化技术是数字图书馆系统中常用的数字图像处理技术,其算法的优劣决定着数字馆藏的阅读质量。本文给出了一种利用图像灰度统计特征值为阈值的全局二值化方法。该算法可针对不同文本图像的灰度直方图,利用高低通滤波的特征对图像进行阈值分割。算法具有较低的时间和空间复杂度。  相似文献   

15.
Web内容挖掘在数字图书馆中的应用   总被引:3,自引:1,他引:3  
黎琳  赵英 《图书馆学研究》2006,(2):19-21,24
Web信息是数字图书馆数字资源的重要来源,文章详细阐述了对Web内容中的文本信息的挖掘,包括:文本自动摘要、文本分类和文本聚类。在挖掘过程中基于用户需求和用户特征,针对文本分类,重点分析了分类过程和在数字图书馆中的应用;针对文本聚类,介绍两种基本聚类原理以及与文本分类的不同之处,重点论述其在数字图书馆中如何应用。最后提出内容挖掘与用户挖掘的结合更有助于服务用户。  相似文献   

16.
数字档案馆建设的不断推进,视频档案的数量在急剧增加,视频档案作为档案资料重要组成部分——视频档案的检索成为了数字档案馆建设亟须解决的问题。针对该问题提出了一种基于Contourlet变换的视频检索框架。该方法首先提取视频关键帧,然后对视频关键帧进行3层Contourlet分解,对各高频方向子带求均值和标准差,生成关键帧的特征向量,再计算所有关键帧特征向量的均值生成视频特征,最后利用欧式距离来度量视频的相似度。实验结果证明该方法比小波变换具有更好的综合性能,对于加边框、添加图标、添加字幕、改变比率、镜像、丢帧和噪声等攻击具有较好的鲁棒性。  相似文献   

17.
姜明芳 《图书情报工作》2013,57(18):127-132
提出一种新的文档图像多功能水印算法,首先生成依赖于用户身份信息与文档图像特征的数字指纹,然后在文档图像正交分离的两不同区域分别嵌入可擦除可见水印与数字指纹,通过嵌入可擦除可见水印权衡版权告示与用户浏览之间的冲突,利用数字指纹实现图像认证和追踪合法用户泄密行为。实验证实该方案是有效的和高安全的,没有正确密钥的用户无法有效去除可见水印。该方案可为互联网上文档图像资源通信存储提供版权保护与盗版追踪功能。  相似文献   

18.
Learning Algorithms for Keyphrase Extraction   总被引:20,自引:0,他引:20  
Many academic journals ask their authors to provide a list of about five to fifteen keywords, to appear on the first page of each article. Since these key words are often phrases of two or more words, we prefer to call them keyphrases. There is a wide variety of tasks for which keyphrases are useful, as we discuss in this paper. We approach the problem of automatically extracting keyphrases from text as a supervised learning task. We treat a document as a set of phrases, which the learning algorithm must learn to classify as positive or negative examples of keyphrases. Our first set of experiments applies the C4.5 decision tree induction algorithm to this learning task. We evaluate the performance of nine different configurations of C4.5. The second set of experiments applies the GenEx algorithm to the task. We developed the GenEx algorithm specifically for automatically extracting keyphrases from text. The experimental results support the claim that a custom-designed algorithm (GenEx), incorporating specialized procedural domain knowledge, can generate better keyphrases than a general-purpose algorithm (C4.5). Subjective human evaluation of the keyphrases generated by GenEx suggests that about 80% of the keyphrases are acceptable to human readers. This level of performance should be satisfactory for a wide variety of applications.  相似文献   

19.
一种基于主题词表的快速中文文本分类技术   总被引:1,自引:0,他引:1  
针对中文文本的自动分类问题,提出了一种新的算法.该算法的基本思路是构造一个带权值的分类主题词表,该词表采用键树的方式构建,然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串,并统计匹配成功的权值和,以权值和最大者作为分类结果.本算法可以避开中文分词的难点和它对分类结果的影响.理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平.  相似文献   

20.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号