共查询到20条相似文献,搜索用时 125 毫秒
1.
综合考虑查询串所包含关键词的词形、语义、语用三个层面的信息计算查询串相似度的计算方法。首先利用字面相似度算法计算查询串在词形上的相似度,然后利用义类词典进行关键词在语义层面上的匹配,得到查询串在语义层面上的相似度,接着以搜索引擎作为语料库来源,将查询串提交给搜索引擎,通过对返回结果中重叠部分的统计分析,计算查询串在语用上的相似度,最后综合这三个相似度,完成相似度的计算。实验结果表明该算法的有效性。 相似文献
2.
韩语汉字词是指韩语中可以用汉字来表示的词。本文通过对汉字词与中文词汇的比较,正确掌握相对国语言,并达到顺利进行文化、经济交流的目的。 相似文献
3.
韩国语汉字词和中文词汇的比较 总被引:1,自引:0,他引:1
韩语汉字词是指韩语中可以用汉字来表示的词。本文通过对汉字词与中文词汇的比较,正确掌握相对国语言,并达到顺利进行文化、经济交流的目的。 相似文献
4.
科技文献抄袭现象伴随着科学技术的发展时有发生,这严重损害了文献原作者,也对科技文献的严肃性提出了挑战。本文利用分词技术提取文献特征向量,并结合动态规划算法对文献的相似度给出具体评价,针对不同抄袭的现象,发现其中存在的规律,具体问题具体分析。最后给出实际实验结果,为文献评审提供参考。 相似文献
5.
【目的】 了解综合性农业科学类中文核心期刊零被引论文特征,探讨该类期刊在提高影响力方面的措施。【方法】 收集《中文核心期刊要目总览》中13种综合性农业科学类期刊在2011年发表的零被引论文,对其作者数量、第一作者所属机构、第一作者职称、第一作者学历、基金资助情况以及论文下载频次、篇幅、类型及学科分布等进行统计分析。【结果】 各刊零被引论文数量与其发文量相关性不大,零被引率与期刊的影响因子呈负相关。高等院校的零被引论文占比最大;零被引论文随完成论文合作机构数量的减少而增加。基金资助论文的零被引率高于非基金资助论文;资助项目少的论文零被引率低于资助项目多的论文。篇幅短的文章或不系统的研究性论文较少被引用。摘要信息量存在一定程度的不完善。综述型论文零被引率小于研究型论文。【结论】 各刊发文量与零被引论文量间的关系视具体情况而定。针对零被引论文占比较大的稿件,即高等院校及任务类稿件,应在论文发表前的各环节进行协同控制。要加强及重视摘要信息的规范编辑。对来稿字数应作要求。编辑要及时掌握研究领域动向,加强与资深专家及学科带头人间的沟通,积极约稿。尽早发表并提高论文的显示度,进而减少零被引或低被引文献的产量。 相似文献
6.
7.
广东省科技期刊入选中文核心期刊的统计与分析 总被引:2,自引:2,他引:0
任汴 《中国科技期刊研究》2009,20(1):63-65
对广东省科技期刊入选《中文核心期刊要目总览》的情况进行了统计,结果显示,广东省共有29种科技期刊入选2004年版中文核心期刊。并与广东省入选1996年版、2000年版的核心期刊进行了比较分析,旨在揭示广东省中文核心期刊学科分布的特点和办刊水平,提出今后发展的方向。 相似文献
8.
中文体育类核心期刊的引文分析 总被引:4,自引:0,他引:4
通过对中文体育类核心期刊引文之引用文献、引用语种、引文类型、引文作者、被引刊物等情况的分类统计分析,得出我国中文体育类核心期刊的现状及其呈现的数量特征和内在规律,以期对今后的学术研究提供参考。 相似文献
9.
网络期刊全文数据库中收录中文核心期刊信息比较分析 总被引:1,自引:0,他引:1
伴随着网络期刊全文数据库的广泛应用,其收录的完整性、权威性也得到了极大的关注.依照<中文核心期刊要目总览:2004年版>所列的核心期刊,与几种常用的网络期刊全文数据库所收录的核心期刊进行比较分析,以期对数据库的使用、数据库的采购以及数据库的进一步完善有一定的参考价值. 相似文献
10.
利用话题检测技术将Blog信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。研究了话题检测模型中的词频统计、权重计算以及相似度计算,把简单聚类算法与ISODATA算法相结合,并应用到中文Blog热门话题检测系统中,实验结果表明,文本分类的效果有了进一步的提高。 相似文献
11.
12.
一种基于TFIDF方法的中文关键词抽取算法 总被引:3,自引:1,他引:3
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著. 相似文献
13.
14.
一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究 总被引:1,自引:1,他引:0
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能. 相似文献
15.
16.
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。 相似文献
17.
一种基于互信息的串扫描中文文本分词方法 总被引:2,自引:0,他引:2
中文分词技术是中文信息处理的基础环节,在互信息原理的基础上提出了一个基于统计的中文文本分词方法.该方法对经过预处理之后每一个串中的任意可能长度串均判断其成词的可能性,实验结果说明该算法简单且具有良好的精度及查全率. 相似文献
18.
19.
基于信息抽取的古籍知识检索系统研究 总被引:2,自引:0,他引:2
通过分析目前古籍数据库信息检索系统存在的不足,提出通过利用信息抽取技术(IE)实现语义智能检索,使古籍数据库具有强大的智能检索功能和知识研究功能. 相似文献
20.
事件抽取是指识别文本中描述在某个时间(或时间段),某个地点或地区,由一个或多个角色参与的某动作的事件。首先对我国关于事件抽取研究的文献进行了总结,给出事件抽取的主要方法及模型。并针对文献中对这些事件抽取方法的效果进行统计分析,探讨各种事件抽取方法或模型的效果及适用性。经过对现有研究文献的统计,结论为:当前有关事件抽取的研究仍在继续,主要集中于金融资讯、会议信息、突发事件、个人简历等来自网页、微博微信等自媒体信息或军事法律等专业文件的事件抽取,所采用的算法包括SVM、CRF、ME、模式匹配、聚类算法等;CRF算法应用与个人简历事件抽取效果最好,采用模式匹配算法的有效文献量相对较多,触发词方法的综合效果较优于模式匹配算法,但较多领域存在触发词算法的查全率较低的问题。 相似文献