首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于领域中文文本的术语抽取方法研究   总被引:3,自引:0,他引:3  
在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。  相似文献   

2.
介绍一种Apriori的改进算法,该算法通过寻找大于最小支持计数的最大频繁项集,可以直接得到最终频繁项集,将改进算法应用到图书馆书目推荐服务中,并对改进算法与Apriori算法进行算法的性能分析及实验数据的运行时间对比,实验证明改进算法在运行速度和挖掘性能上较经典Apriori算法有显著提高。  相似文献   

3.
提出一种基于最大词重的文本特征提取与降维算法。其基本思想是利用词在文档库的重要性,通过搜索算法将最大重要性的词从高维文档库中提取出来构成低维文档库,达到特征提取与降维的目的。在此基础上,提出利用模拟退火算法改进的K-means聚类算法对降维得到的文本进行聚类分析,实验结果表明该方法可以有效地提高聚类精度。  相似文献   

4.
分析中文自动分词的现状,介绍和描述几种不同的分词思想和方法,提出一种基于字位的分词方法。此分词方法以字为最小单位,根据字的概率分布得到组合成词的概率分布,因此在未登录词识别方面比其它方法有更优秀的表现。使用最大熵的机器学习方法来进行实现并通过两个实验得出实验结果的比较分析。  相似文献   

5.
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。  相似文献   

6.
媒介融合背景下新闻教育改革初探   总被引:3,自引:0,他引:3  
媒介融合对整个媒介生态带来了颠覆性的变革,媒介组织都在进行战略调整以适应这个大趋势,其中人才战略是改革重点。目前国内针对媒介融合所进行的教育改革中,最大难点在于师资力量的缺乏。不论是师资结构、课程体系、教学方法、实验设施,还是培养环节、科研机制等方面都需进行全方位的改革,才能适应媒介融合的需要。  相似文献   

7.
在对文档聚类的含义、作用和一般过程的阐述基础上,分析一种基于“最小最大”原则初始质心优选的改进K-means聚类的基本思想,并重点设计相关的聚类算法,实现聚类系统,基于系统对300篇学术文档及其相关特征词语进行聚类实验。实验结果表明,本文所设计和实现的改进K-means的聚类算法表现出较好的性能。  相似文献   

8.
在众多服务性新闻中,不乏真假难辨、良莠不齐的内容.读者渴望真相,为了帮助读者分辨真假,实验新闻应运而生. 服务资讯泛滥,实验新闻出奇制胜 实验新闻通过记者的亲自实验验证信息的真伪,最大程度地还原、接近真相,有凭有据并且可以给读者耳目一新的感觉,从而收到出奇制胜的效果.  相似文献   

9.
基于HMM的楚辞自动分词标注研究   总被引:1,自引:0,他引:1  
研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。  相似文献   

10.
对常见的几种阈值选取方法进行了理论分析与比较,并以基于全自动编带机对5050型六角正面发光贴片LED编带过程中的方向检测算法研究为背景,从实验角度对直方图双峰法、迭代阈值分割法、最大类间方差法三种方法的性能进行了验证.  相似文献   

11.
周波  杨朝峰 《情报工程》2016,2(4):056-068
通过推荐技术为企业推荐合作者,在提高技术研发效率方面有着重要的意义。在5种(物质扩散算法、热传导算法、偏热传导算法、混合算法、接受者能力算法)基于二分网络推荐算法的基础上,本文提出二阶同向资源扩散算法;同时使用β来判断对合作者合作倾向。以新能源汽车领域专利权人推荐为例进行实验,实验结果证明使用二阶资源扩散算法比一阶资源扩散算法推荐效果要好,准确率最高可达27.59%,召回率最高可达30.05%,提升幅度最大可以达到15.17%,最优β表明优先选择其曾经有过合作关系的专利权人进行合作。  相似文献   

12.
TMD对于建筑结构地震作用的影响可能减小,也可能放大。为了避免出现TMD对结构地震作用放大的情况,同时寻找实际情况下TMD安放的最佳位置,笔者进行了多组单水平方向上的地震模拟实验,并对实验数据进行分析。最终得出则TMD系统置于结构受控模态最大位移点处时效果最佳。  相似文献   

13.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%.  相似文献   

14.
针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS)。这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词。实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果。  相似文献   

15.
随着互联网经济的飞速发展,信息抽取领域的产品命名实体识别在商务智能领域有着广泛的应用。本文采用条件随机场(CRF)模型,选取词汇、词法和词形上一系列的特征进行训练,通过交叉验证对识别效果进行评价,并通过识别效果指导特征的选取。实验中比较了两种标注方式(BRAND/TYPE和PROD),并取得了令人满意的识别效果。在与最大熵模型对比中,验证了CRF模型对于产品实体识别的优越性。  相似文献   

16.
刘继  邓贵仕 《情报学报》2007,26(6):808-812
协同过滤技术是推荐系统中核心技术之一,数据的稀疏性和用户的多兴趣性困扰着协同过滤推荐质量的提高.将用户相似性和项目相似性结合起来,对原始评价矩阵进行降维处理,得到对目标评价预测影响最大、数据规模非常小的最近邻评价矩阵,在该矩阵上依照项目近邻程度不同对目标评价预测贡献不同的方法,对用户的邻居进行加权精选,对目标评价实现交错预测.实验结果验证该算法能达到较高的推荐精度.  相似文献   

17.
基于本体的网络爬虫技术研究   总被引:1,自引:0,他引:1  
杨学明  刘柏嵩 《情报学报》2007,26(5):723-727
互联网已经成为最大的非结构化数据库,极大方便了信息访问.然而,网络上的信息大多都是无组织的,由于网络的分布式特性,很难对它进行信息和知识管理.因此,如何建立一个智能的信息发现机制很有必要.本文在分析了爬虫工作原理和传统算法后,提出了一种基于本体的网络爬虫的信息发现框架.该框架包含了预处理模块和本体管理模块,定义了网页相关度计算策略,最后通过实验对该框架进行了评估.  相似文献   

18.
拜湃  汪鹏 《报林求索》2009,(2):35-35
<正>长春是中国轨道车辆的摇篮。新中国第一辆轨道客车在长春诞生。新中国第一辆有轨电车在长春诞生。中国第一列地铁列车在长春诞生。中国第一辆实验型磁悬浮列车在长春诞生。曾经的长春客车厂是世界规模最大轨道车辆制造商,始  相似文献   

19.
以国内最大的轻博客网站——点点网为研究对象,根据点点网用户间兴趣关系进行社区划分,通过统计兴趣社区的拓扑特性,发现其都具有小世界和无标度特性,说明有少数用户在信息传播中起着至关重要的作用。之后利用节点中心性测量方法进行意见领袖的识别,分析4个已有的中心性指标——连接度、中介度、接近度和核数在点点网意见领袖识别中的不足,构建新的意见领袖识别指标,并通过实验证实该指标具有更高的准确性。  相似文献   

20.
李琳娜 《情报工程》2016,2(1):059-065
本文基于概念树计算论文与专家之间的相似度,然后采用基于启发式的最大相似度匹配方法将论文分配给相应的评审专家.基于概念树的相似度计算,可以充分满足主题覆盖度约束;基于启发式的最大相似度匹配算法不仅可以满足利益冲突约束,又可以满足专家工作量约束.最后实验验证了所提算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号