首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
[目的/意义]传统的文献主题提取方法主要是通过关键词、摘要、全文等提取文献的主题内容,使得主题内容不全面或存在\"噪音\",而从文献内容语义出发,结合引用内容提取文献的主题,能够更加准确地提取出多文档的主题内容。[方法/过程]提出一种面向多文档的基于语义和引用加权的科技文献主题提取算法,利用文献的引用内容和关键词构建Labeled-LDA主题模型,形成文档-主题概率向量,再根据K-means聚类方法聚类文档,提取每类文档集的主题内容。[结果/结论]以PubMed生物医学数据库中的数据作为实验数据,测试该方法的可靠性,结果证明该方法能够准确、全面地提取出多文档的主题内容。  相似文献   

2.
为了适应信息社会的需求,便于检索文献,对文献进行主题分析是最佳途径之一。文章从几个方面剖析了主题概念提取过程中易出现的问题,以及需注意的事项,以便使主题标引这项起步较晚的工作早日完善化。  相似文献   

3.
Web页面中文文本主题的自动提取研究   总被引:13,自引:1,他引:13  
韩客松  王永成  滕伟 《情报学报》2001,20(2):217-223
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。  相似文献   

4.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是\"词典 匹配\",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

5.
6.
本文提出一种在CCODS支持下的字典库编码方法。  相似文献   

7.
本方法采用CTAB作为去污剂,分别用氯仿/异戊醇反复抽提、LiCl沉淀,以去除蛋白质、碳水化合物和次生代谢物等杂质,用DNase处理去除DNA污染,最后用无水乙醇沉淀获得总RNA.该方法不仅能获得完整性好、纯度高的总RNA,而且操作简单、成本低廉、RNA产率高,对富含次生物质的中草药材植物组织总RNA的提取具有借鉴意义.  相似文献   

8.
9.
基于句子相似度的文本主题句提取算法研究   总被引:1,自引:0,他引:1  
文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段.为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想.首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度.基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取.最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地.  相似文献   

10.
提取高质量的RNA是从基因表达水平上研究油菜种子和种皮发育的必要条件.现有方法因为油菜种子脂肪、多酚和多糖,难以快速获得完整、高纯度的油菜种子总RNA.本试验针对油菜种子和种皮特点,利用苯酚-氯仿抽提后用无水乙醇沉淀RNA,建立了在油菜种子和种皮中快速提取高质量总RNA的提取方法,电泳分析表明28S rRNA亮度约为18S rRNA的2倍;紫外分光光度计检测A260/A280介于1.8~2.0之间.用该法分离的RNA,已成功用于RT-PCR、Northern blot分析和基因全长的克隆等分子生物学研究.  相似文献   

11.
12.
Web概念挖掘中标引源加权方案初探   总被引:15,自引:3,他引:15  
通过对随机采集的1 800篇涉及经济、心理、文学、教育4个学科类别的网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、首段、尾段以及HTML标记等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值。在我们的Web文本挖掘系统中,进行加权的对比实验表明,此权重方案优于前人的方案。  相似文献   

13.
基于粗糙集加权的文本分类方法研究   总被引:6,自引:0,他引:6  
文本自动分类是当前智能信息处理中一类重要的研究课题。本文分析了基于统计理论的文本分类的基本特点,提出采用可变精度粗糙集模型中的分类质量构造新的特征词权重计算公式。这种新的加权方法,相对于广泛使用的逆文本频率加权方法,大大改进了文本样本在整个空间中的分布,使得类内距离减少,类间距离增大,在理论上将提高样本的可分性。最后利用支持向量机和K近邻两种分类器,验证了这种新的加权方法对分类效果确实有所提高。  相似文献   

14.
VSM中词权重的信息熵算法   总被引:2,自引:1,他引:2  
刁倩  王永成  张惠惠  何骥 《情报学报》2000,19(4):354-358
本文提出一种基于Shannon信息熵的向量空间模型(VSM)中的词权重算法。同时结合词与文献的相关权重的经典计算方法IDF(InverseDocumentFrequency),进一步总结了向量空间模型(VSM)中两种词权重计算的具体公式。  相似文献   

15.
[目的/意义]研究高校可转移专利的识别,对于提高专利推送质量,促进高校科研与社会经济的对接具有积极意义.[方法/过程]首先在文献调研的基础上检验并确定可量化专利识别指标,并结合贝叶斯理论对高校可转移专利进行初步筛选;然后使用复相关系数-变异系数组合赋权法计算各识别指标权重,并计算剩余专利的加权综合转移概率;最后依照综合...  相似文献   

16.
由于国内中文名称主题和名称规范数据各自创建和维护,彼此并无必然联系,从而产生诸多问题,如词形差异、结构形式差异、数据内容差异、增词(名称)差异等.因此,名称主题和名称规范宜采用合并统一建库的控制模式,解决好名称主题增词、名称复合主题词的编制标准、名称主题与名称规范差异等问题,以处理好名称主题与名称规范的关系.  相似文献   

17.
对学科馆员制度的一些思考   总被引:3,自引:0,他引:3  
彭艳 《图书馆论坛》2006,26(5):256-258
当前,对学科馆员制度的认识还存在一些分歧,有进一步研究和探讨的必要。文章对现有几种“学科馆员制度”定义进行了简要的分析,对学科馆员制度的真正涵义和具体内容进行了阐述,并论述了学科馆员制度与学科馆员工作之间的关系。  相似文献   

18.
建立网络社区主题通道的核心主题词表   总被引:1,自引:0,他引:1  
网络社区收藏的资源往往倾向于满足日常信息需要,涉及的主题范围比较专指,而传统的图书馆分类主题词表则倾向于学术性和综合性,不适于网络社区用户的需要,因此需要建立适于这些特定用户群的分类主题词表。本文作者曾经参与了一些数字化图书馆的项目,设计开发过一此专门用于这些目的的小型核心词表。这篇文章介绍了作者们在开发过程中遇到的一些问题以及解决这些问题的方法和策略。小型“核心”主题测表可以定义为为网络社区资源专用的主题分类表。通过对元数据记录中的主题词频统计分析,作者确定哪些是核心词,然后再将这些核心词分成网络、图书馆、机构组织和设施、图书馆类型、组织名称和服务、地名、一般主题词、和参考工具等8个大类。在这8个大类下再进一步细分到二级类目。本文展示了三个图书馆的实例,它们主要是为公共图书馆的用户设计的。通过解释他们在这三个项目中的做法,作者讨论了在开发过程中的技术和成本以及在维护方面的问题,并且比较了一些类似的词表。  相似文献   

19.
建立面向社会的学科馆员制度   总被引:1,自引:0,他引:1  
首先阐述了学科馆员制度在我国的实施状况及其工作内涵,然后论述了学科馆员面向社会提供服务的形势与必然性以及高校图书馆面向社会设立学科馆员制度的条件与意义,最后重点阐述了如何建立面向社会的学科馆员制度。参考文献7。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号