首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
俞琰  赵乃瑄 《图书情报工作》2018,62(11):120-126
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。  相似文献   

2.
通过Python网络爬虫获取IMDB网站美剧《权力的游戏》影评并进行数据清洗,利用自然语言处理(NLP)对数据进行文本规范化、TF-IDF特征提取。采用有监督机器学习技术对模型进行训练、测试、评估,并用经过训练的模型分析规范化处理的影评文本,得到该剧影评的正负情感,并对其进行可视化处理与分析。运用隐含语义索引技术对标记过情感极性的影评文本进行主题建模,分别提取评论主题。展开爬虫分析影评对涉军舆情监控的启示。  相似文献   

3.
张培晶  宋蕾 《图书情报工作》2012,56(24):120-126
在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。  相似文献   

4.
庞从容 《出版广角》2012,(11):68-69
法律文件作为精神产品和智力活动的成果,应该使用书名号.在法律文件文本与法学著作中,法律文件使用书名号的问题比较混乱.本文对法律文件全称与简称使用书名号的情形进行了分析,并提出了看法和建议,以期引起对相关问题的关注.  相似文献   

5.
数学建模是一种使用数学方法来模拟和解决实际问题的方法,大数据是一种处理和分析大量数据的方法。基于大数据的数学建模方法则在商业、金融、医疗、社会科学、环境科学等领域都有广泛的应用。基于此,围绕基于大数据的数学建模方法,从该方法的应用意义与基本原则入手,从而对具体的应用实践进行研究,期望能够为数学建模的革新与实践提供有价值的参考依据,使其能够在众多领域中发挥真正的价值。  相似文献   

6.
基于动态LDA主题模型的内容主题挖掘与演化   总被引:1,自引:0,他引:1  
指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。  相似文献   

7.
高彦婷 《新闻传播》2023,(11):18-20
新型主流媒体的发展策略研究十分广泛,而内容建设研究却鲜少涉及。在新型主流媒体不断转型发展的阶段,探索媒介内容建设变得越来越重要。本文旨在探索代表性新型主流媒体文本中主题分布的趋势。研究使用LDA主题建模方法,对上观新闻客户端中的文本内容建立了N=58274篇新闻或评论文章构成的新闻文本语料库并对其进行了语义内容分析。研究结果揭示了我国新型主流媒体的新闻报道主题分布和现状趋势。通过主题建模研究结果发现以上观新闻客户端为代表的新型主流媒体的新闻报道文本在多样化的同时也有着较为确定的主题。结合关键词分布分析可以确定具体主题的主次分布。研究结果表明国际合作、金融经济、地方发展、法律执行、社区建设为新型主流媒体文本内容的主要主题;文化建设、教育发展和媒体创新是新型主流媒体文本建设中的次要主题。  相似文献   

8.
基于概率主题模型的文献知识挖掘   总被引:1,自引:0,他引:1  
对海量的科技文献资源进行知识挖掘能够发现大量有价值的、潜在的知识,有效地提高文献信息的可用性。作者前期研究验证了使用LDA主题模型进行文献知识挖掘的可行性。本文提出了一种新的概率主题模型:Topic-Author模型,该模型对文献的文本信息和作者信息进行联合建模,在分析文献主题同时,发现相关主题方向的研究者分布。基于Topic-Author模型,提出了多维度文献知识挖掘的方法,包括主题挖掘,专家发现,文献标注,重要文献挖掘,文献相似度分析,研究趋势分析和主题关系挖掘。基于教育技术学文献数据集,进行了实验研究。  相似文献   

9.
[目的/意义] 在全球e-science发展背景下,科学数据管理实践日益呈现出对跨学科思维和方法的渴求,运用档案学领域的相关理论和方法有利于提升科学数据保存和共享重用的质量和效率。[方法/过程] 采用文本分析法和综合集成法,对OCLC、DCC、RDA、ICA四个国际组织相关文献成果中涉及的档案学理论和方法及相关科学数据管理工作进行了文本编码和归纳分析。[结果/结论] 档案学视角下的数字文档连续性保障、背景信息管理、鉴定处置和长期保存对科学数据管理具有支撑作用,建议通过开展跨学科合作对话、建立跨机构连续性管理制度框架、培育具有档案专长的数据馆员等路径提升科学数据管理效能。  相似文献   

10.
丁亮  姚长青  何彦青  李辉 《情报工程》2017,3(3):064-076
统计机器翻译往往存在待翻译文本来源多样和领域不一致的问题。为了提升面向不同领域的文本的翻译质量,需要根据待翻译文本对训练语料进行筛选以达到领域自适应的目的。目前统计机器翻译的领域自适应方法以目标数据为基准,着重利用统计技术对训练数据或者翻译模型进行领域的适应调整,缺乏明确的领域标签。本研究在本组之前研究基础上利用深度学习中卷积神经网络 (Convolutional neural network, CNN)对短文本进行建模,构建合适的网络结构进行有监督学习,获取完整的句子语义信息,按照待翻译文本的领域信息对训练语料进行归类筛选,获取与待翻译文本领域一致的训练数据,并将其应用到统计机器翻译中。本文采用万方英文摘要在统计机器翻译系统上进行测试,仅利用部分训练数据就得到了超越原始训练数据BLEU 打分的翻译结果,证明了本研究的有效性和可行性。  相似文献   

11.
为解决大数据文本聚类分析的瓶颈,分析了云计算和文本聚类分析的关键技术,利用云计算及分布式计算框架MapReduce的技术优势,构建了基于MapReduce和网格密度的文本聚类分析算法,为大数据文本聚类分析的应用提供了新的思路和技术基础。  相似文献   

12.
[目的/意义]从计量分析和内容分析两个视角对科学数据集的使用特征进行研究,定量化评估科学数据集对学科发展的影响,为科学数据管理服务及政策研究提供参考。[方法/过程]综合运用文本挖掘和文献计量方法对PubMed Central的全文文献进行分析,从时间分布、使用强度等7个方面全面考察科学数据集的使用情况,并在此基础上评估科学数据集对学科发展产生的实际影响。[结果/结论]研究结果表明,科学数据集对生物医学领域科研产生的影响力与日俱增,数据出版和高水平期刊促进了科学数据集的开放和共享,科学数据集的使用集中在论文的后半部分且正式引用较少,相应的标准规范还有待进一步加强。  相似文献   

13.
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Allocation)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。  相似文献   

14.
文本分类作为处理和组织大量文本数据的关键技术,在信息过滤、信息检索、搜索引擎、数字图书馆等领域有着广泛的应用前景.基于文献计量法对1999~2008年间文本分类相关研究论文作了统计分析,按基础理论研究和应用研究两部分分别进行了深入的探讨,前者涉及了文本分类过程中的各种关键技术:文本预处理、文本表示、特征降维、分类算法、效果评估,后者则包括文本分类在各领域的应用研究和文本分类系统的设计与开发.文章深入地揭示了文本分类研究内容、发展历程、研究热点和理论成果,并对未来的研究趋势进行了预测.  相似文献   

15.
[目的/意义]分析并提出虚拟健康社区文本数据的知识发现策略,构建虚拟健康社区文本数据知识发现模型。[方法/过程]通过总结分析虚拟健康社区文本数据特点,针对其特点带来的数据挖掘困难制定相应的知识发现策略,并在DIKW体系指导下,依据提出的知识发现策略构建虚拟健康社区文本数据知识发现模型。通过应用计算机编码、自然语言处理技术、句法分析、制定推理规则等方法实现从自由文本数据到药物不良反应智慧的数据价值升华过程。[结果/结论]通过实证研究验证提出的知识发现策略和知识发现模型的有效性和可操作性,为后续虚拟健康社区文本数据知识发现的相关理论与实证研究提供参考。  相似文献   

16.
文章采用文本分析法,通过分析数字化技术在水利档案管理中的应用,综合了相关研究和实践成果,梳理了水利档案数字化和信息存储的最新进展。研究结果表明,水利档案数字化已经取得显著进展,提高了档案的可访问性和数据管理效率,并增强了档案数据的安全性和完整性。水利档案数字化与信息存储的创新对水资源管理和水利工程建设产生了积极影响,为治水兴水决策制定提供了更多的信息资源和参考依据。  相似文献   

17.
引文网络分析的方法整合研究进展   总被引:5,自引:3,他引:2  
随着引文网络分析的深入开展,引文网络分析方法存在与其他方法进行整合的需求.本文从研究范式、数据获取、数据分析技术和可视化等4个方面对当前引文网络分析的方法整合研究进展进行梳理,并分析指出:多源数据整合、与文本挖掘技术及社会网络分析技术的整合及可视化方法的使用,体现了引文网络分析的外在扩展趋势,而客观文本范式与认知构建范式的整合则体现了引文网络分析的内在发展要求.  相似文献   

18.
[目的/意义]以我国14个省级政府开放数据平台为研究对象,从多个维度对其进行比较分析,为我国政府开放数据平台的发展提供参考建议.[方法/过程]通过爬虫技术获取数据,对数据进行描述性分析,并采用Tf-idf模型进行文本挖掘.以数据层维度和平台层维度为出发点,使用定性和定量分析方式,对数据资源细粒度、领域分布、时效性、格式...  相似文献   

19.
本文扼要地介绍了日本学者围绕提高情报检索系统的性能,开展自然语言信息处理研究的一些成果:包括以英语科技文摘为对象所进行的自动索引研究和动词的用法分析,以及从混合使用汉字和假名的日语文本中自动抽出日语名词的研究等。  相似文献   

20.
通过梳理高校不同类型学术成果著作权归属,按照文本资源和非文本资源进行分类,探讨不同资源类型学术成果全文著作权。以厦门大学、北京大学、西安交通大学的机构知识库现行政策为例,提出我国高校机构知识库建设中要灵活应用"合理使用"与"法定许可",在著作权保护下最大限度进行学术传播,通过构建联盟云平台,从出版商处获得集体授权规避侵权现象。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号