首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
文本挖掘及其在信息检索中的应用   总被引:3,自引:0,他引:3  
文本挖掘是指利用数据挖掘技术,从大量的文本数据中提取感兴趣的、潜在的有 用模式和隐藏的信息。文章详细阐述了文本挖掘系统的组成、过程及相关技术,并介绍了文本 挖掘在信息检索中的应用。  相似文献   

2.
Web文本挖掘浅析   总被引:7,自引:0,他引:7  
首先讨论Web挖掘与Web信息检索的关系,然后重点分析Web文本挖掘,并提出Web文本挖掘的方法,包括文本特征表示、文本分类和文本聚类。最后,提出了利用Web挖掘技术实现Web智能化服务和挖掘引擎的应用。  相似文献   

3.
网络文本数据分类技术与实现算法   总被引:23,自引:2,他引:21  
李勇  桑艳艳 《情报学报》2002,21(1):21-26
本文主要论述网络文本数据挖掘中的文本分类技术原理、方法 ,同时给出实现文档分类和类型匹配的若干算法 ,最后介绍文本分类正确率评价指标以及网络文本数据检索系统应用实证测评分析。  相似文献   

4.
网络文本信息过滤的意义及其模型初探   总被引:1,自引:0,他引:1  
网络文本信息过滤可根据用户的需求,通过过滤机制主动选择所需的信息,有效解决网络信息迷航的问题。文章就网络文本信息过滤的用户建模和用户匹配技术进行了初步探讨,并在阐述信息过滤一般应用模型的基础上提出网络文本信息过滤模型,分析网络文本信息过滤模型的应用特征及其组件,并着重讨论了布尔逻辑模型、概率模型和向题总结并提出了一些改进意见。方法,最后就模型中两大技术应用存在的问题总结并提出了一些改进意见。  相似文献   

5.
作为Internet网络的标准之一,XML文档通常用于文本数据的描述、存储和交换。本文讨论了用XML文档存储图片的技术方案,包括XML文档结构、图片存储、在线提交、下载和显示,描述了各个功能步骤的技术要点,并给出了基于ASP.NET的程序代码。本文探讨的基于纯XML文档和ASP.NET的图片管理技术具有无数据库驱动、易于实现等特点。  相似文献   

6.
复制检测技术在知识产权保护和信息检索中有着重要应用.文档复制检测在初期主要检测程序复制,现在则主要为文本复制检测.文章首先介绍复制检测技术的发展中文,接着详细分析了目前己知各种文本复制检测系统的检测方法和技术特点,最后指出了中文文本复制检测技术的发展方向.  相似文献   

7.
相对于文本内容或网页文件等形式的内容管理,或者仅是纯文本文件,办公文件及扫描文件的文件管理,或者对已存有原始资料的记录管理而言,新型的数字资产管理DAM系统主要是对视觉内容和相关超链接数据进行完全数字化资产管理。  相似文献   

8.
简要介绍数字图书馆中教学参考书系统的应用现状,并就其中数字教学资源分布零散的问题,提出一种通过关键词索引技术,能够对文本教学资源进行检索,然后将相关联的结果聚类重组之后集中呈现的系统。  相似文献   

9.
基于知识发现的异质数据源学术资源检索分类系统设计*   总被引:2,自引:0,他引:2  
阐述了本系统设计的背景,以及知识发现的相关知识。介绍了异质数据源的互操作和文本分类的方法,以及本系统的结构框架、工作流程和相关元数据信息。最后指出了本系统的创新点和优点,以及应用前景。  相似文献   

10.
针对文献计量系统的共性,回顾文献计量工作的发展历程,阐述文献和学术实体之间的关系,提出文献-实体关系模型。作为文献计量系统的通用模型,文献-实体关系模型能对文献数据的文本进行智能处理,实现半结构化纯文本文献数据向结构化关系数据库格式的完整转换,为文献计量系统的研发奠定基础。  相似文献   

11.
朱银周 《编辑学报》2015,27(3):249-251
由于多种原因,学术不端行为检测软件存在自身的不足,只能作为纯文字复制检测工具,对纯文字复制行为做出分析界定,不能从根本上遏制所有学术不端行为.与学术期刊相关的主体人员不能过度依赖学术不端行为检测软件,还应通过多种人工方式判别深度的学术不端行为,才能最大限度杜绝学术不端行为的隐式泛滥.深度学术不端行为已成为近来的一种发展趋势,应该成为预防的重点.  相似文献   

12.
网络化BDSIRS全文信息检索系统的开发研究   总被引:4,自引:2,他引:2  
介绍了全文信息检索系统的发展和一般实现技术 ,讨论了在网络化模式和 Internet环境下构筑全文检索系统的原理和方式 ,并在此基础上详细阐述了 BDSIRS全文信息检索系统的实现技术。  相似文献   

13.
因特网上生物医学全文期刊的分布与获取   总被引:12,自引:0,他引:12  
医学图书馆在依托网络和数字化馆藏时 ,应充分利用中国高等教育文献保障体系(CALIS)引进的国外全文数据库 ,并引进国外医学类全文数据库 ,采取多元化方式建立基于Web的生物医学文献资源保障系统。参考文献 3  相似文献   

14.
本文采用BORLANDIDAPI关系数据库集成技术,集成多种关系数据库系统,并用信息存储与检索软件QUICKIMS进行管理,实现对关系数据库的全文检索。对基于PC和基于SQL的关系数据库数据结构、数据访问方式、数据类型进行集成;对基本表和单库或多库查询的结果进行转移,生成QUICKIMS的必要文件和索引;对关系数据库提供布尔检索、前方一致检索、字段限定检索、相邻检索和位置检索等检索方式。采用动态转换关系数据库数据,减少了空间的浪费  相似文献   

15.
ABSTRACT

This article, the first of two on electronic text and electronic text centers, looks at the period from the end of World War II to the late Eighties. It is a survey of the early history of working with electronic texts and a number of major initiatives, projects and standards are discussed. The author argues that electronic texts can only be understood in the wider context of humanities computing which during this period mistakenly modeled itself after work done in the pure and social sciences. Such an emphasis was based on a limited view of the computer and has now been largely superseded by developments in technology more propitious to humanistic endeavor.  相似文献   

16.
对BWP方法进行研究,从嵌入式NSTL个性化推荐的文本聚类需求入手,分析BWP方法的不足,提出一种改进的K-means算法最佳聚类数确定方法。对单一样本类的类内距离计算方法进行优化,扩展BWP方法适用的聚类数范围,使原有局部最优的聚类数优化为全局最优。实验结果可以验证该方法具有良好性能。  相似文献   

17.
移动互联网用户阅读利用行为研究   总被引:3,自引:1,他引:2  
在阅读认知理论与阅读学理论的基础上,提出移动阅读利用行为的框架。实证分析发现,当前的主要移动阅读方法是快速浏览,主要移动阅读内容是新闻、娱乐等轻阅读内容,移动阅读内容的主要加工形式是摘要、目录和综述,主要载体形式是文本+图和纯文本,主要出版形式是网页和图书;大部分用户阅读短篇内容更多;一半用户明确反对移动阅读内容中的广告;用户每次进行移动阅读的平均时长主要在30分钟以内,每天的平均时长主要在1小时以内;用户移动阅读的时间(地点)主要分布在交通途中、等候时、家中无聊时、睡觉前。基于调查分析结论,提出有针对性改进移动阅读服务内容和方式的策略。  相似文献   

18.
文本可视化及其主要技术方法研究*   总被引:1,自引:0,他引:1  
 文本可视化是通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现来的一种方法。通过分析文本可视化典型系统,分析现今的文本可视化的特点。并从基于词汇、基于篇章、基于时间序列、基于主题领域4种不同的文本可视化方式入手来分析其的主要技术方法。最后探讨文本可视化如何在信息环境下发挥作用。  相似文献   

19.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

20.
本文主要研究了从不同类型的html页面中根据需要抽取指定文本的技术.首先分析了目前主流的文本抽取技术的优点及缺点,并针对传统文本抽取技术的不足提出了基于机器学习的网页文本抽取技术;然后重点分析了此技术的实现原理,并在最后以案例方式介绍了使用java语言构建基于此技术的文本抽取系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号