首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 15 毫秒
1.
2.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

3.
Web页面中文文本主题的自动提取研究   总被引:13,自引:1,他引:13  
韩客松  王永成  滕伟 《情报学报》2001,20(2):217-223
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。  相似文献   

4.
基于Ontology的Web文本分类法   总被引:2,自引:0,他引:2  
凌云  魏贵义  刘军 《情报学报》2006,25(2):202-207
传统方法处理文本分类时都需要进行文本训练,并且在文本表示时需要抽取特征项。搜集训练文本的过程需要费时费力的人工参与,而且中文信息的特征项抽取工作难度较大。为了解决这些问题,本文探讨了一种新的文本分类法———基于Ontology的Web文本分类法。该方法首先通过“知网”建立一个Ontology,然后根据分类体系建立每个类的Ontology,最后根据每个类的Ontology对文本进行分类。试验表明这种分类法与KNN分类法在准确率上相当,但比KNN方法稳定,在召回率上优于KNN方法。  相似文献   

5.
Web文本挖掘浅析   总被引:7,自引:0,他引:7  
首先讨论Web挖掘与Web信息检索的关系,然后重点分析Web文本挖掘,并提出Web文本挖掘的方法,包括文本特征表示、文本分类和文本聚类。最后,提出了利用Web挖掘技术实现Web智能化服务和挖掘引擎的应用。  相似文献   

6.
基于句子相似度的文本主题句提取算法研究   总被引:1,自引:0,他引:1  
文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段.为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想.首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度.基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取.最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地.  相似文献   

7.
吴育芳  陆春华 《晋图学刊》2010,(3):34-36,49
本文在介绍了Web挖掘的基础上,重点分析了Web文本挖掘的概念、过程及其关键技术,包括文本的特征表示与提取、文本的分类与聚类等。  相似文献   

8.
梁爽  刘小平 《图书情报工作》2022,66(13):138-149
[目的/意义]梳理国内外基于文本挖掘的科技文献主题演化相关研究,对主题演化分析中使用的各种方法进行分类、归纳与总结,并提出现有研究存在的不足,为主题演化研究提供新的思路与借鉴意义。[方法/过程]依照国内外学者进行主题演化研究的一般流程,对数据集选取与对象分析、主题识别研究、主题演化研究(主题演化时序分析、主题强度演化分析、主题内容演化分析)3个分析层面中所使用的各类模型、指标与方法进行梳理比较与优缺点总结,提出现有研究的局限性并对未来发展做出展望。[结果/结论]当前研究已具有一定规模和较为成熟的分析体系,但仍存在以下不足:数据来源较为单一;LDA及相关扩展模型存在的弊端需进一步克服;缺乏对其他机器学习及深度学习算法的探索应用;演化分析方法需相互结合、互补互融。未来应针对以上问题做出相应改进与深入探究。  相似文献   

9.
本文探讨了本体与语义Web的关系、本体在语义Web文本分类中的作用,并重点探讨了基于本体的语义Web文本分类的特点以及Web文本分类器的一般工作原理.  相似文献   

10.
DOM4J集成了DOM和SAX的XML文件解析器,在此基础上,DOM4J对文档对象模型DOM做了一些改进。与DOM相比,DOM4j提供了大量的接口用于对XML文件的处理,在使用上比DOM、SAX更加灵活,具有性能优异、功能强大等特点。本文对DOM4j的解析模型进行了介绍,详细分析了DOM4j各个接口之间的定义及继承关系,并给出了解析XML文件的时序图及关键代码。  相似文献   

11.
为了减少或根除新闻网站中大量非主题信息的干扰,提出一种新闻网页抽取方法,采用基于熵的计算和DOM树的知识,从新闻网页中抽取主题文档和相关链接。  相似文献   

12.
一种通用HTML网页主题信息提取方法*   总被引:9,自引:0,他引:9  
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。  相似文献   

13.
利用JDOM解析XML文档及其在数据转换上的应用*   总被引:6,自引:1,他引:5  
由于企业、组织、数字图书馆等之间现存的计算机平台,数据存储模型的不同,严重地阻碍了信息交流。为消除“信息孤岛”,本文试图结合Java的跨平台特性和XML信息交流的标准平台特性,利用JDOM实现从数据库抽取有效数据转换为XML文档保存,从而满足数据的多样性表示和异构数据库环境下数据交换的需求。  相似文献   

14.
XML在虚拟图书馆中的应用及其处理技术   总被引:1,自引:0,他引:1  
分析XML在虚拟图书馆中的应用及其优势,并介绍两种XML文档的处理模式--SAX、DOM,提出将SAX、DOM结合起来使用是处理虚拟图书馆XML文档的理想选择.  相似文献   

15.
方世敏 《图书馆学刊》2009,31(6):105-107
XML及其相关技术的简单、易用的特点,使其成为数据表示和数据交换的理想选择。笔者首先简要介绍了数据迁移以及XML的相关技术,然后着重介绍了基于XML的信息系统数据迁移的关键技术,包括XML数据模型的建立扣数据处理两部分。最后比较了该技术相对于传统数据迁移技术的优势并提出了改进建议。  相似文献   

16.
本文针对参考咨询平台工作的现状,介绍了Ajax技术的优势和特点,设计和实现输入实时显示的参考咨询平台,解决参考咨询效率和咨询平台流量以及人性化问题,以提高图书馆和读者的工作效率.该系统人机界面友好,操作简单,扩充灵活.  相似文献   

17.
XML新闻发布系统的设计与实现   总被引:1,自引:0,他引:1  
本文讨论了如何建设基于XML技术的新闻发布系统,讨论了使用XML技术构建网站的必要性,XML技术在数据交换和数据搜索方面的作用。说明了网站的XML相关技术的选择及特点,网站的技术架构、页面结构、数据结构等。  相似文献   

18.
XML及基于XML的广播式检索   总被引:3,自引:0,他引:3  
郭少友 《情报学报》2002,21(5):568-572
本文比较详细地介绍了XML的主要特点 ,并简要介绍了DTD和DOM技术 ,然后以对多个图书馆馆藏进行检索为例 ,初步探讨了利用XML技术进行广播式检索的基本思路。  相似文献   

19.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号