首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
基于HTML或MXL描述的Web页信息抽取技术研究   总被引:1,自引:0,他引:1  
谢维成  吕先竞  宋玉忠 《情报科学》2005,23(9):1398-1402
从同类企业挖掘有价值的信息是企业信息化的重要任务,目前Web企业信息描述大多数是用HTML表示的,但基于XML描述的企业信息Web页面逐渐增加,Web数据抽取是Web企业信息挖掘的关键,本文提出了一种面向HTML和XML描述的Web页面的Web数据抽取模型并阐述了实现过程。  相似文献   

2.
侯锟  罗海龙 《科技广场》2007,22(3):117-118
本文研究了对于Web页面列表信息的抽取方法。通过对超文本文档特征的分析获取抽取知识,并通过自学习适应页面的变化,实现了对于列表信息的抽取。  相似文献   

3.
邱金鹏 《科技通报》2019,35(10):133-136
传统Web页面语义标注方法需手工处理,或只可将Web页面中有属性的标签赋予数据,针对无属性标签数据不进行标注,不适于大规模Web页面信息标注,且标注结果不可靠。为此,提出一种新的基于集成学习的动态Web页面语义标注方法。给出动态Web页面语义标注流程。将Web页面转换成DOM树,识别待标注文本。选取抽取信息特征与训练Web页面特征,将含有语义信息的内容分配至概念抽象化的本体上,采用多分类器集成学习方法进行分类,区分待标注信息是属性标签还是数据元素,通过不同分类器预测结果的一致性对相应样本被准确标注的置信度进行衡量。通过训练页面中涵盖的属性标注规则集与抽取信息中的属性名称实现语义标注。实验结果表明,所提方法适于大规模动态Web页面语义标注,标注结果可靠。  相似文献   

4.
侯锟  罗海龙 《科技广场》2006,38(4):70-72
本文研究对于Web页面表格信息的抽取方法,通过对初始页面标注以获取抽取知识,并通过自学习适应页面的变化,有效地完成对表格信息的抽取。  相似文献   

5.
王云英 《情报杂志》2013,(1):141-144
高效的Web页面语义标注方法是提高Web信息资源利用效率和知识创新的关键。针对当前Web页面语义标注方法存在的问题和Web页面表现出的结构特征和文本特征及其主题分布规律,设计了基于PLSA主题模型的Web页面语义标注算法。该算法分别对Web页面的结构特征和文本特征构建独立的PLSA主题模型,采用自适应不对称学习算法对这些独立的PLSA主题模型进行集成和优化,最终形成新的综合性的PLSA主题模型进行未知Web页面的自动语义标注。实验结果表明,该算法能够显著提高Web页面语义标注的准确率和效率,可以有效地解决大规模Web页面语义标注问题。  相似文献   

6.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

7.
基于网上新闻语料的Web页面自动分类研究   总被引:1,自引:0,他引:1  
Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用Web页面特征,仅用全文相比较,分类性能有所提高。  相似文献   

8.
挖掘高校图书馆Web日志数据库的意义和方法   总被引:6,自引:0,他引:6  
Web日志是Web服务器上记录读者访问页面情况的文件.读者每访问一个页面,Web服务器的日志中就会增加一条记录.不同Web服务器产品的日志记录格式不同,但通常都有包括访问者的IP地址、访问时间、访问方式(GET/POST)、访问的页面、协议、错误代码以及传输的字节数等信息[1].  相似文献   

9.
当前Web页面的信息描述采用是格式化表示语言,用此方式描述的信息计算机无法自动理解,因此出现了语义网这一研究领域,目的在于实现Web的计算机理解。本文介绍了语义Web的七层结构,讨论了本体的概念,分析了本体库所应具备的功能。  相似文献   

10.
基于页面链接挖掘的Web教育信息检索   总被引:2,自引:0,他引:2  
王成云  王乐乐 《情报科学》2004,22(4):475-477,487
教育信息检索是教育信息应用于教育科研与教育教学的关键环节,而Web页面链接挖掘是对Web页面之间的链接结构进行挖掘。本文对Web链接结构挖掘在教育信息检索方面上进行了研究,介绍了Web挖掘的概念、分类,以及HITS与Page—rank等算法,并提出了一种基于样本模式特征提取的信息检索方法。  相似文献   

11.
何晓兵 《现代情报》2009,29(1):26-28
在经典情报分析案例的基础上,对情报分析中信息场的类型进行了剖析,并探讨信息场集合运算及信息场强度迭加理论在情报分析中的应用。  相似文献   

12.
杨柳 《现代情报》2012,32(5):44-47
近年来,信息技术的发展对社会、经济的影响越来越大,各行各业的竞争进入一个新的阶段。用户必须充分掌握研究与发展、产品与技术、市场和政策等信息。笔者通过对新信息环境的信息职业的分析比较,提出了当今信息环境下信息职业的未来发展策略。  相似文献   

13.
信息质量对政府信息公开的效果起着决定性的影响。基于政府信息质量的概念和美国联邦政府、新西兰政府及我国政府有关政府信息公开的信息质量政策法规,提出了政府信息公开的信息质量指标,并采取案例分析方法对我国政府信息公开的信息质量进行评估,结果显示,我国政府信息公开的信息质量总体不高。为改善我国政府信息公开的信息质量,应制定信息质量专门性法律法规,提高政府的信息质量意识,倾听公民的信息需求,建立信息质量绩效考核机制。  相似文献   

14.
王宏鑫 《情报科学》2005,23(10):1446-1451
信息基本循环过程表现为人类的社会化信息劳动过程。关于信息计量应是多方面的。目前包括:基于信息论的情报测度研究、基于决策论的情报测度研究、基于知识论的情报测度研究、基于经济学的情报测度研究。  相似文献   

15.
企业高层管理者之信息需求--软信息   总被引:3,自引:1,他引:3  
对高层管理者信息需求的研究 ,是高层管理信息系统 (EIS)功能设计与成功应用的基础。本文以高层管理者在用人、沟通、决策三个层面的工作为主线 ,探讨了高层管理者的信息需求 ,并指出了高层管理者所要求的信息具有非规范性、随机性、模糊性和主观性的特征。为与传统的MIS所产生的定期的、规范化的数据报表相区别 ,本文将具有这些特点的信息称之为软信息。进而指出EIS在高层管理中成功应用的关键是EIS必须具备软信息的服务功能  相似文献   

16.
基于信息过滤的Web信息查询优化   总被引:2,自引:0,他引:2  
从信息过滤的角度分析信息查询的个性化发展,通过用户需求与信息内容的相似性匹配过滤与用户需求无关的信息,从而实现网络环境下用户信息查询结果的优化.据此建立基于信息过滤的用户模型框架,探讨基于信息过滤的信息查询系统优化实现的过程和方法.  相似文献   

17.
俞立平  王艾敏 《情报科学》2007,25(7):992-994,1045
信息源失真是最本质的信息失真。本文在界定数据和信息内涵的基础上,分析了信息的形成过程,构建了信息的处理机制。探讨了信息源失真的原因:在数据搜集阶段,数据搜集工具、处理者认知能力、调查对象的主观故意、沟通障碍会影响数据的准确与全面;在数据处理阶段,数据处理方法工具不当、处理者知识积累偏误及生理心理因素会影响数据处理结果;信息把关人也会故意传播虚假信息。最后提出了解决信息源失真的方法和思路,有些信息源失真也许根本就没有很好的解决办法.需要信息接受者仔细鉴别。  相似文献   

18.
罗玲 《现代情报》2011,31(6):36-38
互联网和ICT的过度发展导致了严重的信息超载,人们发现接受处理的新信息越来越多,越来越复杂,它导致了信息压力、信息焦虑以及信息处理的低效。人们只有成为更好的信息加工者才能克服信息超载,其对策和方法是进行信息素养教育以及搜索工具的正确运用。  相似文献   

19.
信息生态学--现代企业信息管理的新模式   总被引:7,自引:0,他引:7  
李佳洋  郭东强 《情报科学》2005,23(5):673-677
本文将生态学的相关思想引入企业信息管理中,给出了信息生态学的内涵,分析了现代条件下,企业信息环境中所存在的问题,提出了建立企业信息生态系统,并形成“以人为本”的信息管理思想,以达到信息环境生态平衡,进而使得社会经济资源实现优化配置。  相似文献   

20.
孙士宏 《现代情报》2011,31(4):40-42
本文从信息技术环境出发,通过对高校用户的信息需求类型:学生、教师、管理人员等的分析,从而提出高校图书馆信息资源建设应从传统类型资源、电子资源、特色资源、网络资源、资源整合以及人力资源等角度来加强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号