首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对目前信息服务机构只能提供文献的检索服务而不提供表格检索功能这一现状,提出一种基于向量空间模型的表格检索算法,并从表格特征抽取、特征词权值设置、检索结果匹配排序等方面进行讨论,为未来表格检索服务提供一定的理论依据。  相似文献   

2.
表格是科技文稿的重要组成部分,其正确性直接影响文稿的信息传播功能.在医学书刊中遇到的表格的遴选、表题的加工、栏目设置及表身结构的审查、文字叙述与表格内容的一致性和表格中数据的准确性等5个方面中分析了常见的错误以及编辑过程中应注意的问题.  相似文献   

3.
【目的】论述Web信息抽取技术在新闻舆情分析中的应用,为舆情虚假信息甄别、舆论引导提供新方法,从而避免对大众的思维、想法等造成不良影响。【方法】研究提出了基于行块分布函数和基于统计与网页结构两种不同的新闻正文信息抽取方法,使得在对Web新闻数据采集和存储的基础上,正文信息抽取更加高效和准确。【结果】两种Web信息抽取技术可以广泛应用于海量新闻数据分析、舆情监测等应用场景。【结论】通过基于行块分布函数的抽取方法和基于统计信息与网页结构的抽取方法,能够分别对轻量网页和大流量网页抽取信息时表现更优。  相似文献   

4.
表格在出版物中的运用由来已久,并作为图书的重要体裁之一一直发挥着重要作用.随着社会的不断进步,表格的运用在继承的基础上进行了创新和发展,但也产生了不少问题,如表格不完整、表目设置不当、隶属关系不清等.因此,文章分别从表格的基本知识、常见问题、怎样正确使用等方面入手,系统介绍作为编辑如何使出版物中的表格发挥最大能效,更具科学性.  相似文献   

5.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

6.
郝东 《电子出版》2001,(2):58-58
在网页的制作过程中,我们经常会遇到一些包含表格的文件,让我们觉得处理起来比较麻烦,而且Web文件的大小直接影响到网页打开的速度。如果我们要在网上打开一个100多KB字节大小的网页,可需要一点儿耐心。虽然,软件制造商们为了配合internet发展的需要,增强了Word等软件的功能,在制作网页过程中,我们只要把Word文件另存为Web格式即可。但确无法解决其占用空间大小问题。怎样才能快速的把一个含有表格的大文件或是一个表格文件处理好呢?我谈谈我们的一点儿经验。很多网页制作者都采用Frontpage或Dreamweaver软件制作网页,我认为…  相似文献   

7.
国外Web信息抽取研究综述   总被引:3,自引:0,他引:3  
Web信息抽取旨在为人们提供获取网络知识单元的有力工具,以应对信息爆炸带来的严峻挑战。在回顾Web信息抽取基本理论的基础之上,评述了Web信息抽取主要研究内容的现状,并着重对Web信息抽取的评价研究和应用研究进行了介绍,以期有助于本研究继续向前发展。  相似文献   

8.
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。  相似文献   

9.
科技论文表格所包含的专业信息虽然繁杂,但其简约性和表现力必须兼顾.通过剖析问题表格并给出规范、合理、简洁、自明的修改结果说明:兼顾简约性和表现力的表格是凸显其专业表达能力强、信息对比效果好等优势的质量基础;兼修职业素养和专业技能的编辑是成就表达简约、编排规范的精品表格的人才保证.  相似文献   

10.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

11.
科技论文表格设计优化1例   总被引:1,自引:0,他引:1  
赵丽莹  杨波  张宏 《编辑学报》2010,22(5):418-419
针对作者提交的论文中表格数据繁杂、逻辑混乱、层次不清等问题,结合三线表的构成要素,通过精炼表题、优化栏目、利用表注等手段,使复杂的表格以科学、简明、规范的形式予以表达。  相似文献   

12.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。  相似文献   

13.
程红  胡彦波 《编辑学报》2014,26(2):134-136
在CNKI中国知网数据库中检索了2012年1月—2013年4月涉及用正交试验方法文章的核心期刊共128种,涵盖30余个学科。分析发现:除方差分析表外,在已刊发文章中涉及正交试验的表格有6种,不同文章使用的表格数量和形式不一,至少有14种组合。剖析了不同组合表格的利弊,给出了出版用表格的合理组合和编排格式,正交试验设计应由①因素水平表、②试验设计方案及结果表、③极差分析表、④方差分析表等4个表格组合起来反映试验结果。  相似文献   

14.
黄鹂 《编辑学报》2013,25(2):144-145
针对科技期刊论文中正交试验表表题、栏目、表身中存在的问题,提出正交试验表的规范化表达方式,建议采用正交试验影响因素及因素水平取值表、正交试验设计及试验结果表及正交试验结果极差分析表,以解决现行教材将这3种表归总在一张设计表中带来的表格自明性不足的问题。通过实例作了具体说明。  相似文献   

15.
王小艳 《编辑学报》2021,33(1):63-65
中文科技期刊中有线表格结构形式随着科技的发展而发生变化.三线表作为当今期刊提倡使用的表格结构形式,在中文科技期刊早期使用情况,现有文献少见答案.本文通过数据库平台和网上搜索等途径对2017年《中国学术期刊影响因子年报(自然科学与工程技术)》收录的中文期刊名称进行创刊统计分析,在已有研究基础上对1981年底前创刊的期刊进行3个代表年有线表格形式统计分析,最后再对应用三线表的期刊逐年、逐篇有线表格进行统计分析.结果表明:最早使用三线表的期刊只有1种,即1974年《甘肃农业大学学报》;截至1981年底,中文科技期刊使用三线表期刊有58种(医学类43种),其中有42种期刊(医学类期刊33种)三线表占总有线表数量50%以上.  相似文献   

16.
医学期刊表格的编辑加工   总被引:8,自引:2,他引:6  
汪碧蓉  杜玉环 《编辑学报》2002,14(6):421-422
医学期刊表格分量大,编辑尤其要重视表格的编辑加工.做好表格的编辑加工,关键是要处理好表格与文字、图示之间的关系,以及表格内各部分间的关系.  相似文献   

17.
The ability to find tables and extract information from them is a necessary component of many information retrieval tasks. Documents often contain tables in order to communicate densely packed, multi-dimensional information. Tables do this by employing layout patterns to efficiently indicate fields and records in two-dimensional form. Their rich combination of formatting and content presents difficulties for traditional retrieval techniques. This paper describes techniques for extracting tables from text and retrieving answers from the extracted information. We compare machine learning (especially, Conditional Random Fields) and heuristic methods for table extraction. To retrieve answers, our approach creates a cell document, which contains the cell and its metadata (headers, titles) for each table cell, and the retrieval model ranks the cells of the extracted tables using a language-modeling approach. Performance is tested using government statistical Web sites and news articles, and errors are analyzed in order to improve the system.  相似文献   

18.
三线表使用中常见的2种错误   总被引:2,自引:0,他引:2  
刘祥娥  林琳 《编辑学报》2006,18(4):269-270
三线表因其结构简明、排版方便等优点在科技期刊中广泛使用,但在不少期刊中三线表的使用存在一些错误.分析认为,产生错误的主要原因一是没有弄清项目栏的位置及项目栏与表身的关系,二是不善于添加辅助线.文中结合典型错例进行分析,并且认为,期刊编辑对作者提供的错误三线表应当予以纠正,这是编辑的工作职责.  相似文献   

19.
英文图题表题有助于读者理解论文信息、促进国际学术交流.文章从逻辑、语法、用词和结构4个方面分析医药期刊论文英文图题表题存在的问题并提出相应的编辑加工方法,使图题表题能够科学正确、简明扼要地反映图表内容.  相似文献   

20.
张玉 《编辑学报》2013,25(3):251-253
对人工语言的深度编辑加工是从本质上规范人工语言。表格是科技论著中人工语言的主要组成部分之一。为规范科技论著中人工语言尤其是表格的规范使用,在分析科技论著表格编辑加工现状的基础上,从编辑和出版的角度,提出了简化表格设计的原则和表身设计的原则。以正交试验表为例,阐明试验记录所用表格和发表论著所用表格的区别与联系、对表格深度编辑加工的方法和依据、科技论著中表格的科学设计和规范使用,给出了正交试验表的规范用法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号