首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 952 毫秒
1.
随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。  相似文献   

2.
【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务 的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关 键词在对应学术领域的使用情况,使得关键词抽取的准确率受到限制。针对这一问题,本文提出一种基于先验知 识TextRank的学术文本关键词抽取算法。【方法/过程】首先计算候选关键词的使用情况作为先验概率特征值,然 后运用基于图排序的关键词抽取算法TextRank计算候选关键词的文本内特征值,最后结合以上两个特征计算得到 候选关键词的综合权值并对关键词进行排序。【结果/结论】在计算机科学领域的多个文献集上进行了实验评估,其 结果相较于传统的关键词抽取方法有了明显的提高,证明了基于先验知识TextRank的学术文本关键词抽取算法的 有效性。  相似文献   

3.
阐述了针对中小型企业供需信息自动化Web信息抽取技术的研究。自动化是指不需要人工标注网页抽取规则学习样本,系统能够从不同的求购信息网站的网页里自动获取相应的信息抽取规则,通过引入领域特征来净化抽取到文本字段而获得较高的查准率。  相似文献   

4.
结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将切碎的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。  相似文献   

5.
曹进军 《情报杂志》2007,26(7):55-58
信息抽取器在信息抽取领域是一个很重要的部分,而抽取器的研制通常要依靠抽取规则来实现。以前是利用使用者的使用模式或记录,找出相关的抽取规则。而利用PAT Tree可以直接从半结构化的Web的资料中,找出抽取规则。  相似文献   

6.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

7.
彭博  童兆莉 《情报科学》2023,(3):100-108
【目的/意义】面对网络中大量由非结构化数据构成的文化遗产信息资源,如何从中抽取知识构建知识图谱并进行应用研究,是新媒体时代进行文化遗产知识深度利用的基础。【方法/过程】文章首先根据信息资源的内容与结构特征按照主题与类型进行分类,随后采用有针对性的关键词抽取方法获取概括信息资源主题的关键词,通过SPARQL检索在外部知识库中进行文化遗产信息资源的命名实体识别,最后利用词汇相似度算法依托本体进行知识融合,构建文化遗产信息资源知识图谱。【结果/结论】在实验中进行了网络文化遗产信息资源的知识抽取与知识图谱构建,利用深度学习进行文化遗产知识推理,开展了知识图谱的应用研究。研究结果表明文章方法能够充分利用网络中的文化遗产信息资源进行知识图谱构建,满足多种应用场景下分析需求。【创新/局限】由于文化遗产领域内容庞大,有关研究数据有待进一步扩充以更好的研究文章方法的适用性。  相似文献   

8.
正本研究通过专利检索,对兽用疫苗中国专利的公开趋势、生命周期、技术构成、主要竞争者等方面进行专利信息分析,挖掘兽用疫苗领域研发趋势和重点机构。本研究通过文献阅读与专家咨询,确定了技术边界与检索要素,进而采用关键词与分类号的多次匹配,组建专利检索组合表达式,经检索国家知识产权局专利信息检索及分析系统(PIAS专利数据库),得到兽用疫苗中国专利1455件,分析如下。  相似文献   

9.
李中言  李普跃 《现代情报》2007,27(10):96-97
本文论述了信息抽取技术的概念、类型、内容和信息抽取系统设计方法。提出了信息抽取系统模型,以及它在数字图书馆中的应用。  相似文献   

10.
在对复杂信息分类问题进行处理时,由于关键词的多义性,导致传统的复杂信息分类方法在信息分类时存在一定的混淆,无法准确完成分类。提出一种处理复杂信息分类的自然语义模型,依据复杂信息决策表和复杂信息决策规划集,对复杂信息分类进行预处理,通过塑造关键词分类词典、同义词词典、经切词、网页文档扫描统计完成复杂信息分类文档特征关键词的抽取,经过统计分析获取所有关键词在不同专题中的隶属度,将其组成模糊关键词集合,利用学习机制获取复杂信息分类特征指标和专题类别的关联度,采用梯度下降法对复杂信息分类参数进行训练。仿真实验结果表明,所提方法具有很高的准确性。  相似文献   

11.
信息资源描述与存储的可视化研究   总被引:8,自引:0,他引:8  
周宁 《情报科学》2004,22(1):9-12,18
本文论述了信息资源可视化模型方法,并对信息资源采用了图符法、高维空间描述法、语音-文本转换法、知识组织体系法和多种数据压缩法,从而确立了信息资源可视化模型。信息可视化模型需要专用的图符库、词库、资源特征库与相关知识库的支撑,它极大地方便了信息资源的描述、存储、检索与利用。同时,为了有效地利用存储空间、优化系统,采用多种数据压缩方法对图符库、词库和资源特征的索引库等信息资源的可视化描述进行了有效压缩,使可视化模型得到进一步优化。  相似文献   

12.
朱韶平 《中国科技信息》2007,33(19):126-127
为了解决异构系统的电子商务过程中流程信息的协同交互,本文探讨了本体论(PSL)和XML的技术特点,设计一个基于XML的流程描述元模型,在语义层次上通过PSL语义定义和映射规则来统一基于XML描述流程信息,实现了流程信息的协同交互。最后通过具体的采购过程实例,验证了该模型及实现方法的可行性。  相似文献   

13.
随着Web信息抽取的研究和发展,抽取技术已经逐渐成熟,通过软件来实现从Web页中抽取所需要的信息已成为可能。对基于.NET技术实现的Web信息抽取系统进行了研究,分析并提出了HTML文档下载和清理、HTML到XML格式转换、数据定位及抽取、抽取数据的保存等需要研究解决的关键技术问题,并探讨了相应的解决方案。  相似文献   

14.
基于MODIS-EVI黄淮海平原冬小麦种植面积分带提取   总被引:3,自引:0,他引:3  
黄淮海平原是中国最大的平原区,快速准确获取冬小麦的种植面积信息,对于黄淮海平原粮食估产和种植结构调整具有重要意义。本研究选用2009-2010年冬小麦生育期内MODIS-EVI数据,在利用HANTS算法重构基础上,根据冬小麦植被指数的季节节律性变化规律,构建模型提取黄淮海平原冬小麦面积信息。提取结果用统计数据进行验证,表明黄淮海平原各覆盖省份提取精度均值为62.9%,偏差为33.4,提取精度低,稳定性差。分析研究区域冬小麦生育期随纬度的变化规律,发现同一生育期随纬度增加明显线性推迟,据此对研究区进行了纬向水平分带。然后利用已建立模型分带提取冬小麦种植面积信息,提取结果中各省份精度均值为84.4%,偏差为4.9。可以看出,分带提取的各省份的精度均值明显高于未分带的提取结果,偏差也明显减小,提取方法更好,更稳定,可为以后大范围区域提取冬小麦面积信息提供方法借鉴。  相似文献   

15.
16.
开放存取对学术交流系统的影响   总被引:3,自引:1,他引:2  
孙希波 《现代情报》2009,29(10):29-32
传统学术交流系统由科研人员、出版商、图书馆、高校和科研机构组成。随着网络和信息技术的发展,开放存取作为新的学术交流理念,在形式和内容方面出现了新的变化,对传统学术交流系统各组成部分产生了各种积极的和消极的影响,促使学术交流系统向以学术为主导的方向发展,促进了科学信息交流与利用。  相似文献   

17.
本文介绍的故障集中声光报警系统,以80C196KC单片机为核心,主要包括三部分:信号检测电路、单片机最小系统和故障报警电路。运行结果表明:该系统具有可靠性高、功能强、成本低、维护方便等特点。文章给出了系统框图,硬件电路及软件程序流程图.  相似文献   

18.
Extracting semantic relationships between entities from text documents is challenging in information extraction and important for deep information processing and management. This paper investigates the incorporation of diverse lexical, syntactic and semantic knowledge in feature-based relation extraction using support vector machines. Our study illustrates that the base phrase chunking information is very effective for relation extraction and contributes to most of the performance improvement from syntactic aspect while current commonly used features from full parsing give limited further enhancement. This suggests that most of useful information in full parse trees for relation extraction is shallow and can be captured by chunking. This indicates that a cheap and robust solution in relation extraction can be achieved without decreasing too much in performance. We also demonstrate how semantic information such as WordNet, can be used in feature-based relation extraction to further improve the performance. Evaluation on the ACE benchmark corpora shows that effective incorporation of diverse features enables our system outperform previously best-reported systems. It also shows that our feature-based system significantly outperforms tree kernel-based systems. This suggests that current tree kernels fail to effectively explore structured syntactic information in relation extraction.  相似文献   

19.
[目的/意义]旨在改善在线商品信息描述,降低用户认知负担,提升在线购物效率。采用框架描述法构建用户认知框架,在此基础上实现商品知识融合,以期解决在线商品信息的冲突矛盾和冗余问题。[方法/过程]采集数码相机在线评论信息,以框架法进行用户认知框架表示,利用规则融合方法构建商品知识融合模型,进行了用户认知框架的融合模型验证和效果分析。[结果/结论]知识融合能解决商品信息冗余问题,能填补空值型商品知识信息,减少电商平台商品信息描述流量成本,帮助用户理解商品知识矛盾问题,提升电商平台商品知识描述和呈现质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号