首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
主题网络爬虫是针对某一特定领域进行信息采集的网络爬虫,本文提出将主题网络爬虫应用于数字档案馆的信息采集,以档案采集系统的设计目标为出发点,阐述了基于主题网络爬虫的档案信息采集系统的设计方案和该系统实现的相关技术。  相似文献   

2.
[目的/意义] 对中文微博信息采集的关键问题进行分析,以期为中文微博信息的采集与长期保存研究和实践提供参考。[方法/过程] 选取采集范围、采集权利、采集方法3个微博信息采集过程中的关键问题,与网络信息采集进行对比分析,并提出相应的对策。[结果/结论] 分析发现,对于微博信息,由于其具有自身特点,无法套用网络信息采集实践的经验,需要确定具有针对性的采集策略与方法;针对选取的3个关键问题,分别建议采取完整性采集、CC协议结合剔除策略、通过API采集的对策。  相似文献   

3.
在分析研究现有开源信息采集系统的基础上,综合应用开源框架,以开源爬虫Crawler4j为基础,设计开发基于开源框架的分布式定向资源采集系统,实现对网络信息实时精确的采集,以满足网络监测系统的及时性和准确性的要求。主要介绍系统的结构设计和功能实现,并详细阐述精确采集的方法和技术路线。  相似文献   

4.
[目的/意义] 准确地计算微博相似度可以提高微博主题挖掘效率,对舆情治理、保障信息安全具有实践意义。针对微博文本语义稀疏、高维的问题,提出一种融入微博非文本特征的超边相似度算法。[方法/过程] 分析微博舆情发生机制,利用超网络模型表示微博舆情主题形成过程,通过计算各层子网相似度及各层子网对主题形成的贡献度构建超边相似度算法。[结果/结论] 研究发现,论文所提出的相似度方法有助于提升微博舆情信息的主题聚类效果,特别是对于文字性表述相似程度高的微博信息,具有明显的主题区分性。  相似文献   

5.
[目的/意义]研究网络舆情语义倾向性隶属度,增强对网络舆情研判与引导的科学化程度,为相关部门提供决策参考。[方法/过程]在探讨网络舆情语义识别的基础上,运用模糊数学方法对网络舆情信息语义倾向性隶属度进行相关研究,并结合具体实证展开分析。[结果/结论]实验结果表明,本文所提出的算法能够深入挖掘网络舆情语义倾向性信息,更好地为相关管理者提供舆情危机预警服务,提高决策效率。  相似文献   

6.
[目的/意义]社交网络快速发展的时代,越来越需要自动摘要技术来解决产品评论信息过载。针对现有图模型方法在评论摘要抽取中存在信息不充分、准确性差的问题,提出一种融合主题聚类和语义图模型的多文本摘要方法。[方法/过程]首先运用FCM(Fuzzy C-means)聚类算法对评论文本进行主题划分;然后利用Word2vec模型获取分类评论句子的向量化表达,并根据句子间的语义相似度进行图模型构建;最后利用加权图排序算法,自动抽取出重要性高的句子形成文本摘要。[结果/结论]实验结果显示,该方法能有效识别出产品评论的关键内容,与传统方法相比,融合主题聚类和语义图模型的方法在信息覆盖率和信息多样性指标方面得到了更高的分数,提高了摘要抽取的质量和效率。  相似文献   

7.
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。  相似文献   

8.
[目的 /意义]重大突发事件网络舆情在传播过程中往往会出现不同的主题,而微博用户对不同主题的表达和关注也会直接影响网络舆情的传播速度和规模以及舆情事件的走向。针对重大突发事件的微博用户主题演化分析有助于应急管理部门更好地理解重大突发事件的发展轨迹以及公众在不同阶段的关注点,以便采取有效应对措施。[方法 /过程]以网络舆情信息特征为立足点,辅以自然语言处理技术将舆情信息客体与本体进行剥离,结合重大突发事件特征,创新性提出以舆情客体信息为参照基线的舆情本体演化强度来反映微博主题演化趋势。[结果 /结论 ]研究结果表明,面向网络舆情信息本体的主题分析,与网络舆情实际发展演化趋势更加贴近,对主题内容的揭示也更加全面。同时研究思路也对现有网络舆情主题分析的研究方法中单一求助于自然语言处理技术的优化与更新具有一定启示意义。  相似文献   

9.
针对通用搜索引擎存在搜索不够快速、不够深入、不够准确的缺点,本文设计并实现了旅游信息搜索网络蜘蛛,给出了该网络蜘蛛对旅游网页的主题相关度进行预测和判断的算法.该算法保证了网络蜘蛛只采集旅游主题相关的网页,使得垂直搜索引擎在查询的准确率和效率上都有显著地提高.最后通过实现一个旅游信息垂直搜索系统,给出了其信息搜集模块、信息处理模块和信息搜索模块的设计与实现.  相似文献   

10.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

11.
袁芳 《图书情报工作》2016,60(24):92-96
[目的/意义] 构建一个以CALIS为主体的中文图书联合采访平台,可有效解决目前中文图书采访过程中的核心馆藏缺失以及采访馆员重复劳动问题。[方法/过程] 通过分析中文图书采访面临的困境和馆藏结构特征,提出联合采访平台的系统架构和功能。[结果/结论] 中文图书联合采访的实现必将促进产业(出版)和行业(图书馆)之间的融合,极大地提高高校图书馆中文图书采访工作的效率。  相似文献   

12.
[目的/意义]以"马蜂窝"旅游网为研究对象,探究旅游社交网站用户信息共享行为及其影响因素,旨在为旅游社交网站建设及其移动端的交互设计优化改进提供理论参考。[方法/过程]选取技术接受模型中的感知有用性和社会认知理论中的自我效能,并结合弱关系理论引入环境机制、服务质量和期望互惠3个影响因素,构建旅游社交网站用户信息共享行为影响因素模型,通过问卷调查收集数据,采用SPSS对该模型进行实证检验并建立回归方程。[结果/结论]通过因子分析提取主成分,将信息共享行为分为收藏转载式和平台交流式,发现:感知有用性、服务质量和期望互惠这3种变量对收藏转载式信息共享行为产生正向影响,其中感知有用性和期望互惠这两种变量显著正向影响信息共享行为。  相似文献   

13.
[目的/意义]随着互联网的普及,网络信息呈爆炸性增长,其动态性也越来越强,竞争情报面对的动态数据问题日益突出。探讨其特点与分析方法,有利于进一步完善竞争情报工作。[方法/过程]将网络动态信息与静态信息相比,分析网络动态信息的含义和特点,指出它的竞争情报价值及其所带来的影响,并概述网络动态信息在企业竞争情报工作中应用的方式方法。[结果/结论]网络动态信息的监测有利于提高竞争情报收集的超前性与效率,动态信息的过滤与整合有利于促进竞争情报组织的有序化,动态信息的挖掘分析有利于提高竞争情报的针对性和有效性。  相似文献   

14.
[目的/意义]在分析大学生信息行为的基础上,提出以知识组织和个性化定制相结合的信息服务对策,提高大学生信息收集及综合利用的能力。[方法/过程]结合大学生信息获取能力问卷调查,分析大学生的信息服务需求,提出嵌入科研过程的信息发现、组织、跟踪与利用的服务模式,为提升大学生的信息敏感性及判断与利用能力提供帮助。[结果/结论]提出引导大学生早期步入专业领域知识学习的信息服务模式与对策,旨在解决大学生信息获取的盲目性和对互联网模式的依赖性问题,为高校开展信息素质教育提供帮助。  相似文献   

15.
复杂网络视角下网络信息生态链的演化过程研究   总被引:1,自引:0,他引:1  
[目的/意义] 利用复杂网络理论分析网络信息生态链演化过程,以期推动网络信息生态链由无序、低效、不稳定的状态向有序、高效、稳定的状态演变,为网络信息生态链的模拟仿真和实证分析提供参考。[方法/过程] 根据复杂网络理论,在分析信息节点的传播特征和结构变化后,提出网络信息生态链动态演化模型,以此推算出演化速度方程和速度曲线;利用Logistic方程的生命周期曲线,描绘出网络信息生态链演化过程曲线。[结果/结论] 根据曲线的演化速度与加速度的不断变化,发现网络信息生态链的演化过程主要分为4个阶段,即萌芽期、成长期、稳定期以及退化期,最终形成“聚类-协同-循环”的有效模式,帮助网络信息生态链建立起科学、高效的发展机制。  相似文献   

16.
庄新 《图书情报工作》2021,64(24):133-138
[目的/意义] 充分揭示中国科学院文献情报中心藏近代中国学英文报刊的文献价值和科研价值,并提出具体利用策略,为国内图书馆同类馆藏开发提供借鉴。[方法/过程] 通过案例分析的方法,在介绍中国科学院文献情报中心近代中国学英文报刊开发实践现状的基础上,针对目前存在的难点问题,对近代中国学英文期刊特藏资源的开发与利用提出规划策略。[结果/结论] 随着泛在知识环境的出现和信息、网络技术的发展,中国科学院文献情报中心应推动科学开发规划、加大资金筹措力度、完善人才培养体系、提升特藏利用效率等举措,发挥中外交流史特色馆藏资源优势,实现馆藏资源的共建共享。  相似文献   

17.
[目的/意义]本文提出了基于卷积神经网络的物流服务业顾客满意度评价方法,为人们科学客观地了解物流实际运行情况,改善物流服务有重要的参考价值。[方法/过程]文章运用网络爬虫技术、词频统计和特征提取得出五个物流服务特征,然后构建卷积神经网络文本分类模型,对物流评论信息进行分类,最后对物流服务满意度进行赋值评分。[结果/结论]实验结果表明,在网络生鲜产品物流服务特征中,便利性、可靠性、及时性、完整性和友好性是消费者关注的服务特征,而消费者最关注完整性,最不关注及时性,并最终得到了物流服务业顾客满意度分值。本文最终选择了生鲜物流作为案例进行顾客满意度评价,以期推广到更多物流服务业评价应用中。  相似文献   

18.
庄新 《图书情报工作》2020,64(24):133-138
[目的/意义] 充分揭示中国科学院文献情报中心藏近代中国学英文报刊的文献价值和科研价值,并提出具体利用策略,为国内图书馆同类馆藏开发提供借鉴。[方法/过程] 通过案例分析的方法,在介绍中国科学院文献情报中心近代中国学英文报刊开发实践现状的基础上,针对目前存在的难点问题,对近代中国学英文期刊特藏资源的开发与利用提出规划策略。[结果/结论] 随着泛在知识环境的出现和信息、网络技术的发展,中国科学院文献情报中心应推动科学开发规划、加大资金筹措力度、完善人才培养体系、提升特藏利用效率等举措,发挥中外交流史特色馆藏资源优势,实现馆藏资源的共建共享。  相似文献   

19.
[目的/意义] 网络舆情信息并发获取模型构建及实证研究有助于从海量的舆情信息中及时获取所需关键性信息,为其有效分析提供数据保障。[方法/过程] 通过对当前舆情信息获取研究现状的综合分析,明确多媒体网络舆情信息并发获取的模型构成要素,融合DEMATEL、AHP、FMF三种数理分析法进行模型构建并据此展开实证分析。[结果/结论] 研究结果表明所得数据结论与舆情事件客观情况较为相符,可以作为舆情信息并发获取判断的依据。  相似文献   

20.
[目的/意义]本研究以新型冠状病毒引发的肺炎疫情为背景,针对疫情期间老年人的信息感知与保护性行动决策过程展开研究,综合梳理了突发公共卫生事件中老年人身为利益相关者时做出保护行动决策的影响因素,可以为健全突发公共卫生事件下面向老年人群体的应急信息管理体系提供参考[方法/过程]文章利用网络爬虫技术获取微信公众号平台中反映疫情期间相关预警信息的文章数据,结合关键词提取技术与社会网络分析方法分析疫情预警信息,并挖掘疫情不同时期的典型老年人保护行为;同时,在保护性行动决策模型分析框架内,通过问卷调研获取老年人群体疫情期间的信息感知与保护行动决策过程的情况,进而应用老年人健康信息与健康行为理论,总结归纳出突发公共卫生事件不同生命周期中老年人信息感知与保护性行动决策的阶段性特征:[结果/结论]在信息感知过程中,预警信息的内容是影响老年人风险感知与保护行动决策的关键因素;疫情的不同生命周期内,老年人对风险程度的评估易产生较大波动;进行保护性行动决策时,老年人更容易因利益相关问题风险感知产生偏离,进而做出情绪化的非理性行为。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号