首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
[目的/意义]为了解决互联网时代信息过载的问题,尝试从海量的新闻报道中自动抽取新闻事件,并按照事件发生的时间进行排序,向用户展示结果。[方法/过程]利用网络爬虫自动获取新闻文本,使用中心事件句判定和RoBERTa+MRC的方法进行实体抽取,从非结构化文本中抽取语义信息并生成结构化的新闻摘要。在此基础上,对摘要中的时间信息进行标准化处理,并按照时间顺序生成新闻时间线。[结果/结论]实验结果表明,中心事件句判定和RoBERTa+MRC相较于传统方法有更好的事件抽取效果,文章设计的新闻时间线展示系统能够帮助用户了解新闻事件的发展脉络,解释新闻主题的事件走向与演化规律。  相似文献   

2.
在网络社区兴起的背景下,鉴于网络社区的海量评论数据中蕴含着大量专家用户群体智慧,本文提出基于网络评论文本挖掘的技术预见新型方法,以促进技术预见活动顺利实施并取得准确可信的最终结果。首先从多源数据中获得种子科技主题,并将其投放至开放网络社区,吸引专家用户进行充分讨论形成交互数据,经过数据爬取、清洗、存储等环节得到网络评论数据集,再利用情感分析、主题模型等方法对网络评论中蕴含的隐性知识进行显性化挖掘,并结合相关领域专家的研判,最终得到辅助技术预见决策的有价值信息。通过新型方法,可以使技术预见活动大幅降低成本、打破时空限制,便于大规模专家参与其中,并最大限度降低少数专家主观色彩浓厚的负面影响。  相似文献   

3.
刘晓娟 《现代情报》2013,33(6):58-63
对于社会科学领域的科研人员,新闻报道已经成为一种重要的数据源,它可以帮助用户分析隐藏在大量数据中的本质问题。NewsVAT是为这类用户所开发的交互性可视化分析工具。系统包含新闻采集器、预处理、分析、可视化引擎、图形用户界面等模块。以热点新闻的关键词及种子站点作为数据输入,输出反映这些文档内容的动画结果。系统提供了时间序列分析、空间分布和共现网络等分析视图。  相似文献   

4.
张佳 《科技通报》2019,35(2):76-79,84
针对当前只关注对数字图书馆网络功能的提高,忽略了对信息扩散的问题。为此,通过关联规则方法对海量图书信息数据扩散进行研究,给出关联规则的基本概念,并介绍了数字图书馆网络的特征,将API与编写抓取程序、开放数据等技术结合在一起;利用Apriori算法通过层次顺序搜索的循环方法对图书信息数据频繁项集进行挖掘,采集数字图书馆网络中某用户粉丝、关注者、转发以及评论信息扩散数据;将关联规则作为研究海量图书信息数据扩散方法,通过关联规则衡量节点度和出入度;在此基础上通过关联规则对海量图书信息数据扩散情况进行研究,发现海量图书信息扩散有高低谷期;转发量和评论量呈一定的正相关性;数字图书馆网络中海量图书信息数据扩散的广度和用户影响力相关。  相似文献   

5.
实现一款Android平台上基于云计算与数据挖掘的智能音量调节系统,该系统集成本地音乐播放、网络流媒体播放、云存储等功能于一体。重点利用大数据分析,收集海量用户数据,经过数据清洗,利用数据挖掘技术,利用Splunk对用户调节音量日志进行处理,分析时间以及地点,分析用户习惯与偏好,智能调节播放音量。  相似文献   

6.
【目的/意义】由于信息总量的巨大和用户矩阵的稀疏,LDA模型在微博信息推荐过程中短文本处理能力 差的缺点被放大。【方法/过程】本文利用大数据技术处理海量信息的优势,探讨大数据与 LDA主题模型融合的可行 性,构建出了大数据技术与 LDA融合的推荐模型,实现在利用大数据技术对海量文本预处理的基础上基于 LDA模 型的微博信息推荐,解决微博信息推荐查全率和查准率差的问题。【结果/结论】通过 Hadoop平台上的实证分析表 明,融合模型可有效的降低混淆度和提升微博信息推荐精度,有利于实现信息的个性化和定制化推荐。  相似文献   

7.
随着安社会视频监控系统迅速向数字化、网络化的新一代系统迈进,安防产业面临着一个新兴的、机遇与挑战并存的发展成长空间,智能视频监技术发展将势不可挡。本文设计一个安全的视频监控方案。该方案新增加的视频监控点,采用前端模拟设备和视频服务器,通过视频服务器实现图像采集编码一体化,并考虑如何将智能分析的结果用于快速检索。面对未来海量的视频图像数据,需要在视频数据存储之前进行特征叠加的图像预处理,便于在事后可以对海量视频信息进行快速检索。  相似文献   

8.
夏青 《科技风》2012,(22):55
数据库是存储企业经营数据的重要方法,可大量地收录与存储各种信息资源,方便了后期使用的具体调控要求。数据挖掘是数据库常用的技术,数据预处理是指在主要的处理以前对数据进行的一些处理,能够按照用户实际操作的标准进行数据调控。对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。文章对数据挖掘中数据预处理进行分析。  相似文献   

9.
当前的不完整数据查询处理算法没有将冗余数据和脏数据清洗,而且寻优过程缓慢,不利于数据查询结果的快速展示。提出将各数据阅读器和各局部过滤器连接,利用局部过滤器对数据阅读器所传输的脏数据和多读数据进行一次局部性地过滤,再由各个局部过滤器把初步清洗的数据发送到全局过滤器,且由全局过滤器依据阅读器空间位置以及其他信息,实现包含添加漏读数据和删除多读数据以及冗余数据的进一步清洗,以提高查询效率。将Rank List结构作为索引,利用Topk数据结构有序性的特点,对不完整的数据合理利用,高效查询到前K个非常有代表性的Skyline点,将查询结果展示出来。通过实验证明,所提算法有效地过滤了冗余数据,提高了查询处理的效率,可行性较高。  相似文献   

10.
闫永君 《情报科学》2021,39(8):126-131
【目的/意义】当前的信息用户行为特征挖掘方法无法将数据统一整合,且无法准确计算出时间序列内滑动 窗口内的数据均值,导致特征挖掘精度偏低。为此,提出了基于时间特性的信息用户行为特征挖掘方法。【方法/过 程】计算时间序列内滑动窗口内的数据均值,得出起始序列向量,再将用户行为划分成若干等值的时间片,通过取 样统计各种用户群体,得出用户的行为状态定性。以平均查询频率作为标准,观察用户的查询行为特征,输出信息 挖掘结果。【结果/结论】实验结果表明:所提方法挖掘出夜晚用户行为信息多于白天,休息日比工作日多,且在网络 波动下,虽然耗时增加,不过处于合理范围内。与传统方法相比,所提方法具有更低的挖掘误差,应用性较强。以 上实验结果证明了基于时间特性的信息用户行为特征挖掘研究能获取更准确的用户行为意向,提高用户兴趣预测 准确度,优化网络服务效果。【创新/局限】为进一步提高网络信息特征挖掘的效率,后续将重点研究多个网络用户 行为的并行分析,使该方法更适用于网络海量信息处理。  相似文献   

11.
文奕  陈文杰  张鑫  杨宁  赵爽 《现代情报》2018,38(4):112-117
[目的/意义]专利信息是人类科学技术进步的结晶,随着社会的发展,专利信息将为促进科技创新发挥日益重要的作用。利用聚类技术可以将海量专利信息进行自动分类,在实现信息有序归并管理的同时,有助于用户高效而全面的获取相关技术领域中的集成专利信息,具有重要的现实意义,传统聚类研究方法效率与准确度存在不足。[方法/过程]本文通过对专利信息服务网站(中国科学院知识产权网)访问日志数据的清洗与分析,生成专利信息点击序列,基于深度学习词嵌入模型,设计了PatentFreq2Vec模型,计算得出专利关联信息。[结果/结论]利用PatentFreq2Vec模型分析计算访问日志数据,能够得到关联专利信息,实现专利聚类,且聚类准确度高于传统方法。  相似文献   

12.
张云坤 《现代情报》2010,30(10):74-76
互联网和信息数字化的高度发展为信息查询带来了新的挑战,如何改善查询模式使用户从海量的数据中快速找到真正需要的信息成为了当前业界亟待解决的课题。本文描述了一种个性化信息服务模型,使用DeepWeb数据集成技术设计了一个图书馆数字资源个性化信息服务系统,实现了以用户为中心的图书馆信息服务。  相似文献   

13.
《科技风》2020,(14)
随着网络信息时代的到来和新闻数据的不断增加,人们需要对新闻进行分类的难度也不断加大。那么,是否有一种有效的分类新闻信息的方法将新闻进行分类呢?而在文本分类中,有较好的文本分类的算法是朴素贝叶斯算法。本研究以通过网络爬虫的方式爬取某新闻网站的少量新闻数据数据,然后对数据进行简单的数据预处理、中文文本分词等,构建朴素贝叶斯分类器,进而实现对新闻分类的目的。  相似文献   

14.
提出一种基于变维Kalman滤波的Web海量数据流抗干扰挖掘算法。构建Web环境下的海量数据挖掘数据流信息模型和噪声干扰模型,结合现代信号处理方法,设计变维Kalman滤波算法进行海量数据流信号滤波预处理,把Web海量数据流映射为一组非线性宽带调频信号模型,采用信号检测算法实现Web海量数据的抗干扰挖掘。仿真结果表明,采用该算法进行Web海量数据信息的抗干扰挖掘,具有较高的数据检测精度和准确挖掘性能,具有较高的抗干扰性和鲁棒性。  相似文献   

15.
《科技风》2021,(25)
针对于教育中数据处理难度大的问题,提出一种针对于教育数据可视化的处理方法。获取数据后,对数据先进行指标分类,接着使用Python和Excel对数据进行清洗,再接着结合机器学习对清洗后的数据分析,最后将分析出来的数据以应对不同场景的可视化图表将数据展示出来。  相似文献   

16.
正云计算本质上是一种分布式计算,即通过将需要处理的海量数据信息分割成大量"小块",再交给无数个小程序分别处理后合并结果,最后反馈给用户。其优点在于计算速度快、计算量大。而大数据则刚好相反,大数据并不直接对数据信息进行处理,而是从近乎没有确切边界定义的"泛化"海量数据中发掘或者说"提纯"目标信息,这对网络架构和数据处理能力有着相当高的要求。就目前而言,大数据无法仅靠单台计算机完成海量数据处理,它还需要借助分布式体系架构来实现,于是云计算与计算机大数据处理的融合"联动"顺理成章。  相似文献   

17.
本文介绍了油田开发生产中海量数据的分类、关联、分析油水井动态、测试、化验、作业等数据,采用"贴士"机制,将数据分析的结果按照预先设定的条件主动显示给用户,并给用户以提示或警示,用以支持管理和技术决策.  相似文献   

18.
王巍 《情报科学》2021,39(12):126-132
【目的/意义】研究网络用户对于虚假社会新闻的态度,以及不同涉入度条件下的信息行为,分析用户对虚 假信息的接受条件与信任程度,以期为后续深入研究提供思路和参考。【方法/过程】以文献研究为基础,梳理用户 态度及行为影响因素,以精细加工可能性模型为研究框架提出研究假设,构建理论模型。以网络用户相关信息行 为数据作为研究数据来源,采用调查问卷的方法获取 337份有效样本数据,利用 spss软件进行数据处理。【结果/结 论】用户自身能力和涉入度是影响用户网络虚假社会新闻传播行为的主要因素,能力负向影响用户对社会新闻的 信任态度,在用户涉入度较高的情况下信息环境因素与可靠性因素的影响力度有所增幅,信息差异影响较小。【创 新/局限】从用户态度和行为的视角探讨虚假信息传播的影响要素,提高了虚假信息治理的精确程度,在理论上进 一步丰富了ELM模型的应用;样本的分类选择以及精确性方面还有进一步探讨的空间。  相似文献   

19.
安海岗 《情报杂志》2012,31(8):37-43
在对信息可视化相关理论模型进行研究的基础之上,结合新闻要素本身的特点和用户的信息需求,界定新闻文本信息实体的概念,提出专题新闻文本集信息可视化理论模型,并对模型的要素和过程进行详细分析.然后以“四川汶川大地震”网络新闻文本集为实例对其进行实证研究,通过分析用户的信息需求,构造信息实体关联矩阵,对新闻文本集进行可视化,并对可视化的结果进行分析.  相似文献   

20.
【目的/意义】为了协助商家和平台获取移动商务在线评论中的用户需求,解决在线评论过载导致用户需求 提取困难等问题。【方法/过程】本文首先获取原始在线评论数据集进行文本预处理和清洗;然后,深入语义层面基 于改进后的 Canopy-Kmeans算法实现用户需求聚合;最后,以聚合结果为层级指标设计 Kano问卷,用重要性判别 方法和用户满意度指数优化用户需求分类标准,实现用户需求的高效聚合和精准挖掘。【结果/结论】通过实验结果 对比分析发现与基于语义的传统聚类方法相比,本文设计的移动商务用户需求聚合与挖掘方法的聚类结果更清晰 合理,能够获取更精准和细化的用户需求。【创新/局限】借助Word2vec模型从语义的视角分析用户需求,提出基于 Canopy-Kmeans算法的用户需求聚合挖掘模型,但选取的研究对象和数据规模较为有限,下一步将扩大在线商品 评论的研究范围及实验数据规模。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号