首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
[目的/意义]针对移动在线学习平台中用户评价具有布尔变量属性的学习资源,提出一种适用于该类资源的协同推荐方法。[方法/过程]首先采用基于用户自身属性和已有好友分布特征的FRUTAI算法,确定目标用户的最近邻集;然后在解决数据稀疏的基础上,提出适用于布尔型移动在线学习资源的协同推荐方法;最后选取实证对象,依据相关评估方法评估推荐结果。[结果/结论]在以豆瓣书评网数据作为数据集的实证中取得了较好的推荐效果。实证结果表明,本文提出的改进的协同推荐算法可以有效地应用于移动在线学习平台中的布尔型学习资源,具有较好的推荐效果。  相似文献   

2.
提出了一种基于数据挖掘技术的Web智能服务算法,它通过对Web数据模型的转换,发现并建立有关用户意向关联知识库,然后再利用知识库中的关联规则来预测用户行为,从而提高了用户浏览器访问速度。该研究内容属目前智能信息检索领域的重要研究课题,具有一定的理论和实践意义。  相似文献   

3.
孙瑛 《编辑之友》2016,(3):93-96
对于新闻业来说,现在要准确判断或预见大数据技术将如何改变新闻业的走向,的确是件不太容易的事情,但至少目前我们已看到新闻生产所需的信息资源确已发生了结构性的变化,因此新闻业务形态将发生改变也是大概率事件.目前,西方一些媒体正在进行机器人新闻的尝试,这也代表了在大数据技术支持下新闻业的主动探索,虽然这只是大数据在新闻业的一个初级应用,但它所带来的影响足以引起新闻从业者的警醒.鉴于机器人新闻方兴未艾,本文试图抛砖引玉,以期广大的新闻从业者共同对机器人新闻进行深入的研究.  相似文献   

4.
围绕移动数据业务平台的双边市场定价这一核心问题,构建竞争平台下的定价策略系统框架,建立竞争平台定价的基本模型,并探讨竞争平台的移动数据业务定价方式,包括注册费、交易费、两步制收费,并分析定价与成本、网络外部性因素、平台差异化程度、匹配技术、交易量等的关系,最后对网络运营商提出服务定价建议。  相似文献   

5.
[目的/意义] 为提高引文网络的社团划分的准确性,提出一种基于加权的引文网络的社团划分方法。[方法/过程] 以Louvain社团划分方法为算法基础,将科学论文用向量空间模型表示,利用改进的余弦相似度方法计算相邻论文之间的相似度,并将其作为权重,综合考虑论文内容属性与结构属性,提出一种基于样本加权的引文网络社团划分方法。[结果/结论] 该算法将引文网络中论文的文本内容属性与拓扑结构属性结合起来,通过对Scientometrics期刊发表的论文以及主题为CRISPR的论文进行社团划分研究实验,结果表明该方法能改善引文网络社团的划分效果。  相似文献   

6.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

7.
耦合流数据分类问题是当前数据挖掘与信息领域的热点和难点,引起国内外越来越多学者的关注,但现有研究成果大多依赖于从单个流数据中提取特征并进行分类,没有考虑到流数据内以及流数据间特征的相互依赖关系.基于此,借鉴生物信息学中基序查找的方法,本文提出了长期频率和逆文档频率的分类方法,该方法主要是将耦合流数据中每个输入流都转化为信号变化特征,以便有效地提取基序,通过计算基序的频率、长期频率与逆文档频率的权重,用以衡量不同输入耦合流数据的基序之间的时序关系,并利用基序与时序的关系实现对耦合流数据的分类,仿真实验的结果也证明了该方法的有效性.  相似文献   

8.
"链接工厂"欺骗(Link farm spam)和重复链接严重地损坏了像HITS这样基于链接排序的算法性能.为了检测与抑制Web"链接工厂"欺骗和重复链接,本文充分利用页面之间的复制信息,尤其是利用完全超链接信息识别可疑链接目标.提出一种由页面文档和完全链接构成的二部图结构,通过对二部图进行构建与分析,搜寻共享锚文本和链接目标的Web页面,在此过程中标识链接工厂和重复链接,并通过带惩罚因子的权重邻接矩阵减小可疑链接的影响.实时实验和用户仿真测试结果显示,本文算法能显著改善传统HITS类方法的信息搜索质量.  相似文献   

9.
基于改进编辑距离的相似重复记录清理算法   总被引:1,自引:0,他引:1  
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。  相似文献   

10.
《江西图书馆学刊》2019,(1):105-109
在大数据时代下,数字化的图书馆、博物馆、档案馆(以下简称"图博档")平台的出现满足了人们便捷获取信息的需要,但大量的数字信息导致人们查找信息的效率低下。介绍了一种基于python编程语言的推荐算法,适合于图博档数字资源整合平台的运用,帮助用户高效准确地查找所需信息。  相似文献   

11.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

12.
本文主要研究了在有限资源约束下的数据流聚类方法.针对海量,高速的数据流,现有聚类方法在有界内存和有界时间的限制下,难以快速有效地进行聚类,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法.它采用滑动窗口管理数据流;首先使用主成分模型作为前置系统,它负责对基本窗口内的源数据进行属性转换,起到了降维的作用;然后使用密度聚类模型作为后置系统进行聚类操作;最后对系统中生成的概要数据进行简化的二次聚类并更新聚类簇.通过实验表明,PDStream算法有效克服了STREAM算法使得聚类受控于历史数据的缺点,显现出处理海量数据的优越性以及聚类质量高的特点.  相似文献   

13.
[目的/意义] 在大数据时代面对海量的数据用户有时会束手无策。因此,越来越多的学者们开始关注互联网热点话题发现的算法,帮助用户快速获取热点话题。[方法/过程] 基于DBSCAN算法,通过动态调整参数来优化算法,实现热点话题发现。根据句法结构与句间关系分析构建热点话题过滤模型,过滤包含热点词项的一般话题。[结果/结论] 采用主流网站新闻数据集进行实验,利用错检率、漏检率等评价指标对算法的有效性进行检验,实验结果证明改进算法性能有所提升,能够为信息用户提供科学研究网络数据的高效途径。  相似文献   

14.
提出一种基于遗传算法和k-medoids算法的新的聚类算法。指出该算法除能提高聚类的精度和识别孤立点外,还能加速遗传算法的收敛速度,节约时间成本。  相似文献   

15.
[目的/意义]面向出版业进行专业领域出版时的选题决策问题,对互联网上公开的资讯动态进行多源整合,通过多维度的情报分析探测专业领域内的热点,实现数据驱动的出版选题决策,为出版业的数字化转型与发展奠定坚实基础。[方法/过程]设计一个情报分析模型,面向出版选题决策进行专业领域的热点探测。模型包含热点发现与热度评价两个过程。热点发现过程,通过词频统计和词增长速度算法对专业领域内的热点进行识别;热度评价过程,从内容层面和传播层面两个维度设计并计算一系列指标,对识别到的热点进行热度评价与排序。[结果/结论]以2018年1月至4月的36 550条信息、通讯和技术领域多源中文信息为样本进行热点探测实验,实验结果表明,设计的热点探测模型可以有效地探测专业领域内的热点,辅助出版业科学地进行专业领域选题决策。  相似文献   

16.
面对自由无序的网络舆情信息,对舆情组织方式的研究体现出重要研究意义。文章提出一种网络舆情信息的组织方法,采用域加权的方式,通过一种single-pass增量算法聚类实现面向主题的舆情信息组织,即对新闻主题或新闻事件有较强表达能力的域进行加权处理以突出该主题或事件,再以无监督自动化的方式对无序的网络舆情信息进行聚类,进而发现热点话题,达到话题探测的目的。实验结果显示,聚类类簇均基于主题或事件,可以代表一个话题,F-measure评价值在85%以上,也进一步表明了本研究方法的有效性。  相似文献   

17.
杨萌  彭蕾 《图书馆学研究》2012,(4):36-37,26
Drupal作为优秀的开源内容管理系统,不仅可以构建传统的门户网站,还可用于构建适用于手机、iPad等移动设备访问的网站。文章以Drupal构建的移动版调查问卷为例,描述利用Drupal构建移动图书馆也是可行的。  相似文献   

18.
基于可视化数据挖掘的知识发现模型研究   总被引:1,自引:0,他引:1  
基于可视化数据挖掘的知识发现模型,过程有4个步骤:数据的收集和存储;数据预处理,把数据转化成可以理解的形式;使用硬件和相关软件,产生一个可视化的数据表示;通过与数据的可视化表示进行交互,用户从中感知和挖掘知识。图5。参考文献14。  相似文献   

19.
秦杰  谢蕙  王春云 《图书情报工作》2010,54(15):113-116
针对元搜索结果中的网页重复问题,把基于最长公共子序列(Longest Common Subsequence,简称LCS)的网页去重方法应用到元搜索引擎的去重中,提出基于SLCS(首字母S表示Summary)的元搜索去重方法。在获得网页文档摘要后,根据查询词在语句中出现的次数和语句长度,计算摘要语句集合中每个语句权重,提取权重最大的语句作为网页摘要特征语句,通过比较摘要特征语句间的LCS,计算出结果网页相似性,以提高元搜索引擎的检索质量,实验表明该方法具有较高的准确率。  相似文献   

20.
[目的/意义] 根据基金项目数据的特点,提出基于基金项目数据的研究前沿主题探测方法,以期识别出前瞻价值更高的研究前沿,为研究前沿识别相关研究提供借鉴思路。[方法/过程] 首先,基于PLDA模型识别蕴含在基金项目文本中的研究主题;然后基于主题-文档矩阵建立主题和基金项目文档的映射关系,在此基础上,利用主题的资助时间、资助金额和中心性指标进行研究前沿主题探测,从而识别出值得关注的研究前沿主题;最后,利用主题演化可视化分析方法,对研究前沿主题进行演化分析,以预测其发展趋势。[结果/结论] 研究结果表明,该方法可以根据基金项目数据的特点识别出蕴含在其中的研究前沿主题,并且能够分析研究前沿主题的分裂、融合等演化过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号