共查询到20条相似文献,搜索用时 11 毫秒
1.
对于新闻业来说,现在要准确判断或预见大数据技术将如何改变新闻业的走向,的确是件不太容易的事情,但至少目前我们已看到新闻生产所需的信息资源确已发生了结构性的变化,因此新闻业务形态将发生改变也是大概率事件.目前,西方一些媒体正在进行机器人新闻的尝试,这也代表了在大数据技术支持下新闻业的主动探索,虽然这只是大数据在新闻业的一个初级应用,但它所带来的影响足以引起新闻从业者的警醒.鉴于机器人新闻方兴未艾,本文试图抛砖引玉,以期广大的新闻从业者共同对机器人新闻进行深入的研究. 相似文献
2.
耦合流数据分类问题是当前数据挖掘与信息领域的热点和难点,引起国内外越来越多学者的关注,但现有研究成果大多依赖于从单个流数据中提取特征并进行分类,没有考虑到流数据内以及流数据间特征的相互依赖关系.基于此,借鉴生物信息学中基序查找的方法,本文提出了长期频率和逆文档频率的分类方法,该方法主要是将耦合流数据中每个输入流都转化为信号变化特征,以便有效地提取基序,通过计算基序的频率、长期频率与逆文档频率的权重,用以衡量不同输入耦合流数据的基序之间的时序关系,并利用基序与时序的关系实现对耦合流数据的分类,仿真实验的结果也证明了该方法的有效性. 相似文献
3.
"链接工厂"欺骗(Link farm spam)和重复链接严重地损坏了像HITS这样基于链接排序的算法性能.为了检测与抑制Web"链接工厂"欺骗和重复链接,本文充分利用页面之间的复制信息,尤其是利用完全超链接信息识别可疑链接目标.提出一种由页面文档和完全链接构成的二部图结构,通过对二部图进行构建与分析,搜寻共享锚文本和链接目标的Web页面,在此过程中标识链接工厂和重复链接,并通过带惩罚因子的权重邻接矩阵减小可疑链接的影响.实时实验和用户仿真测试结果显示,本文算法能显著改善传统HITS类方法的信息搜索质量. 相似文献
4.
基于改进编辑距离的相似重复记录清理算法 总被引:1,自引:0,他引:1
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。 相似文献
5.
本文主要研究了在有限资源约束下的数据流聚类方法.针对海量,高速的数据流,现有聚类方法在有界内存和有界时间的限制下,难以快速有效地进行聚类,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法.它采用滑动窗口管理数据流;首先使用主成分模型作为前置系统,它负责对基本窗口内的源数据进行属性转换,起到了降维的作用;然后使用密度聚类模型作为后置系统进行聚类操作;最后对系统中生成的概要数据进行简化的二次聚类并更新聚类簇.通过实验表明,PDStream算法有效克服了STREAM算法使得聚类受控于历史数据的缺点,显现出处理海量数据的优越性以及聚类质量高的特点. 相似文献
6.
面对自由无序的网络舆情信息,对舆情组织方式的研究体现出重要研究意义。文章提出一种网络舆情信息的组织方法,采用域加权的方式,通过一种single-pass增量算法聚类实现面向主题的舆情信息组织,即对新闻主题或新闻事件有较强表达能力的域进行加权处理以突出该主题或事件,再以无监督自动化的方式对无序的网络舆情信息进行聚类,进而发现热点话题,达到话题探测的目的。实验结果显示,聚类类簇均基于主题或事件,可以代表一个话题,F-measure评价值在85%以上,也进一步表明了本研究方法的有效性。 相似文献
7.
8.
Drupal作为优秀的开源内容管理系统,不仅可以构建传统的门户网站,还可用于构建适用于手机、iPad等移动设备访问的网站。文章以Drupal构建的移动版调查问卷为例,描述利用Drupal构建移动图书馆也是可行的。 相似文献
9.
本文从多个维度对词进行综合判断,提出了一种基于决策树的潜在爆发词探测思路与方法.首先对词的生命周期及其爆发现象进行了分析,从词的能量演变、词与词簇的关系、词与已爆发词的关系等多个角度归纳了文档流中词爆发的潜在影响因素;然后在对综合决策方法对比分析的基础上,选取决策树作为综合判断模型,并针对决策树判别过程中的关键问题提出相应的解决方案;此外还实现了具体的算法,并分别针对网络新闻和科学文献两种类型的文档流进行分析和实验,验证了方法的效果. 相似文献
10.
首先简要叙述了目前基于短信平台的手机图书馆的普遍功能,通过分析手机短信支付方式的优势可以弥补由目前原文传递方式在文献提供服务方面的不足,提出了手机图书馆提供手机短信支付实现自动下载全文服务的必要性.最后,详细介绍了上海图书馆已经开发完成的短信支付自动下载全文服务系统的流程设计和功能实现. 相似文献
11.
特征选择是文本分类的关键技术之一.本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失真理论作为可控特征选择的思想来源.在Reuters-21578新闻语料上进行的实验结果表明,基于泊松估计的特征选择算法性能优于基于语义的WN算法和同样基于统计的IG、Chi2等算法;在以特征漏选率作为信息率失真函数的前提下,设定分类算法分类指标下限值,则可以通过改变特征漏选率得到任意的分类精度值.实验表明本文算法在与相关算法的对比中存在优势.算法思想来源于通信领域中的信息率失真理论,也是一种在领域融合方面的崭新尝试. 相似文献
12.
13.
基于关联数据的分布式信息查询研究 总被引:1,自引:0,他引:1
随着越来越多的数据以关联数据的形式发布,对关联数据的利用问题成为关注的焦点,而基于关联数据的分布式信息查询是关联数据利用的重要方面之一。文章介绍了关联数据的内涵及关键技术,将基于关联数据的分布式信息查询的主要实现机制划分为基于URI解析的机制和基于SPARQ终端的机制。最后提出在实现关联数据的分布式信息查询中面临的主要问题:标识符的唯一性、资源发现、数据融合和模式映射。 相似文献
14.
文章在关联数据广泛应用和发展的背景下,通过分析知识发现与关联数据的关系,提出了基于关联数据的知识发现问题;继而分析和明确了基于关联数据的知识发现的潜力和特征;最后,通过将基于知识发现的应用的特殊性与知识发现活动一般规律相结合的研究,分析和构建了基于关联数据的知识发现模型,为相关研究提供基础和参考。 相似文献
15.
16.
针对朴素信念不完整数据分类算法中保守推理规则过于严格导致明确分类样本比例下降的的情况,定义了放松的区间优势,并提出了基于放松区间优势的不完整数据分类模型,与朴素贝叶斯分类和朴素信念分类算法的对比实验结果表明本文提出的分类模型有效地提高了明确分类样本比例,在明确分类样本上的正确率优于朴素贝叶斯分类,与朴素信念分类相当.此外还以文体风格识别作为应用背景进行了实证研究,对比实验结果进一步表明对于文体风格识别数据集,放松区间优势的朴素信念分类算法具有较理想的综合性能. 相似文献
17.
移动学习的目标是帮助学习者能在任何时间、任何地点、以任何方式学习任何内容,3G和手机图书馆的发展为移动学习者提供了一个全新的学习平台。文章利用3G和手机图书馆构建了移动学习平台,并探讨了如何促进移动学习的发展。 相似文献
18.
19.
高校图书馆向社会开放的障碍举要——基于《图书馆合作与信息资源共享武汉宣言》的冷思考 总被引:2,自引:0,他引:2
高校图书馆向社会开放是一个时期以来的热门话题,文章分析了高校图书馆向社会开放的主要障碍,认为高校图书馆主要是为高校的教学和科研服务的,高校图书馆向社会开放必须以不影响高校图书馆的本职工作为前提。保证这个前提,才可以谈高校图书馆为社会开放。要认真研究高校图书馆向社会开放所带来的一切可能出现的问题,如果不正视这些问题,就不可能在向社会开放的问题上有所作为,我们应该不断探讨高校向社会开放的实现方式,积极创造条件,保证高校图书馆的资源向社会开放的价值最大化。 相似文献
20.
协同过滤技术是推荐系统中核心技术之一,数据的稀疏性和用户的多兴趣性困扰着协同过滤推荐质量的提高.将用户相似性和项目相似性结合起来,对原始评价矩阵进行降维处理,得到对目标评价预测影响最大、数据规模非常小的最近邻评价矩阵,在该矩阵上依照项目近邻程度不同对目标评价预测贡献不同的方法,对用户的邻居进行加权精选,对目标评价实现交错预测.实验结果验证该算法能达到较高的推荐精度. 相似文献
