首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Online display advertising is a multi-billion dollar industry where advertisers promote their products to users by having publishers display their advertisements on popular Web pages. An important problem in online advertising is how to forecast the number of user visits for a Web page during a particular period of time. Prior research addressed the problem by using traditional time-series forecasting techniques on historical data of user visits; (e.g., via a single regression model built for forecasting based on historical data for all Web pages) and did not fully explore the fact that different types of Web pages and different time stamps have different patterns of user visits. In this paper, we propose a series of probabilistic latent class models to automatically learn the underlying user visit patterns among multiple Web pages and multiple time stamps. The last (and the most effective) proposed model identifies latent groups/classes of (i) Web pages and (ii) time stamps with similar user visit patterns, and learns a specialized forecast model for each latent Web page and time stamp class. Compared with a single regression model as well as several other baselines, the proposed latent class model approach has the capability of differentiating the importance of different types of information across different classes of Web pages and time stamps, and therefore has much better modeling flexibility. An extensive set of experiments along with detailed analysis carried out on real-world data from Yahoo! demonstrates the advantage of the proposed latent class models in forecasting online user visits in online display advertising.  相似文献   

2.
This experiment investigates the effects of an advertorial message on 4 dimensions of reader involvement. The use of the advertorial format was found to have increased participants' perceived message relevance, attention to written message, message elaboration, and message recall over the use of a standard advertisement format. Responses to labeled and unlabeled versions of the same advertorial did not vary significantly. Although participants perceived both labeled and unlabeled advertorials to be advertisements, rather than editorial material, more than two thirds of the participants who were exposed to a labeled advertorial failed to recall the presence of the label. Our findings indicate that the advertorial format fools readers into greater involvement with the advertising message and that the presence of advertorial labels may not be particularly effective in alerting consumers to the true nature of the message.  相似文献   

3.
[目的/意义] 随着政府开放数据运动在全球范围内的兴起,"政府开放数据"已成为多学科的交叉研究热点,但较少文献探讨政府数据开放后的服务失误问题,这将影响政府开放数据的效果。[方法/过程] 聚焦政府开放数据服务的失误补救问题,探讨数据质量视角下的政府开放数据服务失误类型,构建基于用户敏感度的政府开放数据服务失误补救时机策略模型,并采用拉格朗日乘数法对模型求解。[结果/结论] 模型求解与算例分析结果表明,补救时机、用户对开放数据的敏感度和用户对失误补救的敏感度对政府开放数据服务失误补救时机策略有重要影响。政府部门应充分重视用户敏感度,选择恰当的补救时机,及时进行失误补救。  相似文献   

4.
Duplicate content on the Web occurs within the same website or across multiple websites. The latter is mainly associated with the existence of website replicas—sites that are perceptibly similar. Replication may be accidental, intentional or malicious, but no matter the reason, search engines suffer greatly either from unnecessarily storing and moving duplicate data, or from providing search results that do not offer real value to the users. In this paper, we model the detection of website replicas as a pairwise classification problem with distant supervision. That is, (heuristically) finding obvious replica and non-replica cases is trivial, but learning effective classifiers requires a representative set of non-obvious labeled examples, which are hard to obtain. We employ efficient Expectation-Maximization (EM) algorithms in order to find non-obvious examples from obvious ones, enlarging the training-set and improving the classifiers iteratively. Our classifiers employ association rules, being thus incrementally updated as the EM process iterates, making our algorithms time-efficient. Experiments show that: (1) replicas are fully eliminated at a false-positive rate lower than 0.005, incurring in + 19% reduction in the number of duplicate URLs, (2) reduction increases to + 21% by using our site-level algorithms in conjunction with existing URL-level algorithms, and (3) our classifiers are more than two orders of magnitude faster than semi-supervised alternative solutions.  相似文献   

5.
基于用户行为建模和大数据挖掘的图书馆个性化服务研究   总被引:5,自引:0,他引:5  
[目的/意义] 大数据背景下,如何构建合适的用户行为模型并基于海量的行为日志数据提供个性化服务,是当前图书馆大数据应用落地迫切需要解决的问题。[方法/过程] 首先分析用户行为模型构建的研究现状及存在的困境,接着密切结合大数据背景下个性化服务的特征,针对性提出基于本体的高校图书馆用户行为模型的构建策略和构建方法,并设计一种利用用户日志库提取用户显性兴趣和隐性需求本体的个性化服务方案,最后给出基于流行的Hadoop大数据分析平台和MapReduce计算框架的图书馆个性化服务的应用案例。[结果/结论] 基于本体构建的用户行为模型,技术上可与大数据分析平台实现无缝对接,从而提供实时而精准的服务,能有效应对当前大数据环境下图书馆个性化服务面临的“知识迷航”“信息过载”和“情感缺失”的挑战。  相似文献   

6.
[目的/意义]本文从融合大小数据分析的角度,深入用户偏好形成的内部机理,构建包含因果关系标签的用户画像,提高其在应用中的预测能力。[方法/过程]通过大数据分析获取用户偏好的关联关系,为量表式小数据分析提供理论假设素材并获取用户偏好的因果关系,通过语义集成形成完整的用户偏好标签体系。[结果/结论]以互联网股票投资领域进行数据实验,本文所提出的理论框架和方法能够深入用户偏好形成的心理,提高用户画像分类预测的能力。  相似文献   

7.
张倩  刘怀亮 《图书情报工作》2013,57(21):126-132
为了解决基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出一种基于图结构的半监督学习分类方法,这种方法既能保留短文本的结构语义关系,又能实现未标注样本的充分利用,提高分类器的性能。通过引入半监督学习的思想,将数量规模较大的未标注样本与少量已标注样本相结合进行基于图结构的自训练学习,不断迭代实现训练样本集的扩充,从而构建最终短文本分类器。经对比实验证明,这种方法能够获得较好的分类效果。  相似文献   

8.
[目的/意义] 鉴于已有基于点击流的用户模型大多简单地采用页面类型序列代替行为序列,提出一种根据点击流访问页面序列到用户行为的映射方案,解决用户行为建模的问题。[方法/过程] 本文在分析网页URL参数、页面内容等特征的基础上,以81 759个电商用户会话为测试样本,提出并实现从页面到用户行为的映射方法,给出一种依据原始日志建立用户行为序列来描述会话的方案。[结果/结论] 分析反映出在会话层面上已有研究不易得到的行为特征,得到6类具备不同行为模式的会话:功能探索会话、卖家管理会话、营销推动会话、资料管理会话、商品浏览会话、检索依赖会话。基于点击流对用户会话建模,可以得出用户会话中行为序列特征,对实现准确营销与推荐具有重要价值。  相似文献   

9.
大数据时代,档案信息服务在与大数据技术结合发展时存在数据处理能力不足以及对用户研究粗粒度等问题,与档案用户信息需求的细粒度、精准化要求存在一定距离。小数据以其独特的数据特点给档案信息精准服务带来新的思路。以小数据为切入点,分析档案小数据的构成以及基于档案小数据开展精准化档案信息服务的可行性,构建基于小数据的档案信息精准化服务模式,从档案用户层出发,在采集档案用户小数据的基础上进行数据预处理、存储和分析,通过一系列档案信息精准化服务相关措施实现档案信息内容的精准推送与有效预测。  相似文献   

10.
系统地分析和总结跨系统用户建模的主要方法:基于统一用户模型的方法,主要是试图通过构建标准的本体或者通用的用户模型来满足不同系统的个性化需要;基于用户模型间映射和融合的方法,主要通过一定的映射规则对不同系统中用户模型进行映射和融合,实现跨系统的个性化服务;分布式开放用户建模方法,主要是基于社交网络、互操作、关联开放数据等来构建用户模型。通过对这些方法的比较分析,指出跨系统用户建模的发展趋势。  相似文献   

11.
文章通过对个性化推荐和数据建模理论研究,分析了普通的Web日志格式采集到的数据无法满足个性化用户分析、预测和推荐精度需要的局限性。提出定制Web日志数据建模的过程及方法,建立了定制Web日志模型原型。通过应用数据挖掘技术的关联分析、分类和聚类实验,实验结果表明,通过定制Web日志的方式采集的数据质量能够很好地满足发现关联规则、内容分类和用户聚类的需求,从而提高个性化推荐的精度。同时,定制的Web日志数据还具有简化数据预处理、多用途的优点。  相似文献   

12.
[目的/意义] 针对我国科研工作者获取国外学术信息过程中涉及的隐私保护问题,提出相关建议、对策与防范策略,并探讨大数据与区块链隐私保护技术及其实现隐私保护的可行策略。[方法/过程] 通过对国外学术数据库平台网站的访问数据进行收集分析,发现这些数据库平台除了在其自身网站中插入收集用户信息的脚本外,还存在使用第三方平台脚本对用户信息进行实时收集的情况,并对此结果进行分析,挖掘其关联性。[结果/结论] 通过大数据技术,科研用户访问国外学术数据库信息可为数据库商及其合作伙伴或政府机构所获取利用,致使科研用户的隐私信息发生泄露的风险,从而导致个人安全问题、财务问题,甚至国家安全问题,需要从多个层面加以重视。  相似文献   

13.
[目的/意义]调研和分析国外Data Commons(数据共享空间)的数据管理模式,为建设我国的数据共享空间提供借鉴。[方法/过程]通过梳理、归纳国内外数据共享空间的发展现状,对比和分析二者之间差距,并以美国INRG数据共享空间为例,从原则与协议、数据库与用户接口以及数据标识与关联等方面剖析其数据空间管理模式,为我国数据共享空间的建设及发展提出策略。[结果/结论]结合案例和我国数据共享平台现状,从总体规划、建设目标、要解决的问题、DC总体架构和用户服务等方面提出具体建议。  相似文献   

14.
[目的/意义] 大数据环境下,以年度数据账单方式进行的数据推广工作受到越来越多高校图书馆的认可与使用,但不同机构的年度数据账单内容、模式及推广效果存在较大差异,因此对国内高校图书馆年度数据账单推广内容及现状进行调查与研究。[方法/过程] 通过网络调研,以2017年数据账单结构完整性、内容丰富性为标准筛选出21所高校图书馆进行调查,同时对各馆2016年度数据账单进行回溯性追踪;对当前高校图书馆年度数据账单内容、推广模式与服务模式的现状与发展进行探讨,并提出发展建议。[结果/结论] 当前高校图书馆年度数据账单推广并没有统一且长效的模式,并存在时间持续性差、内容价值不完善、文化传承与延展功能及效果缺失等问题。建议从数据推广内容的价值度与活动的持续性、营销品牌构建、基于用户画像的图书馆服务优化策略等方面进行改进与提升。  相似文献   

15.
Most current methods for automatic text categorization are based on supervised learning techniques and, therefore, they face the problem of requiring a great number of training instances to construct an accurate classifier. In order to tackle this problem, this paper proposes a new semi-supervised method for text categorization, which considers the automatic extraction of unlabeled examples from the Web and the application of an enriched self-training approach for the construction of the classifier. This method, even though language independent, is more pertinent for scenarios where large sets of labeled resources do not exist. That, for instance, could be the case of several application domains in different non-English languages such as Spanish. The experimental evaluation of the method was carried out in three different tasks and in two different languages. The achieved results demonstrate the applicability and usefulness of the proposed method.  相似文献   

16.
目前我国部分高校已建立科学数据管理服务平台,但科学数据管理的相关服务还存在诸多不足,健全并完善科学数据管理服务平台尤为关键。文章以数据中台为切入点,讨论如何利用数据中台体系全面采集并打通各类数据资源,实现数据资源的安全交互和自主可控,继承并强化原有平台数据收集、存储、管理及共享等服务能力,在此基础上,把握“服务”这一核心要点,优化用户服务方式,增强用户体验感,使得科学数据管理服务平台能更好地分析、处理、管控、治理科学数据,协助进行数据价值的发现。  相似文献   

17.
借鉴用户认知需求的研究现状以及用户画像在图书馆的应用实践,提出面向用户认知需求的图书馆用户画像系统模型,在标签体系中选取用户基本属性数据、动态行为属性数据、互动属性数据、偏好属性数据,借助文本处理、深度学习等技术以及社区发现、标签传播等监督技术对数据分别处理和预测,并提出基于用户认知的需求预测、个性化体现、社区发现、决策调整4大分析应用,对于构建、完善用户画像认知体系有较大的促进作用。  相似文献   

18.
论文对《中图法》第4版中新发现的3处扩号借号法例证,从类级分析、并非特殊八分法类号辨析、并非加“0”类号辨析和并非下借法类号辨析等方面进行了论证。  相似文献   

19.
Co-streaming classes have enabled library staff to extend open classes to distance education students and other users. Student evaluations showed that the model could be improved. Two areas required attention: audio problems experienced by online participants and staff teaching methods. Staff tested equipment and adjusted software configuration to improve user experience. Staff training increased familiarity with specialized teaching techniques and troubleshooting procedures. Technology testing and staff training were completed, and best practices were developed and applied. Class evaluations indicate improvements in classroom experience. Future plans include expanding co-streaming to more classes and on-going data collection, evaluation, and improvement of classes.  相似文献   

20.
[目的/意义]旨在界定并描述我国政府数据开放共享面临的政策问题,为进一步政策分析奠定基础。[方法/过程]引入公共政策学的理论,采用类别分析法,试探性地建构政府数据开放共享政策问题的框架。根据政策问题的属性,如可能影响的程度、问题的可逆性、复杂性、问题间的关联性,以及与特定政治的相关性等,对我国政府数据开放共享的政策问题进行界定和阐述。[结果/结论]我国政府数据开放共享存在数据和元数据问题、数据管理问题、数据安全与隐私问题、数据权益问题和用户参与问题等政策问题。政府数据开放共享政策体系的构建需要围绕这些主要问题及其子问题展开深入的研究和探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号