首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
停用词表对中文文本情感分类的影响   总被引:6,自引:2,他引:4  
王素格  魏英杰 《情报学报》2008,27(2):175-179
本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究.实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好.  相似文献   

2.
中文农业科技文献自动标引系统SDIC/CASDAIS   总被引:1,自引:0,他引:1  
本文介绍了一个中文农业文献自动标引系统SDIC/CASDAIS,它集自动主题标引与自动分类标引于一体,采用主题词表、预匹配词表和停用词表相结合的词典法方案,匹配中采取正向增字跳字最长匹配的算法,末二字回溯,制订大量规则以降低错标。该系统可完成主题标引和分类标引,能处理农业文献中常见的缩略语和科技术语不规范现象,具备动态构词功能。SDIC/CASDAIS系统采用特征词析取方法处理不包含在词表中的品种、物质名称和地名等关键词,其自由词判定规则还可以判别标题的部分自由词,通过词频统计可作为更新词表的依据。SDIC/CASDAIS系统的标引速度为3000条标题/小时,平均标引深度略大于4,主题标引精度98%,分类标引基本吻合率80%。  相似文献   

3.
运用非结构化信息挖掘,对网络评论情感进行分析是一个非常重要的方法。本文基于Web客户评论情感文本,在情感文本预处理过程中使用四种不同的停用词表,采用两种不同的特征选择方法,选用著名的TF-IDF权重计算方法,使用基于RBF核函数的支持向量机方法的分类器实现了对携程网上采集的4000个酒店客户评论情感文本的分类研究。通过实验,分析了不同特征选择方和停用词表的使用对客户评论文本情感分类的影响,提出了基于情感文本分类的有效的停用词表。  相似文献   

4.
基于既定词表的自适应汉语分词技术研究   总被引:3,自引:0,他引:3  
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。  相似文献   

5.
雷晓  常春  刘伟 《图书情报工作》2019,63(20):121-128
[目的/意义]为增强叙词表实用性,需要不断地将领域中出现的新术语更新到叙词表中,更新维护过程中,从时间及词频等角度对新术语分布特征进行探索研究,可以为新术语发现方法提供参考。[方法/过程]基于新术语相关特征,结合对应文档频率在时间点和时间段上的发展分布,通过相关统计分析,研究术语在不同成长时期的分布特征,尤其界定术语在开始期与成长期的分布差异。[结果/结论]实证分析表明新术语一般处于术语发展的成长期,当候选新术语保持正向增长趋势超过一定年限,可以认为该术语同时具有新颖性、时间持续性及术语性特征。基于该分布特征进行领域新术语的识别,结合词表编制专家的判断,该方法在新术语收录判断中具有较高的准确率,且能有效识别实际应用中占比较多的低频词。  相似文献   

6.
网络环境中汉语叙词表的自动构建研究   总被引:2,自引:0,他引:2  
为解决网络信息检索效率低的问题,需要把叙词表等控制机制引入到网络检索系统中,但传统词表编制方式已经不能满足网络信息检索的需要.本文制定了一种汉语叙词表自动构建方案,以财税领域为例,采用模式识别、词聚类、同现分析等自然语言处理技术实现自动识别词间等同关系、等级关系和相关关系,从而构建一部财税领域叙词表,最后对所构建的叙词表进行测评.相比传统叙词表编制方法,自动构建叙词表能降低编表专家的智力负担,而且编表时间短,费用低,时效性强,符合普通用户的检索习惯.但对词间关系的识别不如人工编表时精当可靠,所以需要人工辅助判定.  相似文献   

7.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

8.
【目的】微博用户兴趣发现对微博社交网络的个性化推荐和提升用户满意度具有重要的意义和价值。【方法】不仅通过挖掘用户自身微博数据识别出用户兴趣,而且进一步挖掘其关注用户的微博数据以及他们之间的社交联系,并通过计算用户微博与其关注用户兴趣的相似度以及用户与其关注用户间的亲密度,进一步发现用户兴趣。最后将从两方面发现的兴趣进行合并,得出用户的兴趣。【结果】基于爬取的新浪微博数据集进行实验,准确率和召回率较传统的方法提升15%以上。【局限】数据预处理中,停用词表不充分,没有实现停用词表的自动学习;需人工标注用户兴趣集计算准确率和召回率。【结论】实验结果表明,该方法明显优于传统方法,能够更加有效和准确地发现用户兴趣。  相似文献   

9.
熊文新 《图书情报工作》2012,56(17):115-121
考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其他形式出现,将查询表述语句中的词语区分为对汉语文本处理具有普遍意义的通用停用词、服务于信息检索表述用的专用停用词和与特定需求相关的信息内容词语。区分词语使用的不同性质,能为信息系统前端的自然语言查询处理增加一道剥离工序,防止将整个查询语句的分词结果全部作为检索项所造成的效率和准确率的退化。  相似文献   

10.
后控词表的设计开发与利用   总被引:5,自引:1,他引:4  
文章介绍了自然语言检索过程中的后控技术及现有后控词表的实现技术。提出一个基于汉语后控词表的情报检索系统的总体结构设计。对汉语后控词表设计的关键技术问题,如系统的自学习功能,系统与词表管理系统和自动标引系统连接问题等进行了分析和讨论。  相似文献   

11.
This article describes methods and tools for the implementation of a dictionary (inverse file) as an intrinsic element of an information-retrieval system that is designed for on-line user searches. The methods and tools for increasing the IRS efficiency as a whole and the dictionary in particular are described. The authors discuss the principles of the compilation of stop-word lists and algorithmic verification of vocabulary while generating a dictionary.  相似文献   

12.
藏文输入法是藏文信息处理领域的基础性研究课题,也是藏文信息化建设的一个瓶颈。文章论述了针对现有藏文输入法存在的问题,旨在突破由“文字”信息处理向。语言。信息处理过渡的难题,研究并开发一种基于藏文编码(基本集)国家暨国际标准和Unicode国际编码标准,以及OpenType字体技术,可在Windows Vista和Windows XP下,支持Internet上的藏文信息交换,用于文字信息处理和语言信息处理的藏文输入法的相关问题。  相似文献   

13.
云计算环境下图书馆信息服务创新的基本路径   总被引:1,自引:0,他引:1  
云计算是分布式处理、并行处理和网格计算的发展,是一种基于互联网的超级计算模式。图书馆通过创新发展环境、创新信息资源共建共享模式、创新图书馆业务流程和信息资源安全策略等措施,应用云计算技术为用户提供了一个泛在的能随时更新资源的信息服务平台,从而推动云计算环境下信息服务创新。  相似文献   

14.
随着Internet的发展,互联网上的学术文献数量呈指数增长,很难为科研工作者所利用,因此亟需一种方法对海量的网络学术文献进行自动的搜集、整理、分类。在前期充分的实验论证后,设计实现一个海量网络学术文献自动分类系统,该系统使用模块化设计,包括学术文献自动抓取模块、学术文献词-文档矩阵处理模块、本体集成模块以及基于语义驱动的分类模块。实验证明,该系统可以有效地完成海量学术文献的自动抓取、处理和分类工作。  相似文献   

15.
面向农民的问答系统问句处理研究*   总被引:1,自引:0,他引:1  
为提高农民获取信息的便利性,文章着重面向农民问答系统的开发,提出问答系统由知识库构建、问句处理、信息检索、答案抽取4个模块组成,其中问句处理是研究重点。在总结农民问句特点的基础上,提出基于疑问词和短语的问句分类方法,并在问句处理过程中采用去除客气词、建立针对非正式疑问词和无疑问词时的“特殊规则表”等方法,以有效地进行问句归类及关键词提取。同时利用所构建的“同义词扩展词表”扩充关键词,并设定不同的权重基准,为信息检索模块的处理奠定基础。  相似文献   

16.
为提高期刊编辑处理稿件的质量和效率,设计了一种基于VBA的Word稿件编辑工具。该工具可以线下和在线编辑稿件规范信息,建立和不断完善稿件规范数据库;在Word软件中调出工作界面,通过大小栏目选择或检索功能,快速找到相关编辑规范问题,可以方便、快捷地在Word稿件中进行插入、替换、批注等文字处理。经试用发现,该工具不仅提高了稿件处理效率,而且可以方便地整理规范信息,积累编辑稿件处理经验,建立和完善编辑个人的知识系统。  相似文献   

17.
Parental coviewing – the act of being present when a child is watching television – can influence the child’s cognitive processing and emotional reactions. This study investigated the role coviewing has on the child’s cognitive processing – which is evidenced by the phasic psychophysiological orienting response to three types of information: plot explicit, educational explicit, and implicit inference. An experiment was conducted that measured the heart rate of children (N?=?88; mean age?=?9.12 years) while watching messages either with or without a parent present in the room. It was predicted, and found, that coviewing leads to greater resource allocation to encoding the message – as indicated by phasic cardiac deceleration, and that information that required internal processing, such as plot explicit or implicit inferential content, leads to greater resources allocated to internal processing – as indicated by phasic cardiac acceleration. Implications for parental mediation strategies and educational television programming are given.  相似文献   

18.
为了提升参考文献的自动化加工水平和准确率,通过编写VBA(Visual Basic for Applications)程序,利用HTTPS协议自动获取参考文献的DOI信息,进一步利用获取的DOI信息从CrossRef、PubMed和ADS数据库挖掘出文献的元数据信息,并按照期刊的具体格式规范文后参考文献的加工和XML信息标引.经测试,运行VBA程序后,每50条参考文献只需5 min即可完成解析和文献加工,大大提升了编辑效率和准确率.认为对参考文献的体例和各数据库的API接口熟练掌握和使用是程序运行成功的关键.  相似文献   

19.
An ASIC design for image processing which can implement edge, line and point detection on a single VLSI chip in real time is reported here. The design is based on a set of orthogonal Chebyshev polynomial based operators and consists of a pipelined array of registers and adders with a simple and modular structure which is easily amenable to VLSI implementation. The design has been implemented using VTI design tools on a SUN workstation and the estimated overall chip size is 10.18 mm × 6.92 mm for 1.5 μm CMOS process utilizing about 84,000 transistors. Although the hardware requirements are relatively low, real time processing of a 512 × 512 pixel image can be realized at a clock rate of 8 MHz.  相似文献   

20.
沙勇忠  陆莉 《图书情报工作》2015,59(12):120-127
[目的/意义] 社会媒体中的信息抽取是信息过载环境下创新社会媒体服务应用面临的重要问题,为此介绍一种可应用于社会媒体信息处理的语段结构方法。[方法/过程] 梳理语段结构方法的国内外研究进展,阐述其基本原理,并通过一个微博实例进行验证分析。[结果/结论] 通过以上工作,探讨将语段结构方法应用到中文社会媒体信息处理中的可行性,以及应用该方法实现中文信息机器处理所面临的研究问题与挑战。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号