排序方式: 共有10条查询结果,搜索用时 15 毫秒
1
1.
互联网中存在大量重复网页,降低了用户体验并使搜索变得复杂化。为解决这些问题,把相似网页的比较转换成二元分类问题,使用监督学习算法构造判别函数,避免人为设定相似度阈值所带来的误差;通过SVM训练出的判别函数检测网页对,以此检测网页是否重复。 相似文献
2.
黄志伟 《中学生阅读(初中版)》2016,(6):14-15
【作文题目】一次次亲昵的呼唤,荡开了心间的冰花,那是被岁月封存的温暖;一回回颔首的微笑,洗却了人生的疲惫,那是被日子串起的记忆。没有比人更高的山,没有比温暖更珍贵的记忆。多少往事,总是被风轻轻吹起,飘向那遥远的地方。请以"有一种记忆叫温暖"为题目,写一篇文章。要求:1.文体不限,诗歌除外;2.不少于600字;3.有真情实感,不得套作,不得抄袭;4.文中不能出现真实的人名、地名、校名。(2015年四川眉山市中考作文题)【佳作展示】有一种记忆叫温暖 相似文献
3.
研究分词在统计机器翻译中的影响因素,分析不同分词对机器翻译词对齐模型的影响,提出基于粒度约束和子串标注的分词优化方法,并通过优化分词提高机器翻译的效果。 相似文献
4.
基于多策略融合的中文术语抽取方法 总被引:2,自引:0,他引:2
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术.相对于单词型术语,词组型术语的识别过程要更加复杂.由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题.文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务.实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能. 相似文献
5.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%. 相似文献
6.
舒鑫柱 《楚雄师范学院学报》2005,20(3):11-16
模式匹配是一种重要的非数值运算,本文在分析了当前几种主要的匹配算法思想的基础上,提出了一种新的改进算法,降低了匹配算法的时间复杂度,提高了算法效率。 相似文献
7.
分析了序列检测器的内部原理,给出它的一种新硬件实现.利用它无需对状态图进行状态化简,极大地简化了时序线路的设计.最后结合具体实例说明了该设计思想的详细步骤和具体实现方法. 相似文献
8.
随着信息化的深入发展,各应用领域积累了大量采用半结构化方式记录的文本数据。为了快速有效地从大规模面向领域的半结构化文本中抽取有用信息,信息抽取技术应运而生。文本信息抽取的核心算法之一是计算词或短语的相似度,针对面向领域的半结构化文本中的中文短语相似度计算,先采用模式匹配算法从原始半结构化文本中抽取中文短语,然后结合领域语义依存关系,对基于公共子串的短语相似度计算方法进行改进,以此提高短语相似度计算的可靠性。实验结果表明,所提算法具有较好的计算效果。 相似文献
9.
伊薇特公主喜欢吃小甜饼。但她一旦吃得太多,就会生病。
一天,伊薇特公主又生病了。皇宫里的御医们都束手无策。国王对女儿说,只要她好起来,她要什么他都答应。
伊薇特公主说她想要月亮。如果她能得到月亮,她就会好起来。 相似文献
10.
串匹配问题是计算机科学中研究得最广泛的问题之一,它在文字编辑与处理、图象处理、文献检索、自然语言识别、生物学等领域都有很广泛的应用。随着互联网的日渐庞大,信息也是越来越多,如何在海量的信息中快速查找自己所要的信息是网络搜索研究的热点所在,在这其中,字符串匹配算法起着非常重要的作用,一个好的串匹配算法往往能显著地提高应用的效率。文章所研究的是如何设计求任意两个字符串的最大匹配子串及其长度的算法,这种串匹配算法可应用到自动阅卷系统、查询系统、检索系统等许多系统中。 相似文献
1