共查询到20条相似文献,搜索用时 125 毫秒
1.
陈伟 《读与写:教育教学刊》2021,(10)
弹幕是最近比较流行的在线视频评论方式,因其内容为自发用户发出,可能带有大量的不和谐性,因此如何识别弹幕中的中文文本内容,文中使用了命名实体识别方法,针对弹幕文本规范化处理和研究,通过采用 Word2vec 方法进行词向量训练,以期望达到合理识别的效果。 相似文献
2.
于敏 《北京工业职业技术学院学报》2021,20(2):30-35
命名实体识别模型Lattice LSTM集成字信息和词信息,在路由词信息的过程中会退化成词模型,不能有效利用字信息内在关联性.针对上述问题,提出基于多头注意力机制的Lattice LSTM模型,获取字信息的内在关联和远距离语义信息,同时对模型进行调参优化与改进.在多个数据集上的实验验证,该模型相对于基线模型F1值提高了0.48%~1.11%. 相似文献
3.
HMM、CRF等机器学习算法在中文实体抽取任务上存在大量依靠特征提取及准确率低的缺陷,而基于BiLSTM-CRF、BERT等深度神经网络算法在中文实体识别准确率高,但BiLSTM模型依赖大规模标注数据,BERT存在参数量大、效率低等问题。该研究提出了基于ALBERT-Attention-CRF模型进行中文实体抽取的方法。首先将glove、Word2vec等静态词向量替换为ALBERT预训练模型字向量,可有效解决分词错误、数据稀疏、OOV、过拟合以及一词多义等问题;然后采用ALBERT作为编码层并对其输出利用Attention机制捕获上下文语义特征;最后结合CRF作为解码层输出实体正确标签,摒弃主流BiLSTM-CRF模型,最终在《人民日报》数据的测试集上取得了理想的效果。试验结果表明,该方法有助于提升通用中文实体识别的准确率和效率,其有效性也得到了较好的验证。 相似文献
4.
5.
6.
中文电子病历命名实体识别对于医学知识库的构建和临床决策作用关键。针对中文电子病历结构化实体识别困难的问题,提出一种多特征融合的中文电子病历命名实体识别方法。该方法基于条件随机场,通过逐一融合语言符号、词性、关键词、词典、词聚类等多种特征,采用递增式学习策略验证其有效性,在最优特征组合下识别出疾病、症状、检查和治疗4类实体。实验结果表明,该方法识别准确率达到90.99%,有效满足了应用需求。 相似文献
7.
传统基于统计的命名实体识别方法存在需要大量人工标注的缺陷,导致识别准确率较低。为了提升识别效果,提出一种基于条件随机场的半监督学习方法(S-CRF)对命名实体进行识别。该方法将实体识别看作序列标注问题,对少量数据进行人工标注并构建实体集,通过K-means聚类算法选取有代表性的未标注数据文本进行自动标注,采用条件随机场对语料进行训练测试。选取中文应急预案文档进行实验,该方法在各个标签上的识别效果分别达到93.52%、93.04%、95.81%。实验结果表明,该方法优于传统规则方法,能有效提高应急预案命名实体的识别效果。 相似文献
8.
实体识别是自然语言处理领域中一个十分重要的问题,是信息提取的基础,其识别程度直接影响了后续的句法分析、篇章理解等工作的精确程度。“熵”最初是热力学的一个概念,用来表示不确定度,熵越大,不确定性越大。“最大熵”模型是一种融合多种特征于一体,并综合这些特征进行建模,在满足约束的模型中选择熵最大的模型。“最大熵”模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的效果。通过实验分析了在新闻报道领域最长地点实体的特征,并应用了最大熵模型进行了识别研究。 相似文献
9.
识别一篇生物医学文献中的核心实体是准确提取该文献信息的前提。针对目前生物医学文献实体识别和筛选方法的局限性,提出了基于LSTM的生物医学核心实体提取模型。该模型以LSTM为核心,通过更为优秀的词向量和输入生成规则改良模型输入,使用双向LSTM模型改进处理过程,将结果保存为树形结构并对该树进行合理剪枝获取标注链,实现输出结果处理,最终使实体识别的F1值达到了89.35%。此外,在核心实体筛选过程中,基于TF/IDF算法规则,充分考虑了词频、位置、逆文档频率等因素,使核心实体筛选的F1值达到了76.85%。 相似文献
10.
关于“敦煌”一名的含义,学界给出了多种解释,或汉语,或藏语,或羌语,或吐火罗语,众说纷纭,长期为学界公案。综观西汉武帝设立河西四郡前著于史册的五个早期地名——合黎山、黑水、祁连山、焉支山、敦煌,其中四个大体可以确定都属于突厥语,即合黎=Qara,意为“高”,合黎山意为“高山”,黑水=QaraSu,意为“清亮的水”,祁连=Tängri,意为“天”,焉支(胭脂)=yänggä,意为“嫂子”,同于匈奴单于夫人“阏氏”和今天维吾尔语嫂子yänggä。从史书遗留的当地民族的词汇看,先后生活于敦煌一带的月氏、乌孙、匈奴所操的语言皆为突厥语。说明彼时河西为突厥语分布区,从大概率讲,“敦煌”之名亦应为突厥语。突厥语中有tawuz一词,意为“瓜”或“西瓜”,敦煌古以产瓜闻名,在相当长时间被称作瓜州。将敦煌解释为突厥语tawuz的音译,或许更接近敦煌地名起源之真义。敦煌原为区域名称,以产瓜闻名,后因作为敦煌郡治而特指敦煌绿洲。 相似文献
11.
学生如何学好Photoshop软件的基本知识,熟练掌握平面设计的操作技能与技巧,这得益于实际教学中有效的教学方法,案例教学法、项目教学法以及审美能力的培养等都是事半功倍的针对性较强的教法,值得在“图形图像处理技术”课程中强化应用。 相似文献
12.
项目化教学在《数字电子技术》中的实践 总被引:2,自引:0,他引:2
随着高职教育的不断发展,传统的教学模式已不适合《数字电子技术》课程的教学。文章提出了一种更适于高职教育的新的教学模式——项目化教学。经试行,这种教学模式可以激发学生的主观能动性,使学生能更直接、更快地掌握知识与技能。 相似文献
13.
中美合作研制敦煌数字图像档案 总被引:2,自引:0,他引:2
中国敦煌研究院、世界各地的博物馆和图书馆 ,与安德鲁·W·梅隆基金会正在通力合作 ,为中国敦煌石窟的壁画及其相关艺术、文献制作高质量的数字图像 ,并将其并入一个学术性的电子档案。在中国国家文物局和甘肃省文物局的支持下 ,敦煌研究院、梅隆基金会以及其他参加者 ,期望这个开拓性项目能够促进记录和保存敦煌石窟艺术的工作 ,并进一步推动全世界学术和艺术的发展。一 运用先进技术记录石窟艺术与敦煌研究院合作 ,美国西北大学的专家使用先进的数码相机拍摄敦煌石窟中 2 2个洞窟的壁画和雕塑 ,并制作成数字图像。他们采用的第一种拍摄… 相似文献
14.
15.
为贯彻落实习近平总书记在敦煌研究院座谈时的讲话精神,“通过数字化、信息化等高技术手段,推动流散海外的敦煌遗书等文物的数字化复原,实现敦煌文化艺术资源在全球范围内的数字化共享”。敦煌研究院成立“流失海外敦煌文物数字化复原”项目组,论证了流失海外敦煌文物数字化复原的总体目标、实施原则、数字化标准、数字资源获取模式和实施步骤等内容。 相似文献
16.
17.
18.
19.