首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
本文着重论述了文献工作中对多文种(尤其汉字)的需求情况,各国(地区)字符集的现状和世界通用字符集产生的必要性。确定了国际通用字符集标准的东方汉字(中、日、朝)统一编码字表。 ISO10646将成为一个真正的集成的多文种信息处理系统。  相似文献   

2.
浅谈CALIS联机编目系统中的字符集问题   总被引:3,自引:0,他引:3  
王燕  陈金莉 《图书情报工作》2005,49(10):114-118
介绍目前主要的中文编码系统,如GB2312、GBK、Unicode、BIG5等,并形象地解释这些字符集之间的包容关系,指出由于应用程序的运行环境不同,导致字符集之间转码出现问题;深入分析CALIS联机编目系统中遇到的字符集问题,包括检索、显示、排序、著录繁体字、异体字、小语种时的问题,并提出相应的解决方案。  相似文献   

3.
方正书版 6 0、7 0使用外挂式中文平台BDDOS(字符集方正内码即“748”码 ) ,WIN3 1下的 8 0使用琼林 ,最新的 9 0运行在Windows 95 /98环境下 (字符集GBK) ,字符集GBK未收入的方正内码也利用补字区和其他方法补充进去。书版 9 0与低版本高度兼容 ,可将 6 0、7 0、8 0的小样转换成可接受的小样格式 ,还恢复了 6 0风格的符号体系。目前许多用户仍使用方正低版本 ( 6 0、7 0 )书版软件 ,针对这一现状 ,本文简要介绍汉字编码方式以及方正内码及其两种使用方法。1 汉字内码系统汉字编码有“内码”和“外码”两个概念。内码…  相似文献   

4.
本文探讨了关于构造我国国家标准汉字编码字符集的基本概念和原则,并且指出了当前国标字符集中存在的某些问题。一个开放型的大基本集有助于解决这些问题。文中提出了自举的字符扩充方法和伪定长码的新概念,并据此给出了一种新型的编码结构设计。  相似文献   

5.
全文数字化是信息资源建设的方向,研究型资源的全文化检索尤其重要.计算器现有系统能处理的汉字,对于中文古籍、辞书、人名地名系统、报刊出版远不够用.几年前,国际标准ISO/IEC 106462003(即Unicode 4.0)编码汉字字符集已经拥有7万余汉字,但其中有4万2千多个汉字是4字节编码,在应用领域的处理方面有一定难度.文章介绍中易公司处理4字节编码汉字的技术成果,并结合在古籍数字化项目中的实际应用,着重说明用自行开发的7万汉字的应用系统,支持数字化工程和全文检索发布的技术特点,强调超大字符集、XML开放数据等标准技术的应用等.通过实践,总结出一套基于支持超大字符集4字节编码汉字的数字化的应用技术,以及信息全文检索发布的可行方法,解决了古籍和文献的数字化工程中的技术难点.  相似文献   

6.
杨成杰 《图书馆论坛》2004,24(1):82-83,112
分析了国内第一家全面支持Unicode字符集的图书馆集成系统——丹诚Dt2000系统服务器端的一些相关技术特色和技术保障情况。  相似文献   

7.
要文分析了国内外多语种编目系统,根据中国少数民族文字编目的现状,深入剖析机读目录的字符集问题;结合少数民族文字的特点,提出少数民族文字机读目录的编码统一化、规则统一化问题.  相似文献   

8.
智能信息处理系统的内核实现   总被引:2,自引:0,他引:2  
程军 《图书情报工作》2002,46(11):83-85
介绍当代智能文本处理的主要技术核心,以向量空间模型为基础的检索算法,并利用中文字符集的特点,设计并实现了以单字为匹配向量的算法,在全部使用散列函数的基础上,获得了非常快的文本处理速度。  相似文献   

9.
<正> 增订版《汉语主题词表》款目主题词的编排规则是以汉字为单位注音并注明声调,克服了旧版中款目主题词编排的缺点,但对同音、同调而异形的汉字编排规则仍有需商榷之处。增订版《汉语主题词表》对同音同调而异形的汉字,是依据国家标准 GB2312—80信息交换用汉字编码字符集中的顺序排列。该字符集中,汉字的排列分二级,第一级汉字按汉语拼音字母顺序排列,同音字以笔形顺序横(一)、竖(丨)、撇(丿)、点(丶)、折(乙,包括乛、(?)、乚、等笔形  相似文献   

10.
针对韩文书目数据库建设中的机读目录格式、数据源、著录规则、编目软件、操作系统与字符集、书目数据库的检索等问题进行探讨。并结合山东大学威海分校图书馆韩文书目数据库建设的实践,给出具体的韩文图书书目数据格式示例。  相似文献   

11.
从DBF格式到ISO格式的转换   总被引:3,自引:0,他引:3  
介绍一种将DBF 格式书目数据转化到ISO 格式的通用方法。这种方法将DBF 文件的字段按照固定的对应关系, 转换成一种标准化软件可以接收的准ISO 格式, 并给出了实现的源程序。  相似文献   

12.
著录010字段需注意的几个问题   总被引:1,自引:0,他引:1  
论文对实际著录时010字段易出现的几种状况进行了归纳分析,针对CNMARC格式,对规范010字段进入了探讨。  相似文献   

13.
研究汉字构形理论“六书”的典籍汗牛充栋,其中象形字的研究相对比较成熟充分,但学界仍有省形、变形、增形、重形、附形等诸多歧说。各种解说或名同实异、或名异实同,互相交叉的各家学说使人对六书学理论产生疑惑。我们从说明象形字的构形原理出发,指出六书系统中的象形字具有具象构形与意象构形的区别。具象构形仅仅能满足“陈述”,意象构形才能实现“表达”。从分析汉字的语言性质和文化意义着眼,以联体象形的概念取代省、变、增、重、附的多种杂说,才能确认汉字象形构形法的实践价值和理论意义。  相似文献   

14.
研究汉字构形理论“六书”的典籍汗牛充栋,其中象形字的研究相对比较成熟充分,但学界仍有省形、变形、增形、重形、附形等诸多歧说。各种解说或名同实异、或名异实同,互相交叉的各家学说使人对六书学理论产生疑惑。我们从说明象形字的构形原理出发,指出六书系统中的象形字具有具象构形与意象构形的区别。具象构形仅仅能满足“陈述”,意象构形才能实现“表达”。从分析汉字的语言性质和文化意义着眼,以联体象形的概念取代省、变、增、重、附的多种杂说,才能确认汉字象形构形法的实践价值和理论意义。  相似文献   

15.
字串去重的快速算法研究   总被引:1,自引:1,他引:0  
陈桂林  王永成 《情报学报》2000,19(3):254-258
针对文本处理中的字串去重问题 ,本文提出了四种有效的快速算法 ,其平均时间复杂度为O(nlogn) ,空间复杂度为O(n)。其中利用首字hash方法的去重算法比直接利用快速排序算法具有更好的性能 ,其思想可用于改进快速排序算法。  相似文献   

16.
改进的中文字串多模式匹配算法   总被引:4,自引:0,他引:4  
针对中文字串匹配问题 ,提出了一种改进的多模式匹配算法。该算法采用新型组合状态自动机 ,解决了对大字符集语言构建字符完全Hash表时可能遇到的存储空间膨胀问题。此外 ,算法还充分利用中文大字符集语言的优势 ,将QS算法的思想融入到多模式匹配应用中 ,取得了良好的效果。实验结果显示 ,本算法明显优于DFSA算法 ,在平均情况下所花费时间仅为DFSA算法的 70 33%。  相似文献   

17.
图书馆面临多文种信息处理的要求。本文阐述了用维吾尔文计算机编目的必要性。分析了中/维文国内国际字符集标准和发展中的维吾尔文操作系统和维吾尔文机读目录的结构和特点。介绍了在ILA S5. 0 编目子系统上自建维吾尔文机读目录的经验。同时对图书馆建立维吾尔文献数据库提出了建议。  相似文献   

18.
论古籍书目数据库规范化   总被引:9,自引:0,他引:9  
论古籍书目数据库规范化●秦淑贞ABSTRACTTobuildabibliographicdatabaseforChineseancientbooksshouldinthefirstplacestandardizethebibliographicdat...  相似文献   

19.
单汉字标引方法的改进研究   总被引:2,自引:1,他引:1  
本文根据信息论中的交互信息,给出了相邻汉字相关度的测量方法,在此基础上提出了基于字串预分割的单汉字标引检索方法,对当前具有代表性的单汉字标引方法进行了改进研究。试验证明本文提出的方法具有较好的性能  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号