“全息字典”:古今汉字任你查

2019-05-20 光明日报  转载
收藏

摘要: 快捷、权势巨子、形象——精确查找一个难检字的相干信息再不用跑遍古籍阅览室,翻便“大部头”,只需轻点鼠标——登录汉字全息资源应用体系,点击现代通用字集,搜索要查找的字,不只可以或许或许显示其现代字形、字音、字义信息

快捷、权势巨子、形象——精确查找一个难检字的相干信息再不用跑遍古籍阅览室,翻便“大部头”,只需轻点鼠标——登录汉字全息资源应用体系,点击现代通用字集,搜索要查找的字,不只可以或许或许显示其现代字形、字音、字义信息,还可以或许或许查到该字从甲骨文、金文到篆书、楷书的历史字形演变过程,从《说文》《尔雅》《方言》《释名》不停到《康熙字典》等历代辞书对该字的释义,及其在一些常用古籍文献中被应用的环境。

日前,国度语委严重基础资源打造项目“通用汉字全息数据库打造”的标志性效果“汉字全息资源应用体系”正式启动上线。该项目旨在利用现代中文信息处理技术,构建一个具有多维关联相干、科学体系、高效适用的汉字全息数据库。

“不管是初学汉字的小门生,还是研究汉字的学者,体系都可以或许供给相应的帮助。”项目掌管人、北京师范大学传授王立军介绍,体系采纳的多层级字集设计情势,包含常用字集、现代通用字集、古籍印刷通用字集、全字符集等。常用字集可以或许称心中小学基础教育领域的一样平常必要;现代通用字集可以或许称心社会文化领域一样平常汉字应用者的必要;古籍印刷通用字集面向具有一定古汉语知识、阅读一样平常古籍文献的用户;全字符集则可以或许称心汉字研究的专业人士需要,为专业研究供给支撑。

借助资源库,给汉字家族绘家谱

作为一名古文字爱好者和研究者,张华的书桌上摆满了各种字典、对象书——查找一个字在分歧时期形、音、义的演变经常要翻阅多部“大部头”能力找到相对精确、权势巨子的谜底,而线上的一些汉字数据库很多又存在收录不全、权势巨子性差等诸多成就。如今,“汉字全息资源应用体系”的正式上线可能让他再不用犯难——借助资源库,“古今汉字任你查”已不再是空想。

本期上线的体系涵盖字符集4种,此中常用字集3500字,通用尺度字8105字,古籍印刷字16490字,全字符集81722字;另有辞书20种,古籍文献60种,历代字形图415675个。此中包含大批的图形信息资源和文本信息资源,分离来自古文字拓片、文字编、尺度字表、编码字符集、历代辞书、经典文献、中小学语文教材等,涵盖了古今各个时期文字的形、音、义、用、码五慷慨面的重要信息。

这一数据库,可以或许或许说是“海量”。如斯庞大的信息量,是如何做到互相对应、关联的呢?

如果说树立数据库是给汉字家族绘制一张家谱,那么树立关联则是搞清谱系、辈分等相干。“首先是汉字属性的分解。构建一个具有多角度相干的汉字适用数据库,必需以汉字的属性作为基本的依靠。”北京师范大学传授王宁指出,团队从20世纪90年月开端总结汉字的属性,除形、音、义之外,还增长码、用两个部分。码是汉字在计算机中的编码,用是汉字的应用,而且做了大批的属性细化研究,如许就有条件将笼统的汉字个别的资源库,改革为汉字的属性库,解决关联的多角度成就。

王宁解释:“其次是层次的树立,根据‘汉字效用递减率’,咱咱咱们将汉字分为常用-通用-适用-罕用-无用5个层。第一、二层次涵盖36000字,以外的字只存记忆,不做深度开拓,如许一方面可以或许或许在应用中扩大有用信息的应用度,另外一方面将渣滓信息、无用信息退出关联,不干扰有用信息的丛聚和调用。”

“再次便是中介的追求,咱咱咱们继承传统语言学的研究效果,以《说文解字》的9353个小篆及其重文为中介来关联。古文字的确切识读,绝大部分是从《说文》开端的,如许就包管了分歧形制、分歧字体、分歧时代汉字的最大限度关联。”王宁弥补道,恰是依靠《说文》小篆这些“中央家族成员”作联系,汉字家族内部分歧族群的谱系才得以绘制在一路。

相同古今,供给汉字精确属性信息

实现让通用尺度汉字相同古文字、繁体字,是该资源库的又一重要特征。据介绍,体系的主体字集是国度语委2013年颁布的《通用尺度汉字表》的8105个尺度汉字及其关联字形。《通用尺度汉字表》属于简化字体系,分为一级字表(即常用字表,3500字)、二级字表(3000字)、三级字表(1605字)。《通用尺度汉字表》作为数据库子库的B库,间接和A库(传承字、繁体字和隶定字)关联,进而与小篆等古文字(C库)关联,从而实现为了古今、简繁汉字的有用贯通。

如何包管对收录的每个汉字形、音、义解释的权势巨子性?

王立军介绍,体系的处理办法是:选取历代具有代表性的辞书,并抉择最优的版本作为搭建框架的基础素材,以此为基础建构数据之间的深度关联。抉择的辞书包含从《尔雅》《说文》《释名》《方言》《广韵》《集韵》《康熙字典》《汉语大字典》《新华字典》和《通用尺度汉字字典》等。在中方面,简化字的部首采纳2009年国度语委发布的《汉字部首表》,即201个主形部首和99个附形部首,非简化字采纳214部首体系,来源于《康熙字典》。简化字和繁体字的笔画数属性参考《通用尺度汉字字典》等。布局范例(六书)属性参考《说文解字》。字音方面,现代汉语拼音和注音字母重要参考《通用尺度汉字字典》和民国时期《国语辞典》等;近代音来源于《华夏音韵》;中古音来源于《广韵》。字义方面,常用义项来源于《通用尺度汉字字典》,并给出历代辞书的释义内容。

多种属性的综合呈现,可以或许或许加深人咱咱们对每个汉字的懂得。比如“既然”的“既”和“即使”的“即”,在应用过程中容易混淆,但参考小篆字形就不会了——“既”是一小我背对着饭桌,表示吃完了,这个字便是表示已经发生了;而“即”是一小我正对着饭桌,靠近它,还没吃饭,所以是表示行将停止的。了解了这一层面,懂得就加深了,也就很难出错了。

汉字不是一个个“孤零零”的符号,汉语文献正像躯体的血肉,丰富着汉字殿堂的内容。在每个字的“用例”一栏,体系选取具有代表性的传世文献作为古籍用例的来源,包含十三经、二十五史、二十二子等三大典籍体系,提取汉字在这些文献中的应用例句,供研究者参考应用。

多种检索,满意分歧用户必要

与查字典类似,便利检索也是体系的一大特征。为便利应用者更便捷地输入必要检索的字,体系供给了单字、拼音、部首、部件、笔画等五种可输入的检索办法,应用者可以或许根据自己的喜好和必要,选取得当自己的办法。除单字检索外,还可以或许称心综合检索、专书检索和历代字形检索。

“你看,‘典’字是两只手捧着书卷,这何等形象,对付文史研究者来说用于研究也太便利了,我如今就想拥有。”刚刚演示完动画,现场掌管人、北京师范大学文学院传授康震兴奋地说。

“资源库可作为文字和文化爱好者提高文化知识和综合素养的学习教,为传统文化爱好者供给权势巨子的学习内容;可以或许或许作为基础教育及汉语国际教育领域的教学教,为门生学习、教师备课供给丰富的教学资源,从而更好地效劳我国基础教育;可作为文字学及相干专业领域专家学者的科研教,为专家学者供给对数据资源停止深度发掘的对象,弥补传统手工获得资、联系资源办法的局限;可作为汉字类数字化产品的开拓教,为开拓者供给海量的颠末专业学术加工的靠得住汉字属性资。”王立军指出。

注:本站原创内容迎接转载,转载请注明出处。

相干文章

收藏

编辑推荐

每日推荐

每周热门

  1. 1《中国书画导报六年精选集》出版
  2. 2《2011-2016黄金亮师生作品集》入编约请函
  3. 3【中国美术新闻网专稿】中国现代文艺出版社出版《中国现代书画百杰》
  4. 4张可珂诗文摄影集《诗影同业》出版
  5. 5“朗读者计划”让书店春天永驻

艺术批评

收藏存眷

推荐资讯

对付咱咱咱们联系咱咱咱们版权说明广告报价羲之传媒专家参谋
返回顶部
友情链接:贵州省招生考试院  浙江金华教育网  中国肉鸡网  华人新闻信息网  绳艺小说  无忧无虑中学语文网  七叶植物网  广州美容在线学习网  聚生IT新闻网  中国教育资源网