第十届全国语言文字应用学术研讨会论文集
上QQ阅读APP看书,第一时间看更新

四 规范化与信息化研究的新进展

近年来,在中国残联、国家语委和国家社科基金的支持下,汉语盲文规范化与信息化的基础研究、应用研究均取得了显著进步,主要表现在以下三个方面。

1.制定并试行《国家通用盲文方案》

为在保持盲文方案稳定的基础上,全面提高盲文表音的准确性,2011年,国家语委、中国残联设立了“国家通用盲文标准修订”重大课题项目,研究基于现行盲文方案解决盲文标调问题。2015年12月,项目形成《国家通用盲文方案(试行)》并通过结项鉴定,于2017年通过国家语委标审委审定,将以语言文字规范的形式公布实施。

《国家通用盲文方案》是在现行盲文方案的基础上制定的。现行盲文标调较为随意,声调符号大量省略,客观上造成了盲人摸读时需要依据上下文猜测准确读音的问题,也显著增加了计算机自动处理盲文的难度,难以适应新时期盲人文化教育和盲文信息化的需要。为使盲人能够用盲文规范、准确地书写国家通用语言,《国家通用盲文方案》在保持盲文稳定,沿用现行盲文的声母、韵母、声调、标点等符号的基础上,提出了先对全部音节标调,再对声调符号进行按规则省写的规范,在不明显增加盲文篇幅的同时,可以基本消除盲人摸读盲文时需要猜测读音的障碍,对盲文信息化、盲人信息无障碍也可起到极大促进作用。

《国家通用盲文方案》的制定采用了五个原则。第一是稳定原则,尽可能保持盲文稳定,沿用现行盲文的声母、韵母、声调、标点等符号。第二是准确原则,要能够准确书写国家通用语言。第三是节省原则,通过省写和简写尽量减少盲文篇幅。第四是易学原则,要做到简明,易于学习。第五是利于信息化原则,要有利于提高盲文信息处理的准确率和效率,利于盲文信息化。

《国家通用盲文方案》最重要的两项核心内容是拼写规则和声调省略规则。拼写规则的主要内容是:(1)音节通常由声母、韵母、声调构成,依次拼写;(2)音节zhi、chi、shi、ri、zi、ci、si省略韵母i,声母自成音节;(3)韵母可自成音节。声调省略规则在拼写规则的基础上制定,主要内容有:(1)声母为f的音节,省写阴平符号;(2)声母为p、m、t、n、h、q、ch、r、c的音节,省写阳平符号;(3)声母为b、d、l、g、k、j、x、zh、sh、z、s的音节,省写去声符号。为区分韵母e和o,方案规定音节ō、ó、ǒ、ò的声调符号省写,音节ē、é、ě、è的声调符号不省写。为提升准确性,方案还规定需要声调符号提供点位参照或者区分音义时不应省写。

《国家通用盲文方案》将“读音准确”和“有利于信息化”列为研制盲文的重要原则。这一方案通过明确声调省略规则,使得大部分情况下不带调盲文音节的声调可恢复,极大改善了原来“需要时标调”带来的混淆,便于计算机执行,大大降低了盲汉翻译的难度,为计算机准确朗读盲文文本提供了可能。

2.建设大规模汉语盲文语料库

语料库已经成为语言研究、语言信息处理不可或缺的基础性资源。汉语盲文是我国盲人使用的文字,其使用情况、出版流通情况呈现明显不同于汉语明眼文的特点。汉语盲文研究应当更多建立在盲文真实语料之上,为保证研究所用语料符合语言事实,汉语盲文语料库建设具有必要性。大规模盲文语料库的建设能够帮助我们了解汉语盲文的全貌,促进盲文基础研究和应用研究,特别是盲文信息化相关研究。2013年,在国家社科基金重大项目“汉语盲文语料库建设研究”支持下,大规模汉语盲文语料库建设提上了日程。

盲文语料库是一种有鲜明特色的专用型汉语语料库。相对于浩如烟海的汉语文本,由于盲文出版专业性强,只面向特定的群体,盲文语言材料的种类和数量都比较有限。正式的书面语料集中在中国盲文出版社出版的以医药、文学、法律、历史、教材等为主要类别的盲文读物上。盲文鲜活语料则以盲人书写的日记、书信、试卷等为主,多缺乏电子化,难以直接利用。在语料选择方式上,盲文语料库以正式盲文出版物为主体,也选取少量非正式出版物。盲文语料库选材以1953年正式颁布实施“新盲字方案”(现行盲文)以来所有的盲文语料为总体,主要由从正式出版的盲文出版物、特殊教育学校使用的盲文试卷中采集的语言数据构建而成。

目前,汉语盲文语料库已经取得了阶段性成果,采集、标注了大量汉语现行盲文语料。这些语料在《国家通用盲文方案》制定和盲文信息化软件研制过程中起到了不可替代的作用。

3.研制通用盲文翻译软件

汉盲自动翻译的任务是将一段汉语文本经过分词连写、字音标注和明盲字符转换等过程改变为其盲文形态,盲汉翻译是其反过程。

随着《国家通用盲文方案》的发布试行,盲文信息处理软件需要跟上步伐,助力标准推广,推进盲文信息化。2016年,中国残疾人联合会根据“国家手语盲文规范化行动计划”的任务要求,提出立项研制通用盲文翻译软件。

一般来说,通过计算机程序实现从汉字到盲文的翻译转换,首先应将汉语进行分词连写,然后标注字词拼音,再由拼音转写成盲文符号。通用盲文翻译软件对这一过程进行了优化,提出了通过“词化”“拼音化”“点字化”三个步骤实现汉盲转换的策略,使得汉盲翻译的实现过程更为清晰、系统。

通用盲文翻译软件研制工作已经在以下四个方面取得了阶段性成果。

第一是实现符合盲文标准的自动分词。依托大规模盲文语料库和现代汉语语料库,采用统计和规则相结合的方法进行盲文自动分词研究,基础词汇切分采用以统计为主的方法,连写词的生成主要采用规则的方法,研制了盲文自动分词准确率和召回率更高的分词模块。

第二是实现面向汉盲翻译的字音自动标注。汉盲转换时,分词连写出现错误,盲人尚可读懂,若字音标注错误,则盲文形式必定错误,盲人就难以读懂了。因此,实现汉盲自动翻译,字音标注是最重要的步骤之一。字音转换的难点主要有两个,一是高频多音词的拼音标注问题,二是人名、地名、机构名等专有名词中的多音字读音辨识问题。这两个难点需要采用不同的处理策略,高频多音词主要采取概率方法进行识别,专有名词中的多音字主要采用规则方法进行识别。通用盲文翻译软件对字音进行自动标注的准确率高于99.5%。

第三是实现符合通用盲文标准的字符点字化。汉语原文经过符合盲文规则的分词连写,经过汉语拼音标注,即可以词为单位将汉语拼音和其他字符“点字化”,转换为用于盲人摸读的触觉文字。将汉语拼音音节转换成盲文点字,主要采用规则方法,通过建立各种盲文符号与拼音音节的对照表进行转换。通用盲文翻译软件可以做到在汉字注音无错误的情况下将全部字符准确转换为盲文点字。

第四是通过人机界面设计降低盲文编校难度。盲文翻译软件提供了一个用于盲文编校的可视化人机交互界面,可以根据通用盲文标准,将汉语文本翻译成以词为单位的“盲文—汉语拼音—汉字”三行对照的文本。通过突出汉语拼音的中介作用,显著降低了盲文编校的难度,使不熟悉盲文的人也可完成汉盲翻译转换的大部分工作,既有助于通用盲文的推广,又有助于盲人的融合教育。