(央视财经(jīng)《天(tiān)下财经》)在日本,古代文献大量使用了草书和行书这样的(de)手写体来书写日语假名(míng)和(hé)汉字,要看懂不容(róng)易。而AI技(jì)术,也就是人工智能系统的开(kāi)发能够帮助人们快速(sù)识(shí)读。
包括(kuò)手抄本和印刷本(běn)在内,日本流传至(zhì)今(jīn)的古代手写体文献据估算达到(dào)数(shù)亿件,但由于能(néng)够看懂手(shǒu)写体的专业人才极(jí)为有限,所以(yǐ)导(dǎo)致大量史料尚未(wèi)完(wán)成识读整理工作(zuò)。最近,日本信息系统研究机(jī)构的一个(gè)研究小(xiǎo)组开(kāi)发了一套人工智能系统,通过事先(xiān)学(xué)习(xí)已(yǐ)由(yóu)专家整(zhěng)理完成的44部文献,共计100万字的手写(xiě)体写(xiě)法,目前该(gāi)系统已基本(běn)实现了准确高(gāo)效地识读古代文献。
财(cái)经(jīng)频道(dào)特约记者王(wáng)翔:我们已经把日本古典文学名(míng)著(zhe)《源氏物语》扫(sǎo)描进了电脑,只需要按一下按钮,马上就会在屏幕上看(kàn)到(dào)人(rén)工智能解读的结果。像这样一页手写体文献,如果由人来完成的话,即便(biàn)是最熟练的专家也需要10分钟以上,不过人工智(zhì)能只花了不(bú)到3秒钟时间。
该研究小组共有3名成员,其中(zhōng)一名是来自泰国的(de)塔琳 卡努瓦。11年前,塔琳来东京(jīng)留学攻读日本(běn)古(gǔ)典文学,经(jīng)常(cháng)需要阅读原(yuán)始(shǐ)文献(xiàn)。连(lián)日本(běn)学生都难以辨识的古代手写体文字,对(duì)一名来自(zì)汉字文化圈以外的留学生来(lái)说(shuō),无异于天(tiān)书(shū)。这样的(de)经(jīng)历促使塔(tǎ)琳一(yī)同加入了这个研究小组,用半年时(shí)间开发了这(zhè)套能够(gòu)自(zì)动识(shí)别手(shǒu)写体文献的人工智能系统。
日本信息系统研究机构研(yán)究员塔琳 卡努瓦:这套系(xì)统基本覆盖了常用汉字,可以给(gěi)日本文(wén)学(xué)研(yán)究者提供方便。
据(jù)研(yán)究小组负责(zé)人介(jiè)绍,这套(tào)系统识(shí)别(bié)手写(xiě)体(tǐ)文字(zì)的准确(què)率已经(jīng)达到90%以上,研究小组今后将继续扩大(dà)供人工智能系统用于(yú)学习(xí)的(de)数(shù)据库范(fàn)围,并改进程序(xù)算法,来进(jìn)一(yī)步提高系统识别文字的准确率。
日本信(xìn)息(xī)系统研究机构项目(mù)负责人北本朝展(zhǎn):这(zhè)套系统也适(shì)用(yòng)于汉语(yǔ)文(wén)献(xiàn),部分文字的手写体样本(běn)太少,增加样本数量(liàng)是今后改(gǎi)善的重点。