文章目录
- 一、写在前面
- 古彝文为何物?
- 古彝文的保护背景
- 二、古彝文识别有何难点?如何解决?
- 三、合合信息的强劲技术
- 四、古文识别的重要意义
一、写在前面
古彝文为何物?
彝文指的是云南、贵州、四川等地的彝族人使用的文字,又叫“爨文”“韪书”。其造字、使用方法在不同的区域之间表现出明显的差异。明清两代不少书里说,这种文字“字如蝌蚪”“字母一千八百四十”。
区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。
对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。
古彝文的保护背景
随着现代科技的发展和社会变迁,古彝文的使用逐渐减少,面临着被遗忘和失传的危险。古籍是我们文化遗产的重要组成部分,而彝族文化作为中国的民族文化之一,更是需要得到保护和传承。
然而,由于古彝文的特殊性,传统的数字化方法并不适用,因此需要借助智能文字识别技术来实现古彝文的图像识别和数字化校对。
2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,旨在完成以国家珍贵古籍《西南彝志》为中心的“贵州古彝文图像识别及数字化校对项目”。双方将不断探索用智能文字识别技术赋能海量古彝文原籍数字化的道路,这一工作在民族传统文化日渐濒危的当下有着独特的意义。
这样的合作将为古彝文的数字化和保护提供重要的支持,有助于推动古彝文研究的发展,促进彝族文化的传承和发展。同时,也为其他类似的古籍识别项目提供了宝贵的经验和借鉴。
二、古彝文识别有何难点?如何解决?
- 古籍书籍样本多样性,AI识别难度较大
首先,古彝文原籍并不容易获得,并且古彝文的书写形式可能因时代、地区、个人等因素而有所不同,导致古彝文的字形、结构和用法存在很大的变化和差异,这使得古彝文的识别难度相对较大。
我们需要对古彝文的特殊结构进行深入理解和分析,并进行大量针对性的算法优化和技术改进,以适应古籍样本的多样性和特殊性。
- 传统古籍问卷存在水迹、残旧、破损等情况
受高温潮湿环境等因素的影响,古彝文典籍的保存十分不易,拿到古籍后,页面如有残缺、粘滞,需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅,一些因年代久远出现脆化的纸片还需重新拼接。
通过AI智能高清滤镜技术可以去除水迹、降噪、修复破损的部分,并提高图像的清晰度和质量。即使传统古籍问卷存在痕迹和损坏,也能复原高清文档,为后续的识别工作提供更好的图像素材。
- 保存较好字迹规范的文件目前成功率较高,传统古籍仍存在样本数量不足,需要持续完善提升准确率
保存较好的古籍文件通常字迹清晰、纸质完好,相对易于识别。然而,传统古籍样本数量有限导致了识别系统的训练数据不足,可能会影响识别的准确率。
为提高准确率,还需要持续完善和增加古籍样本的数量,以便更好地训练和优化AI识别系统,实现对古彝文的准确识别和数字化,为古彝文的保护和传承做出贡献。
三、合合信息的强劲技术
事实上,目前大部分古籍识别项目主要集中在汉字印刷体和手写体的识别上。然而,在合合信息与上海大学的古彝文识别项目中,面临的挑战不仅包括汉文古籍所面临的问题,还有彝文古籍所特有的挑战。相比于汉文古籍,彝文古籍的识别难度要大得多,是汉文古籍的许多倍。
合合信息作为行业领先的智能文字识别技术提供商,以及上海大学古彝文研究员的丰富经验,将有助于应对这些挑战。
- 合合信息的智能文字识别技术在汉字识别方面取得了显著的成果,为古籍的数字化和保护提供了强大的支持。该技术可以针对彝文的特殊性进行优化和调整,以提高识别准确率和效率。
- 上海大学的古彝文研究员在古彝文领域拥有丰富的经验和专业知识,对彝文的语法、结构和特点有深入的理解。他们可以提供专业的语言和文化支持,确保识别结果的准确性和语义的准确传达。
智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。 智能文字识别技术融合了智能图像处理、光学字符识别、深度学习、自然语言处理等技术,可在多语言、多版式、褶皱、背景干扰等复杂场景下进行文字信息的识别分析与理解,通过大量的训练数据和神经网络模型,能够准确地识别和提取图像中的文字信息。
相比传统简单文字识别(OCR),合合信息的智能文字识别技术具备更多认知与理解能力,识别准确率高,且识别精度可随着数据的积累、算法模型的深度学习优化不断提升。可适应多语言、多版式、多样式等复杂场景,并可应用到多个商业化场景中并形成落地的产品或服务,例如票据分类、证照票据结构化、合同关键信息抽取、智能审核等。
其中,智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。
合合信息的智能文字识别技术借助深度学习和机器学习的方法,同时具备较快的实时性能,能够高效、准确地将图像中的文字转化为可编辑和可搜索的文本,甚至可以处理复杂的字体和手写文字,为各种应用场景提供了便利和效率。
近三年来,合合信息智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获15项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。
此外,合合信息旗下扫描全能王APP “智能高清”滤镜功能,也将加速古彝文项目研究进展:
扫描全能王APP采用先进的图像处理算法,能够对扫描的图像进行自动校正、去噪、增强等处理,提高图像质量和清晰度。
应用内置了强大的文字识别引擎,能够将扫描的图片中的文字内容进行准确识别,并转换为可编辑的文本格式。
原古籍图片:
扫描全能王智能高清滤镜功能处理及检测识别结果:
在过去的十年里,扫描全能王是最早将图像处理、OCR、深度学习等AI技术综合运用的APP之一,因为这款产品实现了在低资源、性能低的移动设备下高准确率、高效率、高稳定性的识别体验。未来还会更多地与前沿技术的结合,进入智能化的时代。
通过合作,合合信息与上海大学可以充分发挥各自的优势,共同应对古彝文识别项目中的挑战。
四、古文识别的重要意义
在2021世界人工智能大会上,合合信息就通过智能文字识别技术,让翻译甲骨文变成了一件“轻松有趣”的事情:
在次年的2022年世界人工智能大会上,合合信息又将智能文字识别技术应用到了一篇镌刻在西周青铜鼎面的的钟鼎文(金文)识别上,可谓难度更高。
我国已于2021年宣布实现全面小康,追求精神层面的富足是下一阶段的目标,对古彝文等古语言的保护是其中重要的一环。
这些技术对文物保护和文化传承意义重大。它们可以帮助研究人员更快速、准确地理解和解读古代文字,挖掘出更多珍贵的历史和文化信息,推动古代文明的研究和传承。
与此同时,这些问题的解决也有助于技术在各行业的应用向纵深拓展。依托于合合信息在智能文字识别领域十多年的深耕经验,相关技术已广泛落地各行业,为全球百余个国家和地区的亿级用户提供数字化服务。文章来源:https://www.uudwc.com/A/qREEJ/
文章来源地址https://www.uudwc.com/A/qREEJ/