cq9电子网址-新闻资讯

合合信息与高校联手攻克古彝文识别难关,发布首个古彝文根蒂编码数据库13岁风靡全美,拒绝迈克尔·杰克逊求婚,因美貌被称世界第八奇迹

根据《滇川黔桂彝文字集》,古彝文多达87046字,是记录少数民族历史沿革、管理制度、民风民俗的重要载体。通过研究古彝文字集竖立古彝文数据库,不仅能填补当前国内外研究的空白,也有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。

基于此,合合信息与华南理工大学团队共同成立了文档图像分析识别与理解联合实验室,联合上海大学社会学院,针对现有的《西南彝志》、云贵一带古彝文字符开展统一编码,共同解决数字化过程中的学术性、手艺性难点,并于近期发布了业内首个古彝文根蒂编码数据库(简称“数据库”)。

古彝文典籍编码、识别过程

古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,研究者要向持有经籍的布摩(彝族祭司)购买某本祖传书籍并非易事,遇到较为开明、愿意转让经籍的布摩,古彝文的研究才得以进行,这对于学术研究、文化保护而言无疑是幸运的。

但是,传统的古彝文大多来源于岩书、布书、竹简等,在潮湿的自然情况下难以完整保存,变得模糊或斑驳的页面即便被拍摄成图片也影响后续的内容识别。在收集语料收集过程中,研究团队采用了合合信息旗下扫描全能王的“智能高清滤镜”功能,高效解决古彝文图像电子化的问题。

基于合合信息AI手艺及智能扫描引擎,该产品的“智能高清滤镜”功能能够自动检测图像中存在的问题并判定图像的优化方式,实现模糊、阴影、屏幕纹等干扰因素一键全处理。例如在对污渍、残破彝文古籍的处理中,只需通过该功能轻轻一扫,即可获得一张清晰、平整的图片。

作为已在智能文字识别、智能图像处理领域进行了十几年深耕的企业,“智能高清滤镜”手艺也是合合信息手艺优势的典型代表:通过深度学习手艺,让AI代替人去“思考”,达成图像识别、检测、分析、处理的全链路闭环,最终为用户自动选择出处理方案。这也减轻了后续图片处理工作,缩短内容识别、编码的操作周期。

在对7万6千字符的样本进行训练后,团队成功竖立了包含上千个古彝文根蒂编码的数据库。“古彝文数据库的发布并非一个最终的研究效果,而是一项非常重要的根蒂性工作。”邵文苑表示,根蒂编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究,文化保护也需要全社会的参与。