会议预告 | “古籍智能”第四讲|智能时代的古籍OCR技术

第四讲|智能时代的古籍OCR技术
Fourth Symposium: OCR Technology in the Age of Artificial Intelligence

会议信息
时间:5月21日下午2:00-5:00 

腾讯会议号:680 965 346 

抖音直播号:BDDHLab

B站直播地址:https://live.bilibili.com/22241979

主持人:金连文(华南理工大学)王军(北京大学数字人文研究中心)

主讲人:刘成林(中国科学院自动化研究所)金连文(华南理工大学)刘永革(安阳师范学院)张弛宜(北京书同文公司)

筹办人:王军、李斌、李林芳、何燕

技术服务:李斌、王瑞、李佳纯、卢靖雅、张雨桐

承办单位:北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院

主办单位:北京大学数字人文研究中心、中国图象图形学学会、中国自动化学会

联合主办:中国古籍保护协会古籍智能专委会、中国图象图形学学会文档图像分析与识别专委会、中国自动化学会模式识别与机器智能专委会

指导单位:高等院校古籍整理研究工作委员会

特别支持:字节跳动公益

内容介绍

中华文明是历经数千年绵延至今、唯一未曾中断的文明体。作为中华文明的传承载体,收藏在海内外的数十万种古籍文献具有不可估量的历史文化价值。长期以来,古籍整理靠人力完成,高度依赖专家经验,成本高、效率低,进展缓慢。光学字符识别OCR(Optical Character Recognition)是对图片中所包含的文字图像自动识别并输出为字符编码的计算机技术,包括:版面分析、图像分割、文本检测、文字识别等技术过程。OCR是古籍数字化的核心技术,是实现古籍数据库检索、文本挖掘、知识发现以及网络传播的前提和基础。

古籍材料年代久远,所包含的文字量庞大、异体字众多、字形字体多变、版式多样、页面模糊,再加上缺乏充足的训练数据,这使得古籍的OCR远较常规的OCR任务具有挑战性。近年来,深度学习技术在这一领域的应用显著提升了古籍OCR的准确率,降低了应用门槛,极大地推动了古籍数字化的进程。

本次讲座我们荣幸地邀请到了古籍OCR领域的顶级专家:中国科学院自动化研究所副所长、模式识别国家重点实验室主任、中国科学院大学人工智能学院副院长刘成林老师,华南理工大学教授、中国图像图形学学会常务理事、文档图像分析与识别专委会主任金连文老师,以及安阳师范学院计算机与信息工程学院院长、甲骨文信息处理教育部重点实验室主任刘永革老师向大家全面介绍古籍OCR的技术流程和前沿进展。我们还邀请了在古籍OCR领域的业界翘楚书同文公司总裁张弛宜女士向大家介绍古籍OCR的业界实践。

本次讲座得到了中国图像图形学学会文档图像分析与识别专委会和中国自动化学会模式识别与机器智能专委会的鼎力相助,在此表示衷心感谢!

zh_CNChinese