十月底的一个雨天,叶昀收到了一封来自国家古籍保护中心的邮件。邮件标题很简洁:“古文字智能识别系统项目合作邀请”。正文内容详细阐述了项目的目标和需求——利用人工智能技术,开发一套能够自动识别、分类、标注古代手写文字的辅助系统。
邮件的最后一段写道:“经孙文修教授推荐,我们了解到您具备深厚的数据分析和机器学习背景,同时您的团队成员林久久女士在古籍修复和古文字辨识方面有丰富经验。我们诚挚邀请二位共同参与本项目,共同探索科技与人文的跨界融合。”
叶昀看完邮件,手指在键盘上停留了几秒。他调出项目资料,快速浏览技术方案、时间节点和预期成果。这是一个典型的跨学科项目,技术难度不低,但很有意义——如果成功,能大幅提升古籍数字化整理的效率。
他保存了邮件,走到公共休息区。落地窗外秋雨绵绵,久久正窝在沙发一角,膝盖上摊着一本厚重的《甲骨文字形汇编》,手里拿着放大镜,仔细比对两页上的细微差异。
“久久,”叶昀在她对面坐下,“有个项目邀请,需要你的专业协助。”
久久抬起头,放下放大镜:“什么项目?”
叶昀把平板电脑推过去,屏幕上显示着那封邮件和项目概要。久久接过来,认真读着,眉头随着阅读逐渐蹙起,又渐渐舒展。
“人工智能识别古文字……”她喃喃道,“这个想法很有意思。但现在手写识别技术,对印刷体还好,对古文字尤其是手写变体,准确率不高吧?”
“现有模型的准确率大约在65%到75%之间,”叶昀调出几份技术报告,“主要难点在于:第一,古文字字形变化多端;第二,同一字在不同时期、不同书写者笔下有差异;第三,纸张老化、墨迹褪色、破损等因素干扰识别。”
他顿了顿,继续道:“项目组希望我们能将准确率提升到85%以上。这需要大量高质量的训练数据,以及专业的校验和标注。”
久久的手指轻轻划过屏幕上那些古代文献的扫描图。那些泛黄的纸张、深浅不一的墨迹、或工整或潦草的字迹,都是她工作中最熟悉的东西。
“你需要我做什么?”她问。
“三件事,”叶昀推了推眼镜,这是他一贯的条理性,“第一,提供古文字分类和演变的基础知识框架;第二,协助标注训练数据集,确保标注的准确性;第三,作为‘人类专家’校验模型的输出结果,反馈错误类型。”
他调出一个图表:“按照计划,第一阶段是数据准备,需要标注至少十万个古文字样本。这需要大量时间,但我们可以分阶段进行。”
久久看着那些密密麻麻的计划表,心里有些犹豫。她手头还有自己的修复项目,而且对人工智能领域完全陌生。
“我对技术不懂……”她实话实说。
“你不需要懂技术,”叶昀说,“你只需要做你最擅长的事——识别古文字,判断异同,提供专业的分类依据。技术部分我来负责。”
这时,顾璟从楼上下来,看到两人严肃讨论的样子,走过来问:“有新项目?”
叶昀简单介绍了情况。顾璟听完,看向久久:“你的时间安排得开吗?”
“下个月要完成《花月笺》的修复收尾工作,”久久计算着,“但如果合理安排,每天应该能抽出两到三个小时。”
“那就接,”顾璟点头,“这对你和团队都是很好的机会。而且,”他看向叶昀,“这个项目如果成功,影响力会很大。”
叶昀难得地露出一丝笑意:“我也这么认为。”
项目就这样定下来了。三天后,叶昀和久久参加了线上的项目启动会。会议室屏幕上,来自古籍保护中心、高校计算机系、人工智能企业的十几位专家齐聚。主持人是古籍保护中心的副主任李教授,一位头发花白但精神矍铄的老先生。
“欢迎各位,”李教授开门见山,“古文字智能识别这个课题,我们探索了三年,始终卡在准确率这个瓶颈上。这次邀请叶昀老师和林久久老师加入,就是希望能在技术和专业的结合上有所突破。”
他展示了现有的识别系统演示——上传一张古籍扫描图,系统会自动框选出文字区域,进行识别并给出候选字。测试用的是一页明代医书,系统识别出了大约70%的字,但剩下的30%要么识别错误,要么直接标注“无法识别”。
“错误主要集中在这些地方,”李教授圈出几个区域,“字形特殊的异体字、笔画粘连的连笔字、墨迹晕染的模糊字、纸张破损处的残缺字。这些都是手写古籍的常见问题,但恰恰是现有模型的薄弱环节。”
叶昀在笔记本上快速记录着。久久则盯着那些识别错误的字,轻声说:“这个‘药’字,明代医书中常写作这种草书变体,和标准楷书差别很大。系统可能没有见过足够多的样本。”
本小章还未完,请点击下一页继续阅读后面精彩内容!
喜欢星星落在肩膀上请大家收藏:(m.zjsw.org)星星落在肩膀上爪机书屋更新速度全网最快。