“正是如此,”李教授点头,“林老师说到点子上了。我们缺的不是技术,是足够丰富、足够专业的训练数据。而这,需要像您这样的专家来指导和校验。”
会议确定了分工:叶昀负责算法模型的优化和系统架构,其他技术团队提供支持;久久负责提供专业知识、标注数据、校验结果;双方每周同步进展,每月进行一次综合评估。
会议结束后,叶昀建立了一个专门的项目协作平台,设置了数据标注、模型训练、结果校验等不同模块。久久的账号权限很高,可以查看所有环节,但她的主要工作区在“数据标注”和“专家校验”两个板块。
“第一阶段,我们需要标注一千页古籍扫描图,”叶昀在团队内部简单通报了情况,“每页平均一百字,总计十万字左右。标注内容包括:文字区域框选、单字切分、字形分类、字义标注、书写风格评估。”
夏飞听完咋舌:“十万字!这要标到什么时候?”
“如果久久一个人做,可能需要半年,”叶昀推了推眼镜,“所以我们开发了辅助标注工具。久久只需要标注其中一部分作为‘种子数据’,模型会学习她的标注习惯,自动完成剩余部分。然后久久再校验自动标注的结果,纠正错误。这样迭代进行,效率会高很多。”
这个方案听起来合理。久久问:“我需要从什么时候开始?”
“明天,”叶昀说,“我先带你熟悉标注平台。”
第二天上午,叶昀在久久的电脑上安装了标注平台客户端。界面很简洁,左侧是古籍扫描图,右侧是标注工具和分类选项。
“我们先从简单的开始,”叶昀选了一页保存完好的宋代刻本,“这是印刷体,字形规整,破损少。你试试框选文字区域。”
久久用鼠标在页面上画了一个矩形,框住一行文字。系统自动识别出了这行字里的每个单字,用虚线框标出。
“现在,点击每个单字框,选择正确的字,”叶昀指导,“如果系统给的候选字里有正确的,直接选;如果没有,手动输入。”
第一个字是“天”,系统给出了三个候选:“天”“夫”“无”。久久点击“天”,系统记录下这个选择,并显示“标注正确,置信度0.95”。
第二个字是“地”,系统只给出了“地”一个候选,置信度0.98。久久点击确认。
第三个字出了问题。字形看起来像“玄”,但系统给出的候选是“畜”“兹”“率”,没有“玄”。久久手动输入“玄”,系统弹出一个提示:“该字形与标准‘玄’字差异较大,是否确认?”
久久放大图像仔细看。确实,这个“玄”字的写法很特别,最后一笔拉得很长,看起来有点像“畜”。但她根据上下文判断,应该是“玄”——这一句是“天地玄黄”,出自《千字文》。
“确认。”她点击。
系统记录下这个标注,并在旁边备注:“专家修正,原候选无匹配”。
一页标注下来,花了十五分钟。久久标注了八十七个字,其中七十个系统识别正确,十个候选中有正确项,七个需要手动修正。
“准确率80.5%,”叶昀看着后台数据,“对于印刷体来说,这个基础模型的表现尚可。但我们需要把它提升到95%以上,而且还要处理手写体。”
下午,他们开始尝试手写古籍的标注。这次选的是一页明代文人手札,行草书,字迹潇洒但不易辨认。
情况立刻变得复杂。系统对很多字完全无法识别,候选列表空空如也。久久需要逐个手动输入。有些字连笔严重,她得仔细分辨笔画走向;有些字墨迹晕染,要结合上下文推测;还有些字用了异体写法,得翻查工具书确认。
一页手札,标注了整整四十分钟。
“累吗?”叶昀问。
“有点,”久久揉了揉眼睛,“但挺有意思的。感觉像在教一个特别聪明的孩子认字——它认得一些,但很多需要从头教。”
这个比喻让叶昀若有所思。他调出刚才标注的数据,开始分析错误类型:“你看,系统出错的地方有规律——连笔字、异体字、破损字。我们需要针对这些难点,收集更多样本,设计专门的识别策略。”
接下来的一周,久久每天抽出两小时进行标注工作。她渐渐掌握了技巧,速度也快了起来。更重要的是,她开始理解人工智能的“学习方式”——它不是真的“理解”文字,而是通过大量样本,统计出字形和字义的对应关系。
“所以教它认字,和教人认字不一样,”一次标注间隙,她对叶昀说,“人看到一个陌生的字,会拆解笔画、分析结构、联想已知的字。但AI是看这个字的‘样子’和哪些字的‘样子’最像。”
“准确地说,是计算图像特征的相似度,”叶昀解释,“所以我们需要给它看足够多的‘样子’,包括同一个字的不同写法。你标注时,如果遇到异体字,记得在备注里说明这是哪种异体,出自哪个时期、哪种文献风格。这些元数据对模型学习很重要。”
这章没有结束,请点击下一页继续阅读!
喜欢星星落在肩膀上请大家收藏:(m.zjsw.org)星星落在肩膀上爪机书屋更新速度全网最快。