番外39章叶昀的“人工智能”项目_星星落在肩膀上_满山遍野的雾冰

“正是如此，”李教授点头，“林老师说到点子上了。我们缺的不是技术，是足够丰富、足够专业的训练数据。而这，需要像您这样的专家来指导和校验。”

会议确定了分工：叶昀负责算法模型的优化和系统架构，其他技术团队提供支持；久久负责提供专业知识、标注数据、校验结果；双方每周同步进展，每月进行一次综合评估。

会议结束后，叶昀建立了一个专门的项目协作平台，设置了数据标注、模型训练、结果校验等不同模块。久久的账号权限很高，可以查看所有环节，但她的主要工作区在“数据标注”和“专家校验”两个板块。

“第一阶段，我们需要标注一千页古籍扫描图，”叶昀在团队内部简单通报了情况，“每页平均一百字，总计十万字左右。标注内容包括：文字区域框选、单字切分、字形分类、字义标注、书写风格评估。”

夏飞听完咋舌：“十万字！这要标到什么时候？”

“如果久久一个人做，可能需要半年，”叶昀推了推眼镜，“所以我们开发了辅助标注工具。久久只需要标注其中一部分作为‘种子数据’，模型会学习她的标注习惯，自动完成剩余部分。然后久久再校验自动标注的结果，纠正错误。这样迭代进行，效率会高很多。”

这个方案听起来合理。久久问：“我需要从什么时候开始？”

“明天，”叶昀说，“我先带你熟悉标注平台。”

第二天上午，叶昀在久久的电脑上安装了标注平台客户端。界面很简洁，左侧是古籍扫描图，右侧是标注工具和分类选项。

“我们先从简单的开始，”叶昀选了一页保存完好的宋代刻本，“这是印刷体，字形规整，破损少。你试试框选文字区域。”

久久用鼠标在页面上画了一个矩形，框住一行文字。系统自动识别出了这行字里的每个单字，用虚线框标出。

“现在，点击每个单字框，选择正确的字，”叶昀指导，“如果系统给的候选字里有正确的，直接选；如果没有，手动输入。”

第一个字是“天”，系统给出了三个候选：“天”“夫”“无”。久久点击“天”，系统记录下这个选择，并显示“标注正确，置信度0.95”。

第二个字是“地”，系统只给出了“地”一个候选，置信度0.98。久久点击确认。

第三个字出了问题。字形看起来像“玄”，但系统给出的候选是“畜”“兹”“率”，没有“玄”。久久手动输入“玄”，系统弹出一个提示：“该字形与标准‘玄’字差异较大，是否确认？”

久久放大图像仔细看。确实，这个“玄”字的写法很特别，最后一笔拉得很长，看起来有点像“畜”。但她根据上下文判断，应该是“玄”——这一句是“天地玄黄”，出自《千字文》。

“确认。”她点击。

系统记录下这个标注，并在旁边备注：“专家修正，原候选无匹配”。

一页标注下来，花了十五分钟。久久标注了八十七个字，其中七十个系统识别正确，十个候选中有正确项，七个需要手动修正。

“准确率80.5%，”叶昀看着后台数据，“对于印刷体来说，这个基础模型的表现尚可。但我们需要把它提升到95%以上，而且还要处理手写体。”

下午，他们开始尝试手写古籍的标注。这次选的是一页明代文人手札，行草书，字迹潇洒但不易辨认。

情况立刻变得复杂。系统对很多字完全无法识别，候选列表空空如也。久久需要逐个手动输入。有些字连笔严重，她得仔细分辨笔画走向；有些字墨迹晕染，要结合上下文推测；还有些字用了异体写法，得翻查工具书确认。

一页手札，标注了整整四十分钟。

“累吗？”叶昀问。

“有点，”久久揉了揉眼睛，“但挺有意思的。感觉像在教一个特别聪明的孩子认字——它认得一些，但很多需要从头教。”

这个比喻让叶昀若有所思。他调出刚才标注的数据，开始分析错误类型：“你看，系统出错的地方有规律——连笔字、异体字、破损字。我们需要针对这些难点，收集更多样本，设计专门的识别策略。”

接下来的一周，久久每天抽出两小时进行标注工作。她渐渐掌握了技巧，速度也快了起来。更重要的是，她开始理解人工智能的“学习方式”——它不是真的“理解”文字，而是通过大量样本，统计出字形和字义的对应关系。

“所以教它认字，和教人认字不一样，”一次标注间隙，她对叶昀说，“人看到一个陌生的字，会拆解笔画、分析结构、联想已知的字。但AI是看这个字的‘样子’和哪些字的‘样子’最像。”

“准确地说，是计算图像特征的相似度，”叶昀解释，“所以我们需要给它看足够多的‘样子’，包括同一个字的不同写法。你标注时，如果遇到异体字，记得在备注里说明这是哪种异体，出自哪个时期、哪种文献风格。这些元数据对模型学习很重要。”

这章没有结束，请点击下一页继续阅读！

喜欢星星落在肩膀上请大家收藏：(m.zjsw.org)星星落在肩膀上爪机书屋更新速度全网最快。

番外39章 叶昀的“人工智能”项目