举一个简单的例子来说明这个过程。
当一个多模态大语言模型仅仅只使用人类文明的数据进行训练时。
它会通过学习海量的文本、图像、和音频数据,逐渐理解到——
英文单词 dog、中文词语“狗”、一张毛茸茸的四足犬类生物的照片、以及一段汪汪叫的狗吠声……
所有这些看似形态各异的信息,其实都指向了其内部概念空间中的同一个核心“概念点”,也就是我们通常所理解的“狗”这个生物。
在这个高维的概念空间之中,这些不同形式的信息在数学层面上是彼此紧密关联,甚至可以说是等价的。
现在,如果将所有收集到的β星人文献资料也一并加入到训练数据集中。
并假设在这些外星文献的某一条数据之中,恰好包含了一个外星语中用于指代“狗”这种生物的特殊符号或声音。
我们暂时用“xxx”来表示它。
与此同时,这条数据还非常贴心地附带了一张与地球上的狗在外观形态上极其相似的外星生物的图片。
那么,当大语言模型在处理这条全新的外星数据时,它会首先识别出图片中的那个生物。
由于这个外星生物的形态特征与它在之前学习人类数据时所形成的关于“狗”这个生物的内部概念模型高度重合。
模型便会很自然地将这个外星语词汇 xxx 也一并链接到其概念空间中代表“狗”的那个核心概念点之上。
喜欢群星:舰与灵能的太空歌剧物语请大家收藏:(m.zjsw.org)群星:舰与灵能的太空歌剧物语爪机书屋更新速度全网最快。