【论文解读系列】DPD-BiReconstructor的神经网络架构

原标题：Semisupervised Neural Proto-Language Reconstruction

论文地址：https://arxiv.org/pdf/2406.05930

现有实现祖先语言（原语言）比较重建的工作通常需要完全监督。然而，如果历史重建模型只能用少量标记数据进行训练，那么它们才具有实际价值。我们提出了一个半监督历史重建任务，其中模型仅在少量标记数据（带有原形式的同源词集）和大量无标记数据（没有原形式的同源词集）上进行训练。我们提出了一个比较重建的神经网络架构（DPD-BiReconstructor），该架构结合了语言学家比较方法的一个基本见解：重建的词不仅应该可以从它们的子词重建，而且还应该可以确定性地转换回它们的子词。我们表明，这种架构能够利用无标记同源词集，在新的任务中优于强大的半监督基线。

1. 引言

19 世纪，欧洲语文学家做出了一个将改变人文科学方向的发现：他们发现语言以系统的方式变化，并且通过利用这些系统模式，即使这些语言的记录没有保存下来，也有可能以可重复的方式重建语言家族的祖先（原语言）。这种技术称为比较方法，为人类过去——其文化、其迁徙以及人群之间的遭遇——提供了一个前所未有的窗口。语音历史变化（“语音变化”）是规律性的假设，称为“规律性原则”或“新语法假设”，是比较方法（Campbell，2021 年）的基础。正如 19 世纪新语法学家赫尔曼·奥斯特霍夫和卡尔·布鲁格曼所说：“每一个语音变化，只要它是机械地进行的，就会在没有任何例外的法律范围内完成；也就是说，变化发生的方向对于语言社区的所有成员来说始终是相同的，除了方言分裂的情况，而且在相同条件下出现语音变化的所有单词都会无一例外地受到变化的影响。”（形态学研究在印欧语系领域的应用，布鲁格曼和奥斯特霍夫，1878 年，第 13 页，翻译并引用自 Szemerényi，1996 年）然而，比较方法对于人类来说具有挑战性。这在很大程度上是因为它涉及处理大量数据以及建模众多竞争模式之间的相互作用。人们必须平衡重建词与其后代（反义词）之间语音相似性的需求，以及能够使用单一组语音变化从重建词中确定性地推导出反义词的需求。这给认知带来了沉重的负担。因此，研究人员长期以来一直渴望以计算的方式实现比较方法。除了少数例外（He 等人，2023 年；Akavarapu 和 Bhattacharya，2023 年），近年来自动重建模型的尝试大多采用类似于用于机器翻译的神经网络序列到序列转换模型的形式，并在每个同源词集都与一个金标准重建配对的完全监督数据集上进行训练（Meloni 等人，2021 年；Chang 等人，2022 年；Fourrier，2022 年；Cui 等人，2022 年；Kim 等人，2023 年）。监督重建系统的发展使该领域对原语言（未经证实的祖先语言）重建的计算机建模方式有了深入了解。然而，在一个现实场景中，这些模型只有在重建中最困难的部分完成之后才变得可用（因为它们依赖于语言学家已经识别出数据中足够多的语音变化来重建相当一部分词汇）。如果计算比较重建模型可以在没有训练数据的情况下部署，或者如果只需要少量标记数据来启动比较过程，那么它们将最有用。我们引入了一个半监督原形式（重建的父词）重建任务，其中重建模型在训练时可以访问少量标记同源词集（单个父词的子词——反义词——的集合）和大量无标记同源词集，这反映了历史语言学家在重建原语言的早期阶段的情况。尽管与半监督机器翻译类似，但半监督重建公式意味着目标侧单语数据的缺失。大多数半监督机器翻译技术依赖于目标语言的单语数据，例如回译（Edunov 等人，2018 年；Sennrich 等人，2016 年）和预训练目标侧语言模型（Skorokhodov 等人，2018 年；Gülçehre 等人，2015 年）。相比之下，在这个任务中，模型只能访问同源词集（没有单语文本），这意味着问题的结构截然不同。在本文中，我们提出通过端到端多任务学习将比较方法纳入半监督重建模型。我们提出的模型名为 DPD-BiReconstructor，它通过在其预测重建的中间表示上进行反射预测来学习改进其重建。将反射预测损失传播到重建网络中，允许模型在无标记同源词集上进行训练。来自三个 Tangkhulic 语言的一个假设示例如表 1 所示。在这个示例中，“孙子”和“骨头”集中的语音信息不足以用独特的元音重建“笑”，因此子词到原词（D2P）模型通常会将这两个词重建为相同的。然而，具有反射预测的模型能够在原则上学习将像“笑”这样的词与像“胸部”这样的词区分开来。实验表明，DPD 是半监督重建的一种有吸引力的方法，并且 DPD 与现有半监督策略的组合在几乎所有情况下都显著优于基线策略。此外，分析表明，DPD 基础模型可以帮助改进监督重建。

2 方法

2.1 模型

我们提出了一种多任务重建策略，它学习从其重建中恢复反义词，有效地利用无标记同源词集。我们的模型由一个重建子网络（D2P，用于子词到原词）和一个反射预测子网络（P2D，用于原词到子词）组成，它们共享音素嵌入。在有标签的数据上，模型除了学习重建外，还从准确的重建到反义词中学习语音变化。在没有标签的原词的情况下，反射预测子网络充当弱监督，通过告知重建子网络是否可以从拟议的重建中推导出正确的反义词来告知重建子网络。这种工作流程直接反映了比较方法的约束，即重建必须产生原词，以便可以通过常规语音变化从它们中推导出反义词。我们将我们的训练策略及其架构实现称为子词到原词到子词双向重建器（DPD）。为了使 D2P 能够从 P2D 中学习，我们将 P2D 的梯度传播到 D2P 中。然而，简单地将 D2P 的标记预测输入到 P2D 中是不可行的，因为标记输出是不可微分的。相反，我们受到端到端语音理解系统（其中语义理解子网络接收来自语音识别子网络的文本转录的潜在表示）的启发，将重建输出表示为连续的潜在空间。特别是，D2P 的最后一层解码器输出通过一个可训练的密集网络连接到 P2D 的编码器，该网络称为桥梁网络（参见图 1）。

图1：将 D2P 的最终层解码器状态连接到 P2D 的编码器输入。对于标记数据，D2P 的原型预测 LD2P 和 P2D 从黄金原型 Lgold P2D 的反义词预测计算监督交叉熵 (CE)。在标记和未标记数据上，基于预测的原型的反义词预测损失（包括 CE 损失 LCE, pred P2D 和针对错误预测原型的 CRINGE 损失 LCR, pred P2D）传播到两个子网络。此外，还使用余弦相似度损失 LBRIDGE 来训练桥接网络。总损失是所有损失的加权求和，权重是可调的超参数。同一同源词组中的反义词被串联成一个序列（用分隔符分隔），并像 Meloni 等人 (2021) 和 Kim 等人 (2023) 一样嵌入到音素和语言嵌入中（对于 Transformer，还有额外的位置嵌入）。音素嵌入在 D2P 和 P2D 之间共享，而语言嵌入仅用于 D2P

没有简单的方法来转换用于训练 P2D 的金标准原词，以便它们与桥梁网络的输出潜在表示相匹配。为了鼓励 P2D 的一致输入表示，我们在桥梁网络的输出和 D2P 预测的实际音素嵌入之间添加了一个余弦相似度损失，有效地训练桥梁网络作为重建原词的替代嵌入。作为一个最终的训练目标，我们阻止 P2D 在给定的错误原词的情况下产生正确的反义词，以便 D2P 在产生错误的重建时能够获得更好的信息。这是通过 P2D 输出上的 CRINGE 损失实现的，该损失旨在惩罚负样本（Adolphs 等人，2022 年）。对于负样本，CRINGE 损失将每个负标记与估计的正标记（通过在模型的前 k 个预测中采样一个非负标记）进行对比，并将对比学习目标（交叉熵损失）应用于降低负标记的概率。当训练 P2D 子网络时，如果输入是错误的原词，则正确预测的反义词被视为负样本。DPD 策略没有指定 D2P 和 P2D 子网络的架构。在本文中，我们采用了现有的用于神经重建的编码器-解码器架构，包括基于 Meloni 等人（2021 年）的 GRU 子网络和基于 Kim 等人（2023 年）的 Transformer 子网络。

2.2 半监督策略

除了我们提出的 DPD 策略之外，一个简单的做法是丢弃无标签数据并执行监督训练。我们将这种仅使用监督训练的策略作为我们的第一个基线。为了与现有的半监督机器学习技术进行比较，我们实现了两种额外的策略：Bootstrapping 和 Π-model，分别代表代理标签和一致性正则化方法。Bootstrapping 通过将模型对无标签数据最自信的预测添加到训练集中作为伪标签来实现。在我们的 Bootstrapping 设置中，模型对无标签同源词集的最自信（即概率最高）的原形重建，经过最小置信度阈值筛选并限制每个epoch 的最高预测数量，从一定数量的 warmup epochs 开始，每个 epoch 的最后将它们作为伪标签添加到训练集中（附录 C 中有 Bootstrapping 超参数的详细信息）。Π-model 通过从同一个训练样本创建两个随机增强的输入，将这两个增强的输入都输入模型，并最小化两个输出之间的均方误差来优化模型的一致性（Laine and Aila, 2017）。对于连续输入，随机增强可以是简单的噪声。然而，对音素进行随机更改会违背原形重建寻找规律音变的目标。因此，我们实现了随机同源词集增强，通过随机排列反射的顺序和随机删除子语言来实现。请注意，上述一些策略可以组合使用：Bootstrapping 总是可以用于其他任何策略之上，而我们的 DPD 架构可以与 Π-model 合并成一个既执行反射预测又执行一致性正则化的模型（附录 O 中有详细信息）。总结：我们测试了以下 8 种策略：仅监督（SUPV）

Bootstrapping（BST）
Π-model（ΠM）
Π-model with Bootstrapping（ΠM-BST）
DPD-BiReconstructor（DPD）
DPD with Bootstrapping（DPD-BST）
DPD merged with Π-model（DPD-ΠM）
DPD-ΠM with Bootstrapping（DPD-ΠM-BST）

在 8 种策略中，我们将单一基线策略（SUPV、BST 和 ΠM）视为弱基线，将非 DPD 半监督技术的组合（ΠM-BST）视为强基线。结合 2 种编码器-解码器架构，GRU 和 Transformer，我们测试了 16 种策略-架构组合，我们通过架构前缀（GRU- 或 Trans-）后跟策略名称来标识它们。

2.3 实验

数据集：

我们测试了罗曼语和汉语两种语言，分别用 Meloni 等人 (2021) 的罗曼语数据集的语音版本 (Rom-phon) 表示拉丁语重建，以及 Chang 等人 (2022) 的 WikiHan 数据集表示中古汉语重建。我们通过从完全标记的训练集中隐藏随机子集来模拟半监督重建场景。我们将删除标签后保留的标签百分比称为标签设置。我们的主要兴趣是固定标签百分比时策略之间的重建性能差异。我们将标签百分比固定在 10%，这导致 WikiHan 和 Rom-phon 分别大约有 516 个和 870 个标记的同源词集。由于半监督数据集生成的随机性，我们在 WikiHan 和 Rom-phon 的每个随机生成的半监督训练集上重复实验四次，标记为组 1 到组 4。每种策略-架构组合在每个组中测试 10 次。然后，我们比较相同架构中策略的性能。

跨标签设置比较： 我们在具有 5%、10%、20% 和 30% 标签的数据集上测试所有策略，以研究标签设置与模型性能之间的关系。在这些标签设置下，WikiHan 和 Rom-phon 的标记同源词集数量分别从 181 到 1,084 和 304 到 1,821。随机为每个标签设置选择标签——尤其是在数据集已经很小的情况下——会改变标签中包含的学习信息，并可能引入噪声。为了减轻这种情况，我们强制执行单调子集选择约束：给定完整的训练标签集 L 和保留 pi% 标签的半监督标签集 Lpi ⊆ L，具有增加百分比（p1 ≤ p2）的半监督集 Lp1、Lp2 必须满足 Lp1 ⊆ Lp2（图 2）。我们在跨标签设置比较中使用的 10% 标记数据集对应于跨策略比较中的组 1（附录 B 中有详细信息）。

图2：创建具有不同标记设置的半监督数据集的单调约束图示。在一个假设的包含 100 个同源词组的数据集中，表示为一个 10 × 10 网格，阴影单元格表示具有关联标签（即黄金原型）的同源词组。“ ” 表示前一个子集中不存在的原型标签。注意，随着标签百分比的提高，没有任何标签会被移除。

超参数： 我们使用贝叶斯搜索在固定 10% 标记的半监督数据集上对所有 16 种策略-架构组合调整超参数。对于每种策略-架构组合，进行 100 次迭代，选择导致最佳验证音素编辑距离的超参数。附录 C 中有超参数的详细信息。评估指标：我们使用的评估指标直接来自监督重建文献，包括：token edit distance (TED)： 预测和目标之间插入、删除或替换操作的计数 (Levenshtein, 1966)token error rate (TER)： 长度归一化的 token edit distance (Cui et al., 2022)accuracy (ACC)： 准确率feature error rate (FER)： 通过 Pan-Phon 衡量的语音距离 (Mortensen et al., 2016)B-Cubed F Score (BCFS)： 预测和目标之间的结构相似度 (Amigó et al., 2009; List, 2019)

统计测试： 对于数据组、标签设置和架构的每个组合，我们使用 Wilcoxon 秩和检验 (Wilcoxon, 1992) 和 Bootstrap 测试来测试所有策略之间的性能差异。我们使用 α = 0.01 显著性阈值，并且如果两个测试都表明结果显著，则认为结果显著。

3 结果

跨策略比较。 表 2 显示了每种架构在四组 10% 标记数据集上所有策略-架构组合的性能。对于 WikiHan 上的两种架构，DPD-ΠM-BST 表现最好，并且在所有指标上显著优于所有基线。用 DPD 训练的 Transformer 在性能上与 DPD-ΠM-BST 类似，并且在大多数策略下都优于所有基线策略。用 DPD 训练的 GRU 与 ΠM-BST 性能相似，两者都优于大多数情况下的弱基线。在 Rom-phon 上，当用 DPD-ΠM-BST 训练时，Transformer 表现最好，而 GRU 当用 DPD-BST 训练时表现最好，两者在所有指标上都显著优于所有基线。有趣的是，虽然 Kim 等人 (2023) 发现监督 Transformer 模型在 Rom-phon 上优于 Meloni 等人 (2021) 的 GRU 模型，但在 WikiHan 上没有，但我们发现在 10% 标记的半监督重建设置中，Transformer 在 WikiHan 上优于 GRU，但在 Rom-phon 上没有，并且在大多数策略下也是如此。这似乎与 Kim 等人 (2023) 的假设相矛盾，即与 RNN 相比，Transformer 重建模型需要更多数据。与我们的假设一致的是，访问不同标签子集会影响学习结果，我们观察到数据组之间性能存在高度差异。图 6 和图 7 通过组可视化策略-架构组合的性能，揭示了大多数策略在某些数据集种子上表现更好的趋势。

变化标签设置的性能。尽管只使用 10% 的标签进行了调整，但 DPD 基于策略仍然可以推广到其他标签设置，并且在至少一种架构上在所有指标上优于强基线策略（附录 F 中有详细信息）。我们观察到性能与标签百分比之间的非线性缩放，并且注意到在较低百分比标签的情况下，策略之间性能的差异更大。例如，在 5% 的标签设置下，GRU-DPD-ΠM-BST 在 WikiHan 上的准确率几乎是 GRU-SUPV 的两倍。在 30% 的标签设置下，一些策略的准确率接近现有的完全监督重建模型，Trans-DPD-ΠM 比现有监督 GRU 模型落后 5.14 个百分点，GRU-DPD-BST 比现有监督 Transformer 模型落后 7.30 个百分点（附录 J 中有详细信息）。

表2：每种架构在 10% 标记的 WikiHan（顶部）和 Rom-phon（底部）上所有策略的性能，平均为四组（每组每个策略-架构组合 10 次）中所有运行的结果。粗体：相应架构和数据集的最佳策略；¨：在第一组中显著优于所有弱基线（SUPV、BST 和 ΠM），p < 0.01；∂：在第一组中显著优于 ΠM-BST 强基线和所有弱基线，p < 0.01；≠, Æ, Ø, ∑, ∏, π：对于第二、第三和第四组同样如此。

4 分析

图3：在最佳策略中随机选择的运行中，在正确和错误的原型预测训练期间验证（顶部）和训练（底部）的反义词重建精度。使用 3 的窗口大小进行滚动平均值以平滑数据。

DPD 训练。我们调查了 D2P 和 P2D 在训练过程中的相互作用。图 3 显示了从原型重建中间表示中重建的反义词在训练期间的训练和验证准确率轨迹。我们通过重复相同的运行但禁用 CRINGE 损失（相同的超参数和模型参数初始化）来执行 CRINGE 损失消融。在这两种情况下，正确的原型重建都会导致更准确的反义词预测，证实了我们的动机，即更好的反义词重建应该会促进更好的原型重建。CRINGE 损失似乎会导致早期迭代中给定错误重建的反义词准确率略低，尽管是以牺牲给定正确重建的略低反义词准确率为代价。在实践中，我们发现 CRINGE 损失权重是一个相对不重要的超参数。

表3：每个标记设置下第一组中具有最高反义词预测精度的策略-架构组合，以及参考监督（100% 标记）反义词预测精度。

反义词预测性能。虽然 DPD 架构是为反义词预测辅助重建而设计的，但我们观察到在某些情况下反义词性能良好。表 3 显示了当在黄金原型上评估时，P2D 子网络最准确的策略-架构组合。与重建相比，我们获得了半监督反义词预测性能，这些性能与监督性能非常接近，即使在标签百分比很小的情况下也是如此——这与假设原型到女儿方向的声音变化更容易建模是一致的。然而，值得注意的是，基于黄金原型的反义词预测性能取决于相应损失的权重。事实上，当在黄金原型上评估 P2D 子网络时，一些最好的 DPD 模型表现很差。我们得出结论，P2D 在训练过程中帮助 D2P 的能力并不取决于 P2D 在离散输入上的黄金原型上的性能。

图4：分层聚类揭示了从最佳 DPD 基于策略-架构组合（顶部）的最佳运行（在 10% 标记设置的组 1 中）和它们非 DPD 对应物的最佳运行（底部）中获得的两个选定子语言的学习到的音素组织

学习语音表示。受 Meloni 等人 (2021) 的启发，我们使用 sklearn 的 Ward 方差最小化算法 (Ward, 1963) 探测模型的学习嵌入，以寻找音素的层次组织。图 4 显示了在每组数据集中表现最好的模型（Rom-phon 上的 GRU-DPD-BST 和 WikiHan 上的 Trans-DPD-ΠM-BST）及其非 DPD 对应物（GRU-BST 和 Trans-ΠM-BST）中两个选定的女儿语言的结果。对于法语，用 DPD-BST 训练的音素嵌入揭示了一个清晰的元音和辅音之间的划分，类似于 Meloni 等人 (2021) 的监督重建模型。除了 [ø] 之外，鼻音元音被分组在一起。特征差异最小的特定音素对也放在一起，例如齿龈摩擦音 [s] 和 [z]、后齿龈摩擦音 [ʃ] 和 [ʒ]、以及舌根塞音 [k] 和 [g]，它们之间唯一的区别是清浊音。在用 BST 训练的嵌入中，一些但不是所有元音都被聚类在一起，并且姐妹组（即树中的直系亲属）的解释性较差，例如 [m] 和 [ɛ̃] 以及 [b] 和 [ә]。对于粤语，当我们用 DPD-ΠM-BST 训练时，我们看到一个类似模式，其中元音和辅音有更清晰的划分。此外，声调被 DPD-ΠM-BST 组织到同一个簇中，而 ΠM-BST 没有这样做。在附录 N 中，我们将我们的探测扩展到女儿语言中存在的所有音素集合，并发现上述观察结果推广到了单一语言之外的音素组织，Meloni 等人 (2021) 并没有将其视为其分析的一部分。我们从语音探测中得出结论，DPD 基于策略在捕捉音素的语言学意义表示方面做得更好。DPD 基于策略可能需要良好的语音表示才能在多个音素密集型任务上表现良好，这反过来又可以更好地告知原型重建。

无标签数据的消融。为了研究半监督策略的性能提升是否是因为它们有效地利用了无标签的同源词组，我们在 10% 标签设置下执行消融实验，但移除了所有无标签训练数据，从而有效地创建了一个小的监督训练集。我们发现，在没有无标签数据的情况下，ΠM、DPD 和 DPD-ΠM 有时可以比 SUPV 表现得更好，但几乎总是比使用无标签数据时或使用无标签数据结合 Bootstrapping 时表现得更差（见表 13 和表 14）。这似乎表明，ΠM、DPD 和 DPD-ΠM 可以有效地从标记数据和未标记数据中学习。在标记数据上，DPD 中 P2D 子网络仍然可以告知 D2P 子子网络，并且我们 Π-Model 实现中的随机数据增强可以增强标记训练示例。

在监督重建中的适用性。由于观察到半监督重建策略在小部分训练集上的监督重建是可行的（参见第 4.4 节），我们测试了它们是否可以将优势推广到在完整训练集上进行监督重建。表 15 将 ΠM、DPD 和 DPD-ΠM 的监督重建性能与现有的监督重建方法进行了比较，包括 Meloni 等人 (2021) 的 GRU 模型、Kim 等人 (2023) 的 Transformer 模型和 Lu 等人 (2024) 的最先进的重新排序重建系统。我们发现，使用正确的架构，ΠM、DPD 和 DPD-ΠM 通常可以优于 SUPV。平均而言，Trans-DPD-ΠM 在 WikiHan 上对所有指标的性能都最好，而 GRU-DPD 在 Rom-phon 上对所有指标（除了 FER）的性能都最好。在 WikiHan 上，Trans-DPD-ΠM 仅在 FER 上显著优于 Lu 等人 (2024)。在 Rom-phon 上，GRU-DPD 和 GRU-DPD-ΠM 仅在 ACC 上显著优于 Lu 等人 (2024)。我们得出结论，尽管 ΠM 和 DPD 是由半监督重建启发的，但它们对于监督重建也很有用。我们将数据增强和 DPD 架构在监督环境中的作用留给未来的工作。

5.相关工作

计算历史语言学： 原型重建和反义词预测是计算历史语言学的两项核心任务。原型重建预测给定同源词组中的反义词，预测原型形式，而反义词预测则模拟从原型形式到其反义词的变化。计算重建和反义词预测方法多种多样，包括基于规则的系统（Heeringa and Joseph, 2007；Marr and Mortensen, 2020, 2023）、在系统发育树上的概率模型（Bouchard-Côté et al., 2007b,a, 2009, 2013）、自动对齐系统（Bodt and List, 2022；List et al., 2022）以及最近的神经网络（Fourrier, 2022）。

监督重建和反义词预测： Ciobanu 和 Dinu (2018) 以及 Ciobanu 等人 (2020) 将原型重建表述为序列标记任务，并使用条件随机场在每个女儿序列中的每个位置重建原型音素。Meloni 等人 (2021) 通过将反义词连接成一个由语言标签分隔的单个输入序列，将重建任务重新表述为序列到序列任务，并使用 GRU 在新的罗曼语数据集上重建拉丁语。随后的一组研究人员通过添加更多数据集（Chang et al., 2022）和改进神经网络方法（Kim et al., 2023；Akavarapu and Bhattacharya, 2023；Lu et al., 2024）进一步改进了这项任务。反义词预测可以被视为反向序列到序列转换。Cathcart 和 Rama (2020) 提出了一个 LSTM 编码器-解码器模型，用于从古印度-雅利安语推断印欧语系反义词，并辅以语义嵌入。Arora 等人 (2023) 使用 GRU 和 Transformer 模型复制了 Cathcart 和 Rama (2020) 在南亚语言上的实验。由于反义词预测从原型语言映射到多个女儿语言，因此通常会在输入中附加一个提示标记来指定目标女儿语言。

非监督计算历史语言学： 过去，在没有完全监督的情况下进行比较重建的工作包括 Bouchard-Côté 等人 (2009) 和 He 等人 (2023)。据我们所知，没有研究专门关注半监督神经重建。

半监督学习： 有效的半监督学习应该利用未标记的训练数据。一种方法是代理标记，通过启发式方法将合成标签添加到未标记的训练示例中（Ouali et al., 2020）。另一种方法是一致性正则化，它主要基于平滑性假设，无论标签是否存在都适用：高密度区域中的相似输入数据应该具有相似的标签，而由低密度区域分隔的输入数据不应该具有相似的标签（Tsai and Lin, 2019；Ouali et al., 2020；Luo et al., 2018）。我们的任务与半监督机器翻译相关（Edunov et al., 2018；Sennrich et al., 2016；Skorokhodov et al., 2018；Gülçehre et al., 2015；Cheng et al., 2016）。然而，它在一个关键方面有所不同：模型没有访问单语文本，只有标记和未标记的同源词组。

6.结论

我们引入了半监督重建的任务，标志着朝着实用计算重建系统迈出了重要一步，该系统可以帮助早期原型语言重建项目。我们设计了 DPD-BiReconstructor 架构来实现历史语言学家的比较方法，其性能优于现有的序列到序列重建模型和已建立的半监督学习方法，尤其是在原型形式标签稀缺的情况下。

局限性：

由于可能存在大量策略，我们将 DPD 的半监督重建实验范围限制在 10% 标记的 WikiHan 和 Rom-phon 数据集上。将半监督重建研究扩展到其他数据集的工作留给未来。尽管 DPD 具有清晰的动机并展现出卓越的经验性能，但对 DPD 从未标记的同源词组中学习到的声音变化，以及这些变化如何使其重建性能更好的解释却不够清晰。我们的理论是，系统中的神经网络具有足够的表达能力，可以通过双向方式进行更好的重建，但我们还没有获得模型推理与语言学家推理一致的证据，除了具有更好的音素表示以及从重建中推导反义词的步骤之外。不过，我们证明了从重建中推断反义词不仅是一种强大的历史语言学方法，也是一种强大的计算历史语言学方法。

尽管我们发现，与从正确原型形式中预测的反义词相比，从错误原型形式中预测的反义词的准确率较低，但从错误原型形式中派生的反义词仍然非常准确。未来的工作可以探索减轻这个问题并提高反义词预测子网络区分正确和错误原型形式的能力的方法。值得注意的是，我们的 Π-Model 实现仅包括反义词排列和女儿语言删除作为噪声策略。可能还有其他可能的策略可以加强这个基线。原型重建任务远未解决——鉴于人类在重建古代语言方面的成功，未来的真正智能重建系统应该能够在没有标签的帮助下进行重建。