深入研究 Transformer 模型时，将反复提到 architecture 和 checkpoints 以及 model。这些术语的含义略有不同：architecture：这是模型的结构——每个层的定义以及模型中发生的每个操作。checkpoints：这些是将在给定架构中加载的权重。model：这是一个总括术语，不像 “architecture” 或 “checkpoints” 那么精确。它可以同时表示两者。例如，BERT是一种 architecture，而BERT-base-cased（谷歌团队 BERT 的第一个版本训练的一组权重）是一个 checkpoints。然而，人们可以说 “BERT model” 和“BERT-base-cased model”