用户输入:模型先接收一段字符串。
把文本切成 token(编号)。
根据 token id 取出向量坐标(查表)。
多层“看关系(Attention)+改特征(FFN)”,输出更有用的特征。
把特征映射到词表,得到“下一个 token”的概率。