In einem Transformer: Attention-Score für Q = (1, 1) , K = (3, 4) ist Q * K / \sqrt 2