RL 中,连续策略 pi(s) → 确定性梯度有效。不连续策略 → 需 softmax。