In RL: Stetige Policy pi(s) → deterministischer Gradient. Diskrete Policy → Softmax nötig