Qwen 剛在 Hugging Face 上發布了 Qwen3-4B-SafeRL 這是一個安全對齊的模型,利用強化學習來抵抗有害提示,同時不犧牲有用性。