A Qwen acaba de lançar o Qwen3-4B-SafeRL no Hugging Face Um modelo alinhado à segurança que utiliza aprendizado por reforço para ser robusto contra prompts prejudiciais sem sacrificar a utilidade.