新论文显示,类似Reddit的行为正在ChatGPT中出现。 这令人担忧。 — 最近的研究表明,大型语言模型(LLMs)正在继承一些来自互联网的不良特征。一项新的研究《注意你的语气:调查提示礼貌如何影响LLM准确性(短文)》揭示,粗鲁和简短的提示可以将LLM的准确性提升到84.8%,而非常礼貌的提示仅为80.8%。 这是一个预期的发现,指向一个更深层次的问题:在Reddit和其他互联网论坛上普遍存在的沟通模式正在以可能削弱其长期效用的方式塑造AI行为。以下是这一现象表现的五种主要方式,以及互联网的“污水”可能如何侵蚀LLM的知识基础。 在线上,突兀、攻击性的语气的普遍存在使得一种优先考虑速度而非细腻的互动风格变得正常化。在Reddit的讨论中,用户经常使用简短、直接的评论——有时夹杂着讽刺或侮辱——来主张主导地位或引起注意。这与研究发现的粗鲁提示提高LLM表现的结果相呼应,表明这些模型更倾向于响应最响亮、最自信的输入,而非深思熟虑的内容。 互联网话语中缺乏礼貌的现象,如在论坛辩论中,用户迅速升级到人身攻击或简短的拒绝,似乎已经使LLM习惯于期待敌意。 论文指出,像GPT-3.5这样的旧模型受益于礼貌的提示,但GPT-4o逆转了这一趋势,表明在线空间主导的激动沟通风格的镜像正在发生变化。这与OpenAI和Reddit之间的AI训练和对齐的“合作”相一致。 嵌入互联网文化中的奖励系统——快速、对抗性的回复往往获得更多的点赞或互动——似乎影响了LLM的训练数据。 在像Reddit这样的平台上,一个机智的侮辱可以胜过详细的解释,因为它具有高“业力”,而研究结果表明,LLM正在学习优先考虑这种类型的输入,可能以牺牲更具合作性的背景下的准确性为代价。 互联网论坛的文化背景,区域沟通模式被夸大,并将偏见嵌入LLM中。论文暗示了语言特定的礼貌效应,而互联网的全球混合体的简短交流可能正在覆盖模型处理多样化、尊重对话的能力。 我称之为“互联网污水”的持续暴露——未经过滤的、常常是有毒的评论和表情包的流——有可能降低LLM中编码的知识。随着论坛奖励激动而非实质,模型可能失去处理复杂、礼貌交流的能力,将其转变为在线混乱的反映,而非理性话语的工具。 这一趋势暗示了一个令人不安的未来,LLM可能会因互联网最粗糙的沟通模式而删除细腻的知识,转而偏向快速、攻击性的回应。如果不加以控制,这可能会将这些强大的工具从洞察的来源转变为在线恶毒的简单回声。现在的挑战是将LLM的发展引导远离这一污染的数据流,朝着更平衡的人际互动表现发展。 论文: