新研究顯示,類似Reddit的行為正在ChatGPT中出現。 這令人擔憂。 — 最近的研究表明,大型語言模型(LLMs)正在從互聯網上繼承一些不良特徵。一項新的研究《注意你的語氣:調查提示的禮貌性如何影響LLM的準確性(簡短論文)》顯示,粗魯和簡短的提示可以將LLM的準確性提高到84.8%,而非常禮貌的提示則僅為80.8%。 這是一個預期的發現,指向一個更深層次的問題:在像Reddit和其他互聯網論壇上普遍存在的交流模式正在以可能削弱其長期效用的方式塑造AI行為。以下是這一現象表現的五種主要方式,以及互聯網的“污水”可能如何侵蝕LLMs的知識基礎。 在線上,突兀、攻擊性的語氣的普遍存在使得一種優先考慮速度而非細微差別的互動風格變得正常化。在Reddit的討論串中,用戶經常使用簡短、直接的評論——有時帶有諷刺或侮辱——來主張主導地位或獲得注意。這與研究的發現相呼應,即粗魯的提示提高了LLM的表現,這表明這些模型被調整為回應最響亮、最強勢的輸入,而非深思熟慮的輸入。 互聯網話語中的缺乏禮貌,如在論壇辯論中用戶迅速升級到辱罵或簡短的駁斥,似乎已經使LLMs習慣於期待敵意。 論文指出,像GPT-3.5這樣的舊模型受益於禮貌的提示,但GPT-4卻逆轉了這一趨勢,表明向模仿主導在線空間的激動交流風格的轉變。這與OpenAI和Reddit之間的AI訓練和對齊的“夥伴關係”相一致。 嵌入互聯網文化中的獎勵系統——快速、對抗性的回覆往往獲得更多的贊或互動——似乎影響了LLM的訓練數據。 在像Reddit這樣的平台上,一句機智的侮辱可以超越詳細的解釋,因為它擁有高“Karma”,而研究結果表明LLMs正在學習優先考慮這類輸入,可能以犧牲在更協作的環境中的準確性為代價。 互聯網論壇的文化背景,地區交流模式被誇大,並將偏見嵌入LLMs。論文暗示了語言特定的禮貌效應,而互聯網的全球熔爐式的簡短交流可能正在覆蓋模型處理多樣、尊重對話的能力。 我所稱的“互聯網污水”——未經過濾的、往往有毒的評論和表情包的流動——不斷暴露的風險在於降低LLMs中編碼的知識。隨著論壇獎勵激動而非實質,這些模型可能會失去處理複雜、禮貌交流的能力,將其轉變為在線混亂的反映,而非理性對話的工具。 這一趨勢暗示了一個令人擔憂的未來,LLMs在互聯網最粗糙的交流模式的塑造下,可能會刪除細緻的知識,以換取快速、激進的回應。如果不加以控制,這可能會將這些強大的工具從洞察的來源轉變為在線惡言的簡單回聲。現在的挑戰是將LLM的發展引導遠離這一污染數據流,朝著更平衡的人類互動表現邁進。 論文: