背後的RLHF機制還有三個致命缺陷OpenAI投入了大量的精力讓ChatGPT更安全,其主要的訓練策略採用RLHF(Reinforcement Learning by Human Feedback),簡單來說,開發人員會給模型提出各種可能的問題,並對反饋的錯誤答案進行懲罰,...