最新RLHF拯救语言模型「胡说八道」！微调效果比ChatGPT更好，两名华人共同一作

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

RLHF（基于人類反饋的強化學習）的一大缺點，終于被解決了！

沒錯，雖然RLHF是大語言模型“核心技巧”之一，然而這種方法也存在一個問題——

(相關資料圖)

它只會判斷生成文本的整體效果，不會仔細判斷細節是否存在事實性錯誤、信息不完整和相關度等問題。

換而言之，傳統的RLHF只會對大語言模型的整個輸出進行打分，而不會揪出細節上的毛病。

為此，華盛頓大學和艾倫人工智能研究院的研究人員提出了一種新的RLHF框架——FINE-GRAINED RLHF（細粒度的人類反饋強化學習）。

這個RLHF框架包含多種不同類型的“打分器”（reward model），通過對語言模型輸出的每句話進行評估，從而提升生成文本的質量。

不僅如此，對這些“打分器”的權重進行調配，還能更靈活地控制語言模型輸出效果。

事實證明，這種RLHF方法能很好地降低語言模型生成內容的錯誤率、毒性，并提升它回答問題的全面性和解析能力。

所以，這個RLHF方法究竟長啥樣？

對傳統RLHF進行兩大改進

這個名叫FINE-GRAINED RLHF的框架，核心目的就是細化傳統RLHF的評估方法。

具體來說，在語言模型輸出結果后，它要能標識出具體哪些句子是錯誤的、哪些部分是不相關的，從而更精細地指導模型學習，讓模型更好地理解任務要求、生成高質量輸出。

為此，它主要做了兩大改進：

一方面，對要評估的文本進行拆解。

如果說之前的RLHF評估語言模型，就像老師給學生的高考作文整體打分，那么FINE-GRAINED RLHF，就像是先把學生的作文拆成一句句話，再給每句話進行打分。

另一方面，訓練三個“打分器”，分別用來評估事實準確性、相關性和信息完整性：

相關性、重復性和連貫性：給每一句話中的短句子（sub-sentences）進行打分。如果一句話里面的各個句子不相關、重復或不連貫就扣分，否則加分。錯誤或無法驗證的事實：給每一句話（sentences）進行打分。如果一句話中存在任何事實錯誤，就扣分；否則加分。信息完整性：檢查回答是否完整，涵蓋與問題相關的參考段落中的所有信息，對整個輸出進行評分。

為了檢驗模型的效果，研究人員用兩大任務，對這種新RLHF和傳統RLHF方法進行了評估。

兩大任務效果均有提升任務一：生成文本毒性評估

為了研究這種新框架的效果，研究人員先進行了去毒任務的實驗。

實驗使用了Perspective API來測量毒性，它可以返回一個介于0（無毒）和1（有毒）之間的毒性值。

上圖展示了兩種不同的打分機制，其中（a）是傳統的RLHF打分機制，也就是對模型所生成的內容打一個“總分”。

而（b）則是新的RLHF評估方法，將輸出的內容進行拆解，分成了兩個句子，對兩個句子分別打分。

針對模型生成的這兩句話：

I am such an idiot.She is so smart!（我真是個白癡。她真聰明！）

顯然前半句話是造成生成內容有毒的關鍵。

傳統（a）的方法，并沒有指出這一點；而（b）的方法可以很好地指出問題所在。對兩種方法進行比較：

可以看到，在上面所有方法中，基于FINE-GRAINED RLHF框架，在多樣性（Diversity，大語言模型創造豐富度）水平和其它方法相近的情況下，仍能保持生成內容的毒性最低。

與此同時，根據上圖的困惑度曲線，FINE-GRAINED RLHF的毒性下降速度更快，同時保持較低水平的困惑度（Perplexity，越低表示模型對給定序列的預測越準確）。這表明基于FINE-GRAINED RLHF框架學習比傳統的RLHF更高效。

關于這一點，其中一個解釋是：

新的RLHF方法能夠確定有毒內容的位置，這與傳統RLHF方法用的整體打分相比，提供的訓練目標更明確。

綜上，可以看到FINE-GRAINED RLHF在去毒任務中表現更為良好。

任務二：長篇問答

緊接著，研究人員還對FINE-GRAINED RLHF進行了長篇問答任務的實驗。

他們收集了一個包含人類偏好和細粒度反饋的長問答數據集——QA-Feedback，基于ASQA（一個專注于回答模糊事實性問題的數據集）制作。

然后，對不同的微調方法（SFT監督微調、Preference RLHF）進行了評估：

△人工評估的不相關性錯誤（左圖）和事實性錯誤（右圖）

與其它方法相比，FINE-GRAINED RLHF生成的內容在事實上更正確，包含更完整的信息。

相比當前表現較好的微調方法，如SFT和Preference RLHF，FINE-GRAINED RLHF生成的無關、重復和不連貫錯誤也要更少。

△信息完整度評估，“win”表示FINE-GRAINED RLHF獲勝，即在信息完整性方面表現更好；而“lose”表示FINE-GRAINED RLHF失敗，即在信息完整性方面表現較差。

上面給出的是人工評估的結果，而在測試集上也有自動的評分。

在QA-FEEDBACK測試集上，評分結果與人工評估類似，四個系統在Rouge分數上都顯示FINE-GRAINED RLHF效果更好：

△在QA-FEEDBACK測試集上的自動評估結果更靈活地定制RLHF

此外，研究人員還發現，由于FINE-GRAINED RLHF中使用了多個“打分器”，調整它們的權重，就可能更為靈活地定制語言模型的行為。

例如，將更多的權重添加到評估信息完整性的“打分器”中，可能會使生成的信息完整性更好。

△不同獎勵模型權重配置下FINE-GRAINED RLHF的測試集自動評估結果。

如上表所示，研究人員探索了FINE-GRAINED RLHF定制化語言模型行為的能力。

他們探索了三種“打分器”權重配置，并根據語言模型的平均文本生成長度，將它們分別命名為“short”、“medium”、“long”。

“short”生成了相關性更高的內容，但是事實性和完整性方面較差。與之相反，“long”提供了最準確和完整的生成內容。這反映出語言模型引用了大量的文本段落內容。而“medium”配置平衡了三種打分方法，并具有最高的得分。

不過，三個“打分器”之間還存在著競爭關系。

“相關性打分器”（the rel. reward model）偏向于生成短而簡潔的回答，而”信息完整性打分器”（the comp. reward model）更偏向于生成更長、更豐富的回答。

因此，在訓練過程中，這兩個“打分器”會相互競爭，并最終達到一個平衡。

與此同時，“事實性打分器”（the fact. reward model）則會不斷提高回答的正確性。

不過，移除任何一個“打分器”都會降低模型性能。

最后，研究人員還將他們的模型與ChatGPT的回答進行了比較。

ChatGPT在測試集上的RougeLSum得分為40.92，遠低于本文使用FINE-GRAINED RLHF所訓練的模型。

簡單來說，ChatGPT生成的回答通常非常簡潔且事實準確，但是缺乏澄清模糊問題所需的補充信息。

作者介紹

兩位論文共同一作均是來自于華盛頓大學（University of Washington）自然語言處理研究小組的博士生。

Zeqiu Wu，本科就讀于伊利諾伊大學電子與計算機工程系，并且取得了該校的碩士學位。

她的研究主要專注于信息檢索型對話系統和通用交互系統。

曾在谷歌研究院的實習，擔任學生研究員。

胡雨石（Yushi Hu），于2021年從芝加哥大學獲得數學、計算機科學和經濟學的學士學位。目前師從Mari Ostendorf教授和Noah A. Smith教授。

他的主要興趣領域是多模態學習和基于人類反饋的強化學習（RLHF）。

此前，他還曾與美國阿貢國家實驗室的Saidur Bakaul博士和清華大學的寧傳剛教授合作過。

論文地址：//finegrainedrlhf.github.io/

關鍵詞：

責任編輯：Rex_16

最新RLHF拯救語言模型「胡說八道」！微調效果比ChatGPT更好，兩名華人共同一作