研究方法
外部反饋的應(yīng)用:不依賴模型自我生成的反饋,研究者使用外部反饋來指導(dǎo)LLM改進(jìn)翻譯。
開放模型的使用:研究中使用了開源的LLaMA-2模型,而不是像GPT-3.5或PaLM-2等這樣的閉源模型。
并且研究者考慮到了兩種指導(dǎo)語言模型編輯機(jī)器翻譯錯誤注釋的策略:提示和用指令微調(diào)。首先,他們使用不同形式的反饋,以不同的粒度提示LLaMA-2模型。
研究采用了三種反饋形式:
一般性反饋:不提供具體細(xì)節(jié),沒有具體指令,只是提示模型改進(jìn)初始翻譯。
基于評分的反饋:提供一個從0到100的單一MQM評分,反映初始翻譯的總體質(zhì)量。
細(xì)粒度反饋:提供具體且詳細(xì)的錯誤注釋,可能包括錯誤范圍、錯誤類型和嚴(yán)重程度。這種反饋可以由人工或者自動注釋工具進(jìn)行。
研究發(fā)現(xiàn)
在中英、英德和英俄三個語言對上,研究發(fā)現(xiàn)使用反饋提示LLM進(jìn)行翻譯編輯可以持續(xù)提高機(jī)器翻譯和譯后編輯質(zhì)量。盡管細(xì)粒度反饋在改進(jìn)輸出方面作用有限,但接下來他們用細(xì)粒度的錯誤注釋對LLaMA-2模型進(jìn)行了微調(diào),研究者發(fā)現(xiàn)微調(diào)帶來了“額外的性能提升”。不僅如此,細(xì)調(diào)后的模型不僅能修復(fù)特定錯誤,還能增強(qiáng)目標(biāo)語言的自然性。
未來展望
通過這些結(jié)果,研究者發(fā)現(xiàn):編輯后的MT輸出不需要最大的專有LLM模型,可以用較小的開源模型來完成。他們計(jì)劃進(jìn)一步探索如何創(chuàng)建一個可以自動評估任何MT輸入的工作流程,并決定是否有必要進(jìn)行后期編輯以及如何進(jìn)行后期編輯,以及確定使用最合適的反饋機(jī)制。此外,他們還希望進(jìn)一步探索如何最大限度地減少對人工注釋的依賴,因?yàn)椤按笠?guī)模獲取人工注釋的成本很高”。
研究者計(jì)劃進(jìn)一步探索創(chuàng)建一個自動評估MT輸入并決定是否需要后編輯的工作流程,同時(shí)尋找最合適的反饋機(jī)制以盡可能減少對人工注釋的依賴。