論文名稱(chēng):Towards Generalizable and Faithful Logic Reasoning over Natural Language via Resolution Refutation
論文作者:孫洲浩,丁效*,杜理,蔡碧波,高靖龍,劉挺,秦兵 ?
1 引言
基于自然語(yǔ)言的邏輯推理任務(wù)需要模型理解自然語(yǔ)言聲明(statements)之間的抽象邏輯關(guān)系并推理出假設的真值(標簽)。這類(lèi)任務(wù)正在越來(lái)越受到關(guān)注,因為它將自然語(yǔ)言與抽象邏輯思維聯(lián)系起來(lái),抽象邏輯思維在解決復雜問(wèn)題和認知推理中發(fā)揮著(zhù)關(guān)鍵作用。然而,這類(lèi)任務(wù)對于LLM來(lái)說(shuō)仍然較為困難,這是因為L(cháng)LM存在幻覺(jué)問(wèn)題,其在推理過(guò)程中可能會(huì )產(chǎn)生不正確的中間推理步驟,從而最終導致錯誤的推理結果,因此是不可靠的。同時(shí),如果將LLM看作一個(gè)推理系統,那么幻覺(jué)會(huì )影響這個(gè)系統的完備性。如果一個(gè)推理系統是完備的,那么我們可以通過(guò)應用推理系統中包含的合法推理規則來(lái)推理出具有確定標簽(True和False)的所有假設。然而,幻覺(jué)會(huì )阻止LLM通過(guò)運用合法的推理規則得出結論,從而導致推理系統不完備。
為了減少幻覺(jué)從而提升忠實(shí)性,前人提出了分步推理方法,這些分步推理方法是基于前向鏈或后向鏈進(jìn)行設計的?;谇跋蜴湹姆椒◤囊阎巹t開(kāi)始,檢查是否存在某一個(gè)規則其所有的前提條件都被給定的事實(shí)所滿(mǎn)足,如果存在,則應用前向鏈的推理規則來(lái)推導出新的結論,這個(gè)過(guò)程一直持續直到不能得出新的結論或假設已經(jīng)被證明?;诤笙蜴湹姆椒◤募僭O開(kāi)始以相反的方向進(jìn)行推理,從而得出一組需要滿(mǎn)足的事實(shí),然后檢查這些事實(shí)是否已經(jīng)被已知事實(shí)所滿(mǎn)足。通過(guò)引入了中間推理步驟,基于LLM的推理系統的忠實(shí)性得到了提升。
然而這些基于前向鏈或后向鏈的分步推理方法在復雜的邏輯推理場(chǎng)景下依然不盡如人意。在某些場(chǎng)景下,這些方法的性能可能會(huì )低于單獨使用LLMs,甚至低于隨機猜測(random guess)。這是因為基于前向鏈或后向鏈的分步推理方法是不完備的。這意味著(zhù)一些具有確定標簽的假設被模型會(huì )被認為是Unknown。因此,它只能適應于相對簡(jiǎn)單的推理場(chǎng)景。以前向鏈為例,前向鏈是不完備的因為它當且僅當“某個(gè)規則的所有條件都可以被已知事實(shí)證明是真的”(條件1)時(shí)才能夠推理。然而,在推理過(guò)程中也存在一些特殊情況,前向鏈無(wú)法推理。對于圖1中的假設1,前向鏈無(wú)法推理出假設是正確的(True),因為規則中包含的“kind people”這一條件無(wú)法被已知事實(shí)證明是真的。因此,我們無(wú)法得出任何推論,假設1將被視為Unknown。類(lèi)似地,對于后向鏈,假設1“not kind”沒(méi)有出現在規則的右側因此也無(wú)法進(jìn)行推理,該假設也將被視為Unknown。
圖1:基于自然語(yǔ)言的邏輯推理問(wèn)題樣例
受邏輯符號領(lǐng)域的邏輯推理方法的啟發(fā),我們引入了一個(gè)在一階邏輯下完備的邏輯推理范式歸結反演(其推理過(guò)程不會(huì )受到條件1的約束)來(lái)提高完備性,并提出一個(gè)新的推理框架GFaiR。圖2展示了歸結反演的推理過(guò)程。對于圖1中的問(wèn)題,通過(guò)利用歸結的推理規則,GFaiR可以在自然語(yǔ)言水平上進(jìn)行歸結,從已知信息中逐步推導出“Everyone is not kind”。然后通過(guò)反演,“Bob is kind”出現在了已知信息中,進(jìn)而我們能夠推導出一個(gè)矛盾(Everyone is?not kind 與?Bob is kind兩者互相矛盾),從而證明假設1是真的。因此,歸結反演的結合使LLM能夠處理更復雜的邏輯推理場(chǎng)景,從而增強了泛化能力。
圖2:圖1問(wèn)題樣例的歸結反演推理過(guò)程
實(shí)驗結果表明,我們的方法在復雜的邏輯推理場(chǎng)景下取得了最優(yōu)性能,同時(shí)保持了在簡(jiǎn)單推理場(chǎng)景下的性能。此外,我們觀(guān)察到GFaiR產(chǎn)生的推理過(guò)程更加忠實(shí)。
2 背景
一階邏輯下的自然語(yǔ)言推理: 給定一個(gè)假設H以及一個(gè)包含一系列事實(shí)和規則的自然語(yǔ)言理論,目標是在不利用外部知識和常識知識的條件下僅僅利用給定的自然語(yǔ)言理論來(lái)判斷假設H是正確的(True),錯誤的(False),還是無(wú)法確定的(Unknown)。每條事實(shí),規則和假設都對應唯一的一階邏輯表示。H的標簽是根據對事實(shí)和規則的一階邏輯表示進(jìn)行推理得到的。一個(gè)簡(jiǎn)單的例子如下圖所示:
歸結反演:在基于邏輯符號的推理場(chǎng)景下,歸結反演是一種在一階邏輯下完備的推理方法,也就是說(shuō),對于任何一個(gè)在一階邏輯語(yǔ)義下真值為T(mén)rue或者False的假設,應用歸結反演的推理方法我們都能夠推理出假設的真值。假設F為給定前提集對應的一階邏輯公式集合(在基于邏輯符號的推理場(chǎng)景下每一個(gè)前提都是一個(gè)一階邏輯公式),Q為一個(gè)以一階邏輯公式表示的假設且在假設F下Q的真值為T(mén)rue,則證明Q為T(mén)rue的過(guò)程如下所示:
將Q進(jìn)行否定得到?Q,并且將其合并到F中得到{F,?Q}
將{F,?Q}中的每一條進(jìn)行Skolem標準化,從而將其轉換為一個(gè)子句集
應用歸結原理對子句集進(jìn)行歸結,其中每一步都是根據子句集中的兩條子句歸結出一個(gè)新的子句(中間結論),這個(gè)子句會(huì )被合并到子句集中。這個(gè)歸結的過(guò)程是迭代式的,直到歸結出一個(gè)空子句時(shí)停止并說(shuō)明這個(gè)理論集合中存在矛盾,從而進(jìn)一步說(shuō)明Q是正確的。
因此,我們可以首先通過(guò)對Q和?Q進(jìn)行反演從而得到{F,?Q}以及{F,Q},然后分別對{F,?Q}以及{F,Q}進(jìn)行歸結推理并判斷其中是否存在矛盾來(lái)確定Q的真值。如果{F,?Q}不存在矛盾而{F,Q}存在矛盾,則Q為False,反之Q為T(mén)rue,如果都不存在矛盾,則Q為Unknown。
3 方法
如圖2所示,GFaiR包括5個(gè)模塊:轉換器,前選擇器,后選擇器,知識組裝器,驗證器。
圖2:GFaiR框架圖
3.1 轉換器
在執行推理之前,基于T5的轉換器首先會(huì )將假設轉換為假設的否定用于后續進(jìn)行反演推理。接下來(lái),轉換器會(huì )將給定的自然語(yǔ)言理論和假設(或假設的否定)轉換成Skolem范式形式對應的自然語(yǔ)言表示用于后續執行歸結推理。為了方便起見(jiàn),我們將經(jīng)過(guò)轉換器轉換后的自然語(yǔ)言理論和假設(或假設的否定)所組成的整體稱(chēng)為理論集合T,其中的每一條都統一稱(chēng)為理論。
3.2 前選擇器
在每一步推理的過(guò)程中,基于XLNET前選擇器首先根據理論集合T選擇一條理論用于后續執行歸結推理。
3.3 后選擇器
在前選擇器選擇了用于歸結推理的一條理論之后,基于XLNET的后選擇器根據理論集合T以及前選擇器選擇的理論來(lái)選擇另一條用于后續執行歸結推理的理論。我們設計這個(gè)模塊是為了顯式地建模前選擇器選擇的理論與其余理論之間的關(guān)系,并利用這一信息來(lái)指導后選擇器的理論選擇過(guò)程。
3.4 知識組裝器
基于T5的知識組裝器可以從數據中隱式地學(xué)習歸結推理規則,并在自然語(yǔ)言層面對前選擇器和后選擇器選擇的兩條理論應用所學(xué)習的歸結推理規則來(lái)生成新的推論。
3.5 驗證器
由于前人的基于transformers的選擇模塊對于歸結反演來(lái)說(shuō)不夠準確,可能會(huì )導致這兩個(gè)選擇器所選擇的理論不相關(guān),進(jìn)而導致理論上無(wú)法根據這兩條理論得出一個(gè)符合邏輯的推論(一個(gè)推論是符合邏輯的當且僅當這個(gè)推論可以根據這兩條理論推理出來(lái))。如果知識組裝器根據這樣的兩條理論進(jìn)行歸結推理,那么其生成的推論一定是不合邏輯的,這會(huì )導致歸結推理的失敗并產(chǎn)生不合邏輯的推論(產(chǎn)生幻覺(jué))。由于在后續的推理步驟中我們可能會(huì )用到這個(gè)不合邏輯的推論,因此這可能會(huì )最終導致錯誤的推理結果。為此,我們使用基于合法性對比損失的驗證器來(lái)驗證前選擇器和后選擇器選擇的兩個(gè)理論,以確保在理論上可以通過(guò)對這兩條理論執行邏輯推理來(lái)得出符合邏輯的推論,從而為歸結推理提供了保證,并通過(guò)減少幻覺(jué)來(lái)提高模型的忠實(shí)性。
3.6 推理過(guò)程
在推理時(shí),轉換器首先將給定的自然語(yǔ)言理論和假設(或假設的否定)轉換成兩個(gè)理論集合,其中每條理論的表示都是Skolem范式形式對應的自然語(yǔ)言表示。其中一個(gè)理論集合包括自然語(yǔ)言理論和假設,另一個(gè)包括自然語(yǔ)言理論和假設的否定。接下來(lái)我們對這兩個(gè)理論集合應用圖2中的推理模型(Reasoning model)來(lái)推斷其是否存在矛盾,從而判斷假設的真值。
對于一個(gè)具體的理論集合T,前選擇器首先選擇一條理論,接下來(lái),在驗證器的指導下,后選擇器選擇一個(gè)能夠與組成一個(gè)合法理論對的理論,如果不存在這樣的理論,則停止并認為T(mén)中不存在矛盾,否則,知識組裝器會(huì )對這兩條理論進(jìn)行自然語(yǔ)言層面的歸結推理并得出一個(gè)新的推論,如果這個(gè)推論是一個(gè)空字符串(對應空子句),則停止并認為這個(gè)理論集合存在矛盾。反之,新生成的推論會(huì )被合并到T中參與接下來(lái)的推理過(guò)程。
4 實(shí)驗
4.1 數據集&評測指標
為了驗證GFaiR,我們采用RuleTaker-3ext-sat數據集進(jìn)行訓練,然后在RuleTaker-3ext-sat,Ruletaker-depth-5,以及更加復雜的Hard RuleTaker數據集上進(jìn)行測試。此外,由于Hard RuleTaker數據集中沒(méi)有標簽為Unknown的數據,我們遵循前人的方法來(lái)采樣標簽為Unknown的數據并將其添加到Hard RuleTaker數據集中以構造一個(gè)標簽平衡的數據集,并將這個(gè)新的數據集稱(chēng)為Hard RuleTaker*。此外,為了比較我們的方法在復雜的邏輯推理場(chǎng)景下的in-domain性能,我們將Hard RuleTaker*數據集按照8.5,0.5,1的比例將其拆分為訓練集,驗證集,測試集。拆分后的數據集我們將其命名為Hard RuleTaker**。
我們的評價(jià)指標包括兩個(gè)方面:(1)Entailment accuracy (EA):衡量模型預測假設標簽的準確率。(2)Full accuracy (FA): 衡量模型預測假設標簽和推理過(guò)程同時(shí)正確的準確率
4.2 主實(shí)驗
我們將GFaiR與基于預訓練模型的方法以及基于分步推理的方法IBR, FaiRR, NLProofs進(jìn)行對比,主實(shí)驗結果如表1所示:可以看出,我們的方法在簡(jiǎn)單的推理場(chǎng)景下保持了性能,同時(shí)在復雜的推理場(chǎng)景下性能遠遠超過(guò)基于預訓練模型的方法以及基于分步推理的方法,這說(shuō)明通過(guò)結合歸結反演,GFaiR的完備性得到了改善,在復雜推理情境下的zero-shot泛化能力更強。根據EA和FA的差值,我們也可以看出GFaiR產(chǎn)生的推理過(guò)程是忠實(shí)的。雖然NLProofs和FaiRR在Hard RT和Hard RT*數據集上EA和FA之間的差值更小,但是它們的EA較低,在這種情況下單純考慮其忠實(shí)性是沒(méi)有意義的。
表1:主實(shí)驗結果
4.3 推理深度泛化實(shí)驗
我們通過(guò)將不同模型在推理深度小于等于3的RuleTaker-3ext-sat數據集進(jìn)行訓練,然后在推理深度小于等于5的Ruletaker-depth-5數據集上進(jìn)行測試來(lái)評估不同方法在推理深度上的泛化能力,結果如表2所示:可以看出,當推理深度增加時(shí),GFaiR的性能下降更小,比如當推理深度從3增加到5時(shí),GFaiR的EA值下降了1.6%,而FaiRR和NLProofs則分別下降了14.4%和24.5%,這說(shuō)明GFaiR對于推理深度的泛化能力更強。
表2:推理深度泛化實(shí)驗
4.4 復雜推理場(chǎng)景下的in-domain實(shí)驗
我們通過(guò)將不同模型在Hard RuleTaker**數據集上進(jìn)行訓練和測試來(lái)評價(jià)不同方法在復雜推理情景下的in-domain性能,實(shí)驗結果如表3所示:可以看出,GFaiR在Hard RuleTaker**數據集上實(shí)現了最佳性能,這說(shuō)明通過(guò)引入歸結反演,GFaiR方法在復雜推理情景下更加有效。
表3:復雜推理場(chǎng)景下的in-domain性能
5 總結
在本文中,通過(guò)引入歸結反演和基于合法性對比損失的驗證器,我們提出了一個(gè)泛化能力強且忠實(shí)的推理方法GFaiR,該方法能夠處理復雜的邏輯推理場(chǎng)景。實(shí)驗結果還表明,在較為復雜的Hard RuleTaker和Hard RuleTaker*數據集上,GFaiR能夠實(shí)現更好的性能。
審核編輯:黃飛
?
評論
查看更多