<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP領域的語言偏置問題分析

深度學習自然語言處理 ? 來源:南大NLP ? 2024-01-03 11:00 ? 次閱讀

來自:南大NLP

01研究動機

許多研究證明,學術論文表達的nativeness會影響其被接受發表的可能性[1, 2]。先前的研究也揭示了非英語母語的作者在國際期刊發表論文時所經歷的壓力和焦慮。我們通過對自然語言處理(NLP)論文摘要進行全面的統計分析,發現不同語言背景的作者在寫作中的詞匯、形態、句法和連貫性方面有明顯的差異,這表明NLP領域存在語言偏置的可能性。因此,我們提出了一系列建議,以幫助學術期刊和會議的出版社改進他們對論文作者的指南和資源,以增強學術研究的包容性和公平性。

02數據收集

為了分析NLP領域的語言偏置,我們收集的論文摘要來自于ACL和EMNLP會議上發表的論文,以及arXiv.org的論文,標簽為“Computation and Language”。本文研究中,我們假設第一作者是文章的撰寫者。為了確定每篇文章的第一作者的國籍,我們設計了一些啟發式方法。首先,我們通過提取電子郵件地址來確定作者所屬機構的國籍。然后,我們使用一個姓名起源數據庫來確定第一作者是否與該機構具有相同的國籍。在機構國籍未知或作者國籍與機構國籍不太可能相符的情況下,這些摘要將被丟棄。最后,為了確保有足夠的數據進行分析,我們保留了數據集中摘要最多的五個國家的數據。這些國家分別是中國、美國、德國、日本和印度。數據集的統計信息見表1。

表1:數據集統計數據

c3399924-a97e-11ee-8b88-92fbcf53809c.png

03分析

我們的分析涵蓋了詞匯、形態、句法連貫性等語言特性,這被認為是語法能力和文本能力的核心組成部分[3]。以下是對每種特性的分析和討論。

3.1 詞匯

我們從兩個不同的層次分析不同國家使用的詞匯特征。首先,我們通過計算類符行符比(token-type ratio)來研究詞匯的多樣性。其次,我們通過詞匯束(lexical bundle)分析來探索多詞級別的詞匯,從中找出常用的詞匯塊。

3.1.1 詞匯多樣性

為了分析詞匯多樣性,我們計算每個文本的類符行符比(token-type ratio)。類符行符比通過將文本中獨特詞的數量除以總詞數來計算。較高的比率表示更高的詞匯多樣性。統計結果如表2中所示。

表2: 平均類符行符比和詞匯鏈長度

c34b5b82-a97e-11ee-8b88-92fbcf53809c.png

從結果中可以看到,與其他語料庫相比,美國和德國的語料庫有相對稍高的類符行符比(token-type ratio)。我們假設這是由于使用同義詞、下義詞和上義詞的增加所導致的。為了驗證這點,我們計算了詞匯鏈的長度,其中每個鏈包含一個摘要中所有語義相關的詞匯;這些詞匯可以通過同義詞、下義詞或上義詞來進行語義關聯。所有名詞的平均鏈長度展示在表2的右側列中??梢钥吹?,美國語料庫中的平均詞匯鏈長度是所有語料庫中最長的,這意味著平均而言他們會使用更廣泛的詞匯來描述類似概念。相比之下,日本和印度的語料庫具有最短的平均鏈長度,相對稍少的語義相關術語的使用是一個可能的因素。

3.1.2 詞匯束

為了捕捉不同國家的作家如何使用詞匯束,我們對四個詞匯束的使用模式進行了分析。我們通過保留超過預定頻率閾值和分散閾值的詞匯束來確保每個語料庫的代表性。表3展示了詞匯束的頻率(Bundles per Million Words)、獨特詞匯束的數量(Unique Bundles)和不同語法類別的詞匯束數量。

表3:四個詞匯束統計信息

c3593180-a97e-11ee-8b88-92fbcf53809c.png

從表3中可以看出,在不同的語料庫之間,詞匯束的頻率存在很大的差異。例如,在中國、日本和印度的語料庫中,詞匯束的使用量是美國語料庫的兩倍以上,而美國語料庫的使用量最少(Bundles per Million Words)。此外,還可以觀察到非英語母語的語料庫中使用的獨特詞匯束數量(Unique Bundles)比美國語料庫更多。第二語言使用者使用詞匯束的情況已經在文獻中廣泛研究過[4, 5, 6, 7],其中有一種假設是增加使用次數是因為作者依賴使用固定的詞匯表達式以產生更符合學術要求的文本,并避免產生被視為非傳統的表達方式[7]。

我們更深入地研究了詞匯束在摘要中特定功能的使用,即引入論文主要思想的功能。該功能的規范化束計數如表4所示。

表4: 表達引入論文主要思想的詞匯束頻率(每百萬詞)

c362bd86-a97e-11ee-8b88-92fbcf53809c.png

可以看到,在中國、印度和日本的語料庫中,這個特定功能的詞匯束使用率很高,使用頻率比美國的語料庫高出41%(日本語料庫)到69%(中國語料庫)。然而,我們注意到這三個語料庫中的模式有所不同。例如,在中國語料庫中,總體使用量較高似乎可以歸因于一個特定詞匯束的高使用率(in this paper we)。如果將其與日本語料庫進行對比,我們可以看到盡管詞匯束的總體使用仍然很高,但使用情況分布在更廣泛的詞匯束范圍內,而不是一個單一的詞匯束。

3.2 形態

為了分析形態學維度,我們調查了五個國家作家使用不同動詞形式的分布情況。具體來說,對于每個語料庫中的句子,我們確定主動詞,并根據其是否是過去時態、過去分詞、基本形式、第三人稱現在時、非第三人稱現在時或動名詞來分類動詞形式。分布結果如圖1所示。

c37360b4-a97e-11ee-8b88-92fbcf53809c.png

圖 1:每個語料庫中動詞形式的分布

根據分析,我們發現這些分布在不同地點上相當一致。然而,還是存在一些例外情況。例如,對于過去時使用(VBD),日本語料庫顯示出這種動詞形式的使用更頻繁,超過12%的動詞帶有VBD標記。這比其他地點的使用頻率高出兩倍以上。相反地,非第三人稱現在時(VBP)在日本語料庫中使用相對較少,有45.5%的動詞使用這種形式,而美國語料庫中有56%的動詞使用這種形式(這是最頻繁的情況)。

3.3 句法

在句法分析中,我們探索短語級別、從句級別和句子級別的復雜性。為了做到這點,我們使用了多種測量方法:名詞短語修飾語的平均數量、每個句子中的從句數量、平均解析樹深度和平均句子長度。分析結果如表5所示。

表5:句法復雜度指標

c37e4b5a-a97e-11ee-8b88-92fbcf53809c.png

我們觀察到在名詞短語層面上,與數據集中的其他國家相比,美國和德國的語料庫表現出較低的復雜性(即,較少使用名詞短語修飾語)。然而,當我們觀察從句和句子的層面時,來自美國和德國的文本比其他國家的寫作表現出更高的復雜性。這一觀察意味著在表達復雜思想方面可能存在一些不同的偏好,其中一種選擇是通過更多的短語修飾語來表達復雜性,而另一種選擇是將句子拆分成多個從句。

3.4 連貫性

與已有分析第二語言使用者寫作連貫性的研究[8, 9, 10, 11]相似,我們比較了不同國家作者之間的語篇連接詞的使用情況。為此,我們記錄了所有來自[12]提供的語篇連接詞清單中的連接詞的使用。平均每個句子的語篇連接詞數量如表6所示。

表6: 每個句子中平均的語篇連接詞數量

c38ce55c-a97e-11ee-8b88-92fbcf53809c.png

如上所述,可以看出,美國和德國的文本中使用了更多的鏈接詞。為了探究不同國家的鏈接詞偏好,我們列出了與美國語料庫相比每個語料庫使用率最高的五個連詞。結果如表7所示。

表7:與美國語料庫相比,使用比例最高的五個語篇連接詞

c394fb0c-a97e-11ee-8b88-92fbcf53809c.png

可以看出,每個語料庫都有自己獨特的語篇連接詞集,在與整個數據集相比時更受偏愛。例如,在中國語料庫中,firstly 是一種高度偏愛的連接詞,比來自美國的作者使用頻率高出11倍。同樣,besides 也是中國作者高度偏愛的連接詞,在中國語料庫中的出現頻率比美國語料庫高出10倍以上。我們還注意到,德國、印度和日本語料庫中對consequential(以結果為導向)連接詞有偏好,其中hence、thereby和therefore的出現頻率顯著高于美國語料庫(其中一些未在表中列出,因為它們僅略遜于前5位)。

04結論和推薦

在本文研究中,我們致力于解決學術出版中的語言偏置問題。我們對自然語言處理領域的學術寫作進行了全面對比分析,發現了許多特征在來自不同國籍的作者之間存在很大差異。這些發現凸顯了語言偏置的潛在風險。為了解決這個問題,我們概述了一套推薦措施,建議學術期刊和會議在他們的作者指南中如何支持來自全球各地的論文作者。我們的建議專注于本研究中四個語言特性。例如,在不同作者群體之間差異較大的語言方面,作者指南中可以添加詳細的解釋和示例。另外,我們鼓勵出版商提供免費訪問的自動寫作工具,能夠進行改寫等功能。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據收集
    +關注

    關注

    0

    文章

    67

    瀏覽量

    11076
  • 數據集
    +關注

    關注

    4

    文章

    1182

    瀏覽量

    24427
  • 自然語言處理

    關注

    1

    文章

    510

    瀏覽量

    13214
  • nlp
    nlp
    +關注

    關注

    1

    文章

    464

    瀏覽量

    21866

原文標題:EMNLP2023 | 通過NLP領域學術寫作的對比分析試圖解決語言偏置問題

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ChatGPT爆火背后,NLP呈爆發式增長!

    自然語言處理技術,用于計算機中模擬人類的對話和文本理解。主要源于AI大模型化的NLP技術突破是將深度學習技術與傳統的NLP方法結合在一起,從而更好地提高NLP技術的準確性和效率。大模型
    的頭像 發表于 02-13 09:47 ?2885次閱讀

    【推薦體驗】騰訊云自然語言處理

    `相信大家對NLP自然語言處理的技術都不陌生,它是計算機科學領域和AI領域中的一個分支,它與計算機和人類之間使用自然語言進行交互密切相關,而
    發表于 10-09 15:28

    NLP的介紹和如何利用機器學習進行NLP以及三種NLP技術的詳細介紹

    本文用簡潔易懂的語言,講述了自然語言處理(NLP)的前世今生。從什么是NLP到為什么要學習NLP,再到如何利用機器學習進行
    的頭像 發表于 06-10 10:26 ?7.7w次閱讀
    <b class='flag-5'>NLP</b>的介紹和如何利用機器學習進行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b>技術的詳細介紹

    Richard Socher:NLP領域的發展要過三座大山

    面對自然語言處理發展(NLP)存在的諸多難題,該領域的大牛、Salesforce的首席科學家Richard Socher在近日指出:NLP領域
    的頭像 發表于 09-06 11:40 ?3596次閱讀

    NLP-Progress庫NLP的最新數據集、論文和代碼

    方向是自然語言處理的同學們有福啦,為了跟蹤自然語言處理(NLP)的進展,有大量仁人志士在 Github 上維護了一個名為 NLP-Progress 的庫。它記錄了幾乎所有
    的頭像 發表于 11-17 09:21 ?2377次閱讀

    回顧2018自然語言處理NLP最全的應用與合作

    2018年見證了 NLP 許多新的應用發展。Elvis Saravia 是計算語言學專家,也是2019 計算語言學會年度大會北美分部的項目委員之一。
    的頭像 發表于 01-13 09:08 ?4614次閱讀

    如何學習自然語言處理NLP詳細學習方法說明

    這篇文章是一名自然語言處理(nlp)的初學者,在nlp里摸爬滾打了許久的一些心得,推薦了nlp的學習路線和資料合集,本站極力推薦。
    的頭像 發表于 03-03 11:05 ?5485次閱讀

    NLP領域的難處

    NLP領域公司大多成立在2015年、2016年左右,正逢AI熱潮,入局并不算晚,但目前的融資大多還停留在A輪或者B輪,而同時期的語音、計算機視覺公司們卻已經在紛紛沖刺上市。
    的頭像 發表于 09-10 09:48 ?4741次閱讀

    自然語言處理(NLP)的學習方向

    自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究人與計算機之間用自然
    的頭像 發表于 07-06 16:30 ?1.3w次閱讀

    NLP不僅可以做到幫助計算機學習并理解我們的語言

    這個時候,機器學習的分支——自然語言處理(NLP)應運而生,NLP不僅僅可以做到幫助計算機學習并理解我們的語言,更會幫助計算機進行“情感分析
    的頭像 發表于 08-27 15:11 ?1908次閱讀

    NLP 2019 Highlights 給NLP從業者的一個參考

    自然語言處理專家elvis在medium博客上發表了關于NLP在2019年的亮點總結。對于自然語言處理(NLP領域而言,2019年是令人印
    的頭像 發表于 09-25 16:56 ?1527次閱讀

    微軟團隊發布生物醫學領域NLP基準

    for BiomedicalNatural Language Processing生物醫學特定領域語言模型預訓練》,介紹并開源了一個能夠用于生物醫學領域 NLP 基準,并命名為 B
    的頭像 發表于 10-22 11:21 ?2088次閱讀
    微軟團隊發布生物醫學<b class='flag-5'>領域</b><b class='flag-5'>NLP</b>基準

    兩個NLP模型的預測分析

    中冗余的邊drop掉。通過分析剩余邊上具有怎樣的先驗知識,實現對GNN的預測過程加以解釋。 0. Abstract GNN 能夠將結構歸納偏置(structural inductive biases) 整合到 NLP 模型中。然
    的頭像 發表于 04-04 17:11 ?2087次閱讀
    兩個<b class='flag-5'>NLP</b>模型的預測<b class='flag-5'>分析</b>

    人工智能技術是學什么 人工智能nlp指的是什么

    NLP指的是計算機科學與語言學轉換的領域,人工智能和語言領域的分支學科。
    的頭像 發表于 09-21 15:18 ?3679次閱讀

    人工智能nlp是什么方向

    人工智能nlp是什么方向? 人工智能(AI)已經日益普及,正在改變我們的方法和方式。AI 涵蓋了許多領域,其中包括機器學習,計算機視覺,自然語言處理(NLP)等。在這些方向之中,
    的頭像 發表于 08-22 16:45 ?1387次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>