<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

NLP領域的語言偏置問題分析

來自：南大NLP

01研究動機

許多研究證明，學術論文表達的nativeness會影響其被接受發表的可能性[1, 2]。先前的研究也揭示了非英語母語的作者在國際期刊發表論文時所經歷的壓力和焦慮。我們通過對自然語言處理（NLP）論文摘要進行全面的統計分析，發現不同語言背景的作者在寫作中的詞匯、形態、句法和連貫性方面有明顯的差異，這表明NLP領域存在語言偏置的可能性。因此，我們提出了一系列建議，以幫助學術期刊和會議的出版社改進他們對論文作者的指南和資源，以增強學術研究的包容性和公平性。

02數據收集

為了分析NLP領域的語言偏置，我們收集的論文摘要來自于ACL和EMNLP會議上發表的論文，以及arXiv.org的論文，標簽為“Computation and Language”。本文研究中，我們假設第一作者是文章的撰寫者。為了確定每篇文章的第一作者的國籍，我們設計了一些啟發式方法。首先，我們通過提取電子郵件地址來確定作者所屬機構的國籍。然后，我們使用一個姓名起源數據庫來確定第一作者是否與該機構具有相同的國籍。在機構國籍未知或作者國籍與機構國籍不太可能相符的情況下，這些摘要將被丟棄。最后，為了確保有足夠的數據進行分析，我們保留了數據集中摘要最多的五個國家的數據。這些國家分別是中國、美國、德國、日本和印度。數據集的統計信息見表1。

表1：數據集統計數據

03分析

我們的分析涵蓋了詞匯、形態、句法和連貫性等語言特性，這被認為是語法能力和文本能力的核心組成部分[3]。以下是對每種特性的分析和討論。

3.1 詞匯

我們從兩個不同的層次分析不同國家使用的詞匯特征。首先，我們通過計算類符行符比（token-type ratio）來研究詞匯的多樣性。其次，我們通過詞匯束（lexical bundle）分析來探索多詞級別的詞匯，從中找出常用的詞匯塊。

3.1.1 詞匯多樣性

為了分析詞匯多樣性，我們計算每個文本的類符行符比（token-type ratio）。類符行符比通過將文本中獨特詞的數量除以總詞數來計算。較高的比率表示更高的詞匯多樣性。統計結果如表2中所示。

表2: 平均類符行符比和詞匯鏈長度

從結果中可以看到，與其他語料庫相比，美國和德國的語料庫有相對稍高的類符行符比（token-type ratio）。我們假設這是由于使用同義詞、下義詞和上義詞的增加所導致的。為了驗證這點，我們計算了詞匯鏈的長度，其中每個鏈包含一個摘要中所有語義相關的詞匯；這些詞匯可以通過同義詞、下義詞或上義詞來進行語義關聯。所有名詞的平均鏈長度展示在表2的右側列中?？梢钥吹?，美國語料庫中的平均詞匯鏈長度是所有語料庫中最長的，這意味著平均而言他們會使用更廣泛的詞匯來描述類似概念。相比之下，日本和印度的語料庫具有最短的平均鏈長度，相對稍少的語義相關術語的使用是一個可能的因素。

3.1.2 詞匯束

為了捕捉不同國家的作家如何使用詞匯束，我們對四個詞匯束的使用模式進行了分析。我們通過保留超過預定頻率閾值和分散閾值的詞匯束來確保每個語料庫的代表性。表3展示了詞匯束的頻率（Bundles per Million Words）、獨特詞匯束的數量(Unique Bundles)和不同語法類別的詞匯束數量。

表3：四個詞匯束統計信息

從表3中可以看出，在不同的語料庫之間，詞匯束的頻率存在很大的差異。例如，在中國、日本和印度的語料庫中，詞匯束的使用量是美國語料庫的兩倍以上，而美國語料庫的使用量最少（Bundles per Million Words）。此外，還可以觀察到非英語母語的語料庫中使用的獨特詞匯束數量（Unique Bundles）比美國語料庫更多。第二語言使用者使用詞匯束的情況已經在文獻中廣泛研究過[4, 5, 6, 7]，其中有一種假設是增加使用次數是因為作者依賴使用固定的詞匯表達式以產生更符合學術要求的文本，并避免產生被視為非傳統的表達方式[7]。

我們更深入地研究了詞匯束在摘要中特定功能的使用，即引入論文主要思想的功能。該功能的規范化束計數如表4所示。

表4: 表達引入論文主要思想的詞匯束頻率（每百萬詞）

可以看到，在中國、印度和日本的語料庫中，這個特定功能的詞匯束使用率很高，使用頻率比美國的語料庫高出41%（日本語料庫）到69%（中國語料庫）。然而，我們注意到這三個語料庫中的模式有所不同。例如，在中國語料庫中，總體使用量較高似乎可以歸因于一個特定詞匯束的高使用率（in this paper we）。如果將其與日本語料庫進行對比，我們可以看到盡管詞匯束的總體使用仍然很高，但使用情況分布在更廣泛的詞匯束范圍內，而不是一個單一的詞匯束。

3.2 形態

為了分析形態學維度，我們調查了五個國家作家使用不同動詞形式的分布情況。具體來說，對于每個語料庫中的句子，我們確定主動詞，并根據其是否是過去時態、過去分詞、基本形式、第三人稱現在時、非第三人稱現在時或動名詞來分類動詞形式。分布結果如圖1所示。

圖 1：每個語料庫中動詞形式的分布

根據分析，我們發現這些分布在不同地點上相當一致。然而，還是存在一些例外情況。例如，對于過去時使用（VBD），日本語料庫顯示出這種動詞形式的使用更頻繁，超過12％的動詞帶有VBD標記。這比其他地點的使用頻率高出兩倍以上。相反地，非第三人稱現在時（VBP）在日本語料庫中使用相對較少，有45.5％的動詞使用這種形式，而美國語料庫中有56％的動詞使用這種形式（這是最頻繁的情況）。

3.3 句法

在句法分析中，我們探索短語級別、從句級別和句子級別的復雜性。為了做到這點，我們使用了多種測量方法：名詞短語修飾語的平均數量、每個句子中的從句數量、平均解析樹深度和平均句子長度。分析結果如表5所示。

表5：句法復雜度指標

我們觀察到在名詞短語層面上，與數據集中的其他國家相比，美國和德國的語料庫表現出較低的復雜性（即，較少使用名詞短語修飾語）。然而，當我們觀察從句和句子的層面時，來自美國和德國的文本比其他國家的寫作表現出更高的復雜性。這一觀察意味著在表達復雜思想方面可能存在一些不同的偏好，其中一種選擇是通過更多的短語修飾語來表達復雜性，而另一種選擇是將句子拆分成多個從句。

3.4 連貫性

與已有分析第二語言使用者寫作連貫性的研究[8, 9, 10, 11]相似，我們比較了不同國家作者之間的語篇連接詞的使用情況。為此，我們記錄了所有來自[12]提供的語篇連接詞清單中的連接詞的使用。平均每個句子的語篇連接詞數量如表6所示。

表6: 每個句子中平均的語篇連接詞數量

如上所述，可以看出，美國和德國的文本中使用了更多的鏈接詞。為了探究不同國家的鏈接詞偏好，我們列出了與美國語料庫相比每個語料庫使用率最高的五個連詞。結果如表7所示。

表7：與美國語料庫相比，使用比例最高的五個語篇連接詞

可以看出，每個語料庫都有自己獨特的語篇連接詞集，在與整個數據集相比時更受偏愛。例如，在中國語料庫中，firstly 是一種高度偏愛的連接詞，比來自美國的作者使用頻率高出11倍。同樣，besides 也是中國作者高度偏愛的連接詞，在中國語料庫中的出現頻率比美國語料庫高出10倍以上。我們還注意到，德國、印度和日本語料庫中對consequential（以結果為導向）連接詞有偏好，其中hence、thereby和therefore的出現頻率顯著高于美國語料庫（其中一些未在表中列出，因為它們僅略遜于前5位）。

04結論和推薦

在本文研究中，我們致力于解決學術出版中的語言偏置問題。我們對自然語言處理領域的學術寫作進行了全面對比分析，發現了許多特征在來自不同國籍的作者之間存在很大差異。這些發現凸顯了語言偏置的潛在風險。為了解決這個問題，我們概述了一套推薦措施，建議學術期刊和會議在他們的作者指南中如何支持來自全球各地的論文作者。我們的建議專注于本研究中四個語言特性。例如，在不同作者群體之間差異較大的語言方面，作者指南中可以添加詳細的解釋和示例。另外，我們鼓勵出版商提供免費訪問的自動寫作工具，能夠進行改寫等功能。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據收集

數據收集

+關注

關注
0

文章
67

瀏覽量
11076
數據集

數據集

+關注

關注
4

文章
1182

瀏覽量
24427
自然語言處理

自然語言處理

+關注

關注
1

文章
510

瀏覽量
13214
nlp

nlp

+關注

關注
1

文章
464

瀏覽量
21866

原文標題：EMNLP2023 | 通過NLP領域學術寫作的對比分析試圖解決語言偏置問題

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

ChatGPT爆火背后，NLP呈爆發式增長！

自然語言處理技術，用于計算機中模擬人類的對話和文本理解。主要源于AI大模型化的NLP技術突破是將深度學習技術與傳統的NLP方法結合在一起，從而更好地提高NLP技術的準確性和效率。大模型

的頭像

發表于 02-13 09:47 ?2885次閱讀

【推薦體驗】騰訊云自然語言處理

`相信大家對NLP自然語言處理的技術都不陌生，它是計算機科學領域和AI領域中的一個分支，它與計算機和人類之間使用自然語言進行交互密切相關，而

發表于 10-09 15:28

NLP的介紹和如何利用機器學習進行NLP以及三種NLP技術的詳細介紹

本文用簡潔易懂的語言，講述了自然語言處理（NLP）的前世今生。從什么是NLP到為什么要學習NLP，再到如何利用機器學習進行

的頭像

發表于 06-10 10:26 ?7.7w次閱讀

<b class='flag-5'>NLP</b>的介紹和如何利用機器學習進行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b>技術的詳細介紹

Richard Socher：NLP領域的發展要過三座大山

面對自然語言處理發展（NLP）存在的諸多難題，該領域的大牛、Salesforce的首席科學家Richard Socher在近日指出：NLP領域

發表于 09-06 11:40 ?3596次閱讀

NLP-Progress庫NLP的最新數據集、論文和代碼

方向是自然語言處理的同學們有福啦，為了跟蹤自然語言處理(NLP)的進展，有大量仁人志士在 Github 上維護了一個名為 NLP-Progress 的庫。它記錄了幾乎所有

發表于 11-17 09:21 ?2377次閱讀

回顧2018自然語言處理NLP最全的應用與合作

2018年見證了 NLP 許多新的應用發展。Elvis Saravia 是計算語言學專家，也是2019 計算語言學會年度大會北美分部的項目委員之一。

發表于 01-13 09:08 ?4614次閱讀

如何學習自然語言處理NLP詳細學習方法說明

這篇文章是一名自然語言處理（nlp）的初學者，在nlp里摸爬滾打了許久的一些心得，推薦了nlp的學習路線和資料合集，本站極力推薦。

發表于 03-03 11:05 ?5485次閱讀

NLP領域的難處

NLP領域公司大多成立在2015年、2016年左右，正逢AI熱潮，入局并不算晚，但目前的融資大多還停留在A輪或者B輪，而同時期的語音、計算機視覺公司們卻已經在紛紛沖刺上市。

發表于 09-10 09:48 ?4741次閱讀

自然語言處理（NLP）的學習方向

自然語言處理（Natural Language Processing，NLP）是計算機科學領域與人工智能領域中的一個重要方向。它研究人與計算機之間用自然

發表于 07-06 16:30 ?1.3w次閱讀

NLP不僅可以做到幫助計算機學習并理解我們的語言

這個時候，機器學習的分支——自然語言處理（NLP）應運而生，NLP不僅僅可以做到幫助計算機學習并理解我們的語言，更會幫助計算機進行“情感分析

發表于 08-27 15:11 ?1908次閱讀

NLP 2019 Highlights 給NLP從業者的一個參考

自然語言處理專家elvis在medium博客上發表了關于NLP在2019年的亮點總結。對于自然語言處理（NLP）領域而言，2019年是令人印

發表于 09-25 16:56 ?1527次閱讀

微軟團隊發布生物醫學領域NLP基準

for BiomedicalNatural Language Processing生物醫學特定領域的語言模型預訓練》，介紹并開源了一個能夠用于生物醫學領域 NLP 基準，并命名為 B

發表于 10-22 11:21 ?2088次閱讀

兩個NLP模型的預測分析

中冗余的邊drop掉。通過分析剩余邊上具有怎樣的先驗知識，實現對GNN的預測過程加以解釋。 0. Abstract GNN 能夠將結構歸納偏置（structural inductive biases）整合到 NLP 模型中。然

發表于 04-04 17:11 ?2087次閱讀

人工智能技術是學什么人工智能nlp指的是什么

NLP指的是計算機科學與語言學轉換的領域，人工智能和語言學領域的分支學科。

發表于 09-21 15:18 ?3679次閱讀

人工智能nlp是什么方向

人工智能nlp是什么方向? 人工智能（AI）已經日益普及，正在改變我們的方法和方式。AI 涵蓋了許多領域，其中包括機器學習，計算機視覺，自然語言處理（NLP）等。在這些方向之中，

發表于 08-22 16:45 ?1387次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 什么是RAG，RAG學習和實踐經驗
New MOE與MOT：提升LLM效能的關鍵策略比較

精選推薦
更多

文章

資料

帖子

ELF 1技術貼|如何在Ubuntu中編譯OpenCV庫

ElfBoard
1天前

488 閱讀

【項目展示】基于CW32的遙控循跡小車

CW32生態社區
1天前

420 閱讀

精進嵌入式開源開發技能，RT-Thread?SMP培訓即將來襲！

RT-Thread官方賬號
2天前

126 閱讀

手把手教你如何在Purple Pi OH上開發板安裝Opencv

觸覺智能
2天前

229 閱讀

鴻蒙開發接口媒體：【@ohos.multimedia.image (圖片處理)】

jf_46214456
1天前

528 閱讀

超經典的機器人技術開發與應用手冊

盧國藝
3163KB

3積分

343下載

Spruche基于Node.js輕量級博客系統

萬航渡路
3.92 MB

免費

0下載

ESPlay Retro Emulation復古模擬游戲機

筆畫張
4.99 MB

免費

1下載

Collapse OS簡易的開源操作系統

半導體開發
1.66 MB

免費

0下載

基于HT12D的2通道遠程電機控制器

李名揚
0.11 MB

免費

6下載

有關PL端利用AXI總線控制PS端DDR進行讀寫（從機wready信號一直不拉高）

jf_86841278
2天前

693 閱讀

LDO電源模塊如何快速設計布局

鄒夢雨
2天前

519 閱讀

全志H616（BIGTREETECH CB1）和博通BCM2711（樹莓派4B）CPU對比測試

corkia
2天前

492 閱讀

請教一個三極管推Pmos管的電路問題

雪舞風華
2天前

892 閱讀

用全志XR806開發板輕松連上華為云實現物聯網

corkia
2天前

485 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看