<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于多模態學習的虛假新聞檢測研究

深度學習自然語言處理 ? 來源:專知 ? 2023-09-11 16:26 ? 次閱讀

社交媒體在給人們帶來便利的同時,也成為虛假新聞恣意傳播的渠道,如果不及時發現遏止,極易引發群眾恐慌,激起社會動蕩。因此,探索準確高效的虛假新聞檢測技術具有極高的理論價值和現實意義。

本文對虛假新聞相關檢測技術做了全面綜述。首先,對多模態虛假新聞的相關概念進行了整理和歸納,并分析了單模態和多模態新聞數據集的變化趨勢。其次,介紹了基于機器學習深度學習的單模態虛假新聞檢測技術,這些技術在虛假新聞檢測領域已被廣泛應用,而由于虛假新聞通常包含多種數據表現形式,這些傳統的單模態技術無法充分挖掘虛假新聞的深層邏輯,因此無法有效地應對多模態虛假新聞數據帶來的挑戰。針對此問題,對近些年來先進的多模態虛假新聞檢測技術進行了整理,從多流架構和圖架構的角度歸納和論述了這些多模態檢測的技術方法,探討了這些技術的思想理念與潛在缺陷。最后,分析了目前虛假新聞檢測研究領域存在的困難和瓶頸,并由此給出未來的研究方向。

http://fcst.ceaj.org/CN/abstract/abstract3314.shtml

概述

社交平臺的信息傳播具有低成本、高效率、實時便捷等特點,這些便利為新聞在社區廣泛傳播提供了可能,然而,信息發布和擴散的同時也導致了社交網絡上虛假新聞的恣意橫行。據 2019年 CHEQ 和巴爾的摩大學的經濟研究報道[1],全球每年因虛假新聞造成的損失高達 780 億美元。2020 年 7 月,江蘇南京一小區發生外賣被盜事件,據警方了解,該偷盜居民涉嫌多次盜竊,目前已被刑拘。事發后三天內,眾多網絡媒體發布新聞,稱當事人為考研大學生,報道中還出現了“為供其深造,家中其他 3個兄弟姐妹輟學”等說法。7 月 20 日下午,警方發布通報:嫌疑人李某某大學畢業已兩年,目前有固定收入,其偷外賣的原因,是一次外賣被人拿走后,產生了報復心理。目前,嫌疑人李某某已被取保候審。李某某父母和大姐在老家務農,二姐、三姐分別在北京、海南工作。換言之,“考研大學生”這一身份是虛假信息,李某某的家庭并不貧困,偷外賣也并非為了維持生活,如圖1(a)、圖 1(b)所示。不良媒體通過散播這些假新聞激起群眾的同情,以此獲取流量、關注,直到官方辟謠,這些虛假新聞才得以遏止。由此可見,虛假新聞已經成為大量不良媒體獲取非法利益的工具,它們的存在會加強人們之間的不信任關系,造成不良的社會影響。因此,探索準確高效的虛假新聞檢測方法尤為重要。對于虛假新聞,新聞文字源于圖片的惡意編造,其描述的內容必然與圖像真實內容存在沖突,即模態之間存在語義不一致性,如果單從圖片或者文字角度分析,這種語義不一致性很難被模型識別,容易導致模型分類錯誤,因此,從多模態的角度探索虛假新聞檢測技術很有必要。

縱觀這些年關于虛假新聞檢測的綜述文章,很少有從多模態角度來分析的。早期研究者們致力于尋找和構建人工特征來表示新聞內容,這時的綜述內容大多是關于這些特征的歸納整理[2-3],后來,隨著深度學習技術的發展,學者們將研究重心放在了這種自動化特征提取技術上,其中涌現了大批基于深度學習的虛假新聞檢測文章,近些年來,一部分學者對這些方法進行了總結[4- 5]。然而,這些文章的研究角度存在局限,并沒有考慮到虛假新聞中的其他模態。有研究發現[6- 7],新聞的視覺內容是能誤導讀者的關鍵因素。此外,新聞社交圖中蘊含的虛假新聞傳播信息是檢測取得成功的重要因素[8],因此從多模態的視角分析新聞很有必要。針對此,本文詳盡地梳理了以往虛假新聞檢測領域的一些工作,從單模態到多模態的角度對該領域做全面的整理和綜述。本文的貢獻如下:

(1)詳盡地從單模態到多模態角度對虛假新聞檢測領域相關技術做了歸納和整理;(2)將基于新聞社交圖的檢測技術作為一種特殊的多模態處理方法,并對其最新技術的研究現狀做了補充和完善;(3)梳理了現有虛假新聞檢測技術存在的研究瓶頸,并給出了未來研究方向。

多模態虛假新聞檢測技術

不同形式的信息源可以看成不同的模態[51],新聞是典型的多模態數據,書面報道的新聞通常包含圖片和文本兩種模態信息,短視頻新聞至少包含圖像、音頻和字幕等多模態信息,新聞社交圖中包含新聞內容以及新聞行為等多種模態信息。多模態虛假新聞檢測技術的關鍵是如何構建模型框架學習新聞數據的多模態信息,以提升虛假新聞檢測性能??偨Y至今提出的一些文章,大致可以劃分為兩類:基于流形式的多模態虛假新聞檢測技術和基于圖形式的多模態虛假新聞檢測技術。

基于流形式的虛假新聞檢測技術

基于單流架構的技術

單流架構指在模型輸入之前,不同模態數據的初級特征會通過拼接、函數映射等方式進行數據融合,得到的多模態特征內部中各個模態的信息是獨立的,而多模態信息需要在后續模型中學習。最具代表性的是基于 Transformer 架構的多模態模型,如ViLT(vision-and-language transformer)[52]、MBT(multimodal bottleneck transformer)[53]等,各模態的數據會預處理為序列化數據,例如,文本會轉化為多個 token組成的序列,圖片會轉化為多個不重疊的圖片 patch序列,音頻數據會先轉化為頻譜圖,最終組成多個不重疊的頻譜圖 patch 序列,多個模態的特征最終會進行拼接,構成模型的多模態輸入特征,單流架構框架如圖 2所示。

9a22e224-5079-11ee-a25d-92fbcf53809c.png

目前,單流架構模型在視頻分類、情感分析、圖像生成等多模態領域中得以廣泛應用,單流模型具有結構簡單、容易實現、高準確率等優勢,在虛假新聞檢測領域中,是一個極具潛力的研究方向。但參考目前的一些研究,其也存在一些缺陷:(1)在網絡訓練時需要花費更多的迭代次數才能獲得好的多模態表示;(2)由于模型的輸入特征通常是多個模態特征拼接而成,模型有較高的計算復雜度;(3)單流模型的學習需要大量的訓練數據集,而在虛假新聞檢測領域中,目前沒有足夠多可以訓練的數據。

基于多流架構的技術

近些年來,關于多模態虛假新聞檢測領域,研究者們更常用的是基于多流架構的技術。多流架構是指根據不同模態數據設計不同模型提取模態高級特征,從各個模態高級特征中學習多模態特征并輸入下游的分類器中預測各個類別的概率。相比單流架構,多流架構更加靈活,其可以針對不同模態數據單獨設計模型提取模態特征。多流框架如圖 3所示。

9a4fd298-5079-11ee-a25d-92fbcf53809c.png

9a61a95a-5079-11ee-a25d-92fbcf53809c.png

基于圖形式的虛假新聞檢測方法

社會性是新聞的基本特性之一,新聞數據可以表示為新聞和新聞受眾互動的社交網絡圖,新聞社交網絡圖包含了新聞文章、評論等純文本數據,也包含了節點、連邊等關系型數據,這些不同形式數據組成的圖可以看作特殊的多模態數據。本節主要綜述基于新聞社交圖的虛假新聞檢測技術,其大致可以包含兩類:基于圖機器學習的技術和基于圖神經網絡的技術。

基于圖機器學習的技術虛假信息的傳播主要包含三種因素[71]:一是新聞內容的合理性;二是傳播者的個性以及可信度;三是傳播網絡的同質性?;谝陨弦蛩?,研究者根據新聞內容和社交信息建立了不同的新聞社交圖,如新聞傳播樹、新聞立場網絡等,以探究虛假新聞的傳播模式。傳播樹代表了在社交媒體上新聞文章的發帖和轉發之間的關系。Wu等人[72]將消息傳播模式描述為樹結構的關系,傳播樹不僅能反映轉發者與作者之間的關系,還能反映轉發者的即時行為和情感。其次,Ma 等人[13]分別構建了真新聞和假新聞的消息傳播樹,利用真新聞和假新聞存在的不同傳播模式,計算兩棵傳播樹之間的子結構的相似性,實驗證明該方法可以有效幫助檢測假新聞。

立場網絡的節點表示新聞和帖子,邊表示帖子與帖子之間的支持和反對關系。利用立場網絡進行虛假新聞檢測,即檢測與某新聞相關帖子的可信度,可信度越低,代表該新聞是假新聞的可能性越大。在新聞的傳播中,有學者發現[73],可以通過用戶分享的觀點、猜測和證據來自我糾正一些不正確的信息。如圖 5 所示,圖 5(a)表示虛假新聞的立場網絡,圖 5(b)表示真實新聞的立場網絡。此外,有學者對假新聞傳播樹和立場網絡進行綜合分析。Davoudi等人[74]提出了一種包含動態分析、靜態分析和結構分析三個結構的檢測框架。其分別使用循環神經網絡、全連接神經網絡和 Node2Vec 學習傳播樹和立場網絡隨時間的演化模式、檢測結束時傳播樹和立場網絡的整體特征以及傳播樹和立場網絡的結構特征,最終匯總三個結構的輸出完成虛假新聞的檢測。

9ab31376-5079-11ee-a25d-92fbcf53809c.png

基于圖神經網絡的技術

近年來,研究者們借鑒了卷積網絡、循環網絡和深度自編碼器的思想,設計了可以用于處理圖數據的神經網絡結構——“圖神經網絡”[76]。該技術在處理圖關系數據時有獨特的優勢,而虛假新聞的散布和傳播是以圖形式實現的,圖中節點表示與新聞相關的實體信息,而連邊表示不同實體之間的聯系。新聞社交傳播圖如圖6所示。

9aca7f2a-5079-11ee-a25d-92fbcf53809c.png

圖卷積網絡(graph convolutional network,GCN)是借用卷積網絡的思想處理圖數據而提出的一種圖神經網絡模型,其核心思想是學習一個映射函數,對于圖中的一個節點,聚合該節點的特征和鄰居節點的特征來生成該節點的新表示。Chandra等人[78]提出的 SAFER(socially aware fake news detection framework)模型使用 GCN 來獲取具有用戶信息的新聞表示,然而他們構建的是同質圖網絡,會導致信息丟失問題。在此基礎上,Wang等人[79]以新聞文本、圖片和知識概念為節點構建異質圖,一定程度上緩解了該問題。此外,Bian等人[80]從新聞的傳播深度和散布廣度兩個角度研究虛假新聞的擴散模式,如圖 7 所示,他們提出了雙向圖卷積神經網絡,從自上而下和自下而上兩個方向分別獲取虛假新聞傳播和散布的模式,最終的實驗結果證明該方法的有效性。

總的來說,基于圖形式的虛假新聞檢測方法具有準確率高、靈活性強等優點,可以識別影響虛假信息傳播的重要節點,為模型提供了一定的可解釋能力。但也存在一些問題,如新聞社交圖需要事先人為構建,當與新聞相關的實體數量太多時,需要花費大量時間,有時還可能錯漏關鍵實體信息;其次,圖的訓練需要花費大量時間,對硬件的需要較大;此外,涉及時間因素的圖檢測技術仍然發展不完善。

結論

在互聯網時代下,如何在海量的新聞中準確高效地識別虛假信息成為了國際關心的熱點話題。經過多年的研究探索,虛假新聞檢測技術已經從早期的人工檢測發展成如今的自動化檢測,基于機器學習的人工特征提取轉變為如今的深度學習自動特征提取,對新聞單一對象的檢測方法演變為用戶特征、文本、圖片、視頻特征以及傳播特征等多模態聯合的檢測方法。

本文對虛假新聞檢測研究相關理論進行了整理,從單模態到多模態角度對虛假新聞檢測數據集與相關技術做了全面的綜述,并對現有研究中存在的缺陷做了歸納整理,最后給出該領域存在的問題以及以后的研究方向。本文不僅對后來的學者們有借鑒作用,而且還對專業媒體平臺應對虛假新聞沖擊提供重要的實際應用價值。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 檢測技術
    +關注

    關注

    2

    文章

    337

    瀏覽量

    28939
  • 模型
    +關注

    關注

    1

    文章

    2790

    瀏覽量

    47922
  • 深度學習
    +關注

    關注

    73

    文章

    5257

    瀏覽量

    120079

原文標題:基于多模態學習的虛假新聞檢測研究

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于深度學習的異常檢測研究方法

    異常檢測的深度學習研究綜述原文:arXiv:1901.03407摘要異常檢測是一個重要的問題,在不同的研究領域和應用領域都得到了很好的
    發表于 07-12 07:10

    網絡虛假新聞的生成形態

    網絡虛假新聞的生成形態:以往對虛假新聞成因的探討,局限于“從業人員素質不高”、“法制不健全”、“有償新聞”等的范圍,而本文從網絡虛假新聞的生成基礎出發,對現有關
    發表于 10-26 11:09 ?12次下載

    Spark機器學習庫的各種機器學習算法

    科技和商業媒體報道,機器學習將防止全球變暖,顯然只有中國的新聞媒體才會發布類似的虛假新聞,可能機器學習能夠識別虛假新聞吧(與分類算法有關)?事實上,機器
    發表于 09-28 16:44 ?1次下載

    Bloomsbury AI團隊加入Facebook團隊,共同構建新的自然語言杜絕假新聞

    當然,本次的收購對于Facebook來說,意義重大,Bloomsbury AI可以幫助其監控社交網絡和監管虛假新聞和違禁內容。目前,Facebook面臨著用戶隱私泄露、虛假新聞不斷等負面消息,然而,Bloomsbury AI團隊的加入,能否依賴人工智能和機器
    發表于 07-09 20:02 ?285次閱讀

    Facebook擴大內容核查范圍,機器學習+全方位審核打擊假新聞

    6月22日早晨,Facebook宣布將擴大其內容核查范圍,以打擊社交網絡上面的虛假新聞和惡作劇消息,并通過相應的打擊措施和技術手段,盡量減少虛假新聞帶來的惡劣影響。
    的頭像 發表于 06-27 14:49 ?2308次閱讀

    告別虛假新聞 谷歌臉書等聯手打擊虛假新聞

    據路透社北京時間9月26日報道,一份協議草案顯示,谷歌、Facebook、Twitter等科技和廣告公司,承諾將采取新措施、投資新技術,打擊虛假網絡新聞在歐洲的傳播。
    的頭像 發表于 10-14 09:47 ?1687次閱讀

    如何才能將AI技術應用到虛假新聞的打擊中去?

    近日,谷歌和其他一些科技巨頭包括Facebook和Twitter就如何應對虛假新聞的傳播簽署了一項行為準則。實際上,繼虛假新聞的嚴重性和傳播范圍在2016美國總統大選和英國脫歐公投之后被曝光
    發表于 10-08 09:57 ?1801次閱讀

    AI如何檢測這類虛假新聞

    人類打擊互聯網假新聞還是任重道遠啊。
    的頭像 發表于 04-28 17:18 ?2441次閱讀

    如何采用區塊鏈技術打擊虛假新聞

    盡管這一說法在最近才被提及,但虛假新聞或偽造歷史并不新鮮。隨著時間的推移而不斷地發展,每個社會都建立在可公開的信息的儲存以及共有的歷史之上。彭博社的專欄作家Megan McArdle寫了一篇關于“虛假新聞”的文章,標題是“事實核查的無限倒退問題”。
    發表于 05-29 11:31 ?1260次閱讀

    Twitter收購Fabula AI 用于檢測虛假信息傳播

    Twitter收購Fabula AI 用于檢測虛假信息傳播,Twitter收購了總部位于倫敦的初創公司Fabula AI,該公司利用機器學習(ML)來幫助檢測網上
    發表于 07-01 11:00 ?477次閱讀

    滑鐵盧大學研究人員開發出一種新的人工智能工具 可鑒別并清除虛假新聞

    近日,滑鐵盧大學研究人員開發了一種新的人工智能工具,該工具使用深度學習的AI算法來確定帖子中的故事是否得到同一主題的其他帖子故事的支持,這可以幫助社交媒體網絡和新聞機構鑒別并清除虛假新聞。
    的頭像 發表于 12-17 16:09 ?3128次閱讀

    虛假在線評論信息識別研究綜述

    web2.0時代,消費者在在線購物、學習和娛樂時越來越多地依賴在線評論信息,而虛假的評論會誤導消貲者的決策影響商家的真實信用,因此有效識別虛假評論具有重要意義。文中首先對虛假評論的范圍進行了界定
    發表于 04-19 15:15 ?5次下載
    <b class='flag-5'>虛假</b>在線評論信息識別<b class='flag-5'>研究</b>綜述

    商品虛假評論識別研究綜述

    、發布者及虛假評論者群組的識別,對識別過程所使用的特征及檢測方法進行對比分析,并給出虛假評論識別效果的評價方式和指標。在此基礎上,對未來虛假評論識別
    發表于 05-25 15:25 ?5次下載

    簡述文本與圖像領域的多模態學習有關問題

    來自:哈工大SCIR 本期導讀:近年來研究人員在計算機視覺和自然語言處理方向均取得了很大進展,因此融合了二者的多模態深度學習也越來越受到關注。本期主要討論結合文本和圖像的多模態任務,將
    的頭像 發表于 08-26 16:29 ?6485次閱讀

    虛假新聞網站利用AI批量炮制假新聞,數量猛增驚人

    值得關注的是,NewsGuard 的研究還揭示,AI 工具讓虛假信息傳播者和內容農場生產假新聞變得輕而易舉且高效。無論身處何方,有才能的或是沒有才能的人都可以創建這些網站。
    的頭像 發表于 12-20 13:48 ?451次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>