<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

電子發燒友App

硬聲App

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

電子發燒友網>人工智能>快速全面了解大模型長文本能力

快速全面了解大模型長文本能力

前言

如今的大模型被應用在各個場景，其中有些場景則需要模型能夠支持處理較長文本的能力(比如8k甚至更長)，其中已經有很多開源或者閉源模型具備該能力比如GPT4、Baichuan2-192K等等。

那關于LLM的長文本能力，目前業界通常都是怎么做的？有哪些技術點或者方向？今天我們就來總結一波，供大家快速全面了解。

當然也有一些關于LLM長文本的綜述，感興趣的小伙伴可以看看，比如：

《Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey》：https://arxiv.org/pdf/2311.12351.pdf

今天我們會從如下幾個層面進行介紹：：數據層面、模型層面、評估層面。每個層面挑幾個還不錯的工作淺淺學一下業界都是怎么做的。

全文涉及較多工作，建議收藏，方便后續查詢細讀或者下載數據。

數據層面

LongAlpaca-12k

鏈接：https://huggingface.co/datasets/Yukang/LongAlpaca-12k

其是LongAlpaca-12k的一個工作，共收集了9k條長文本問答語料對，包含針對名著、論文、深度報道甚至財務報表的各類問答。

同時為了兼顧短文本能力，還從原有的Alpaca數據集中挑選了3k左右的短問答語料即最終構建了12k。

LongQLoRA

鏈接：https://huggingface.co/datasets/YeungNLP/LongQLoRA-Dataset

其是LongQLoRA的一個工作，其開源了兩部分數據一部分是54k的預訓練數據，一部分是39k的sft數據。

Ziya-Reader

鏈接：https://arxiv.org/abs/2311.09198

本篇paper主要貢獻是如何構建長文本問答訓練數據，專注用于多文檔或單文檔問答，雖然訓練數據沒有開源，但是做數據的方法我們可以學習一下

其主要借鑒cot的思路，在長文本問答領域也采用類cot，具體來說是：

（1）讓模型先對問題進行復述，這使得模型在看了一段非常長的上下文信息后，也不會因為距離衰減的原因忘記原始的提問，因而在生成回復時，更加能夠關注到問題。

（2）讓模型預測正確上下文段落的索引下標，通過這樣的方式可以讓模型更加關注正確的上下文段落。

（3）預測最終答案

可以看到(1)(2)就是作者采用的cot

除此之外之外，還構建了一些負樣本，比如沒有正確上下文等等來增強模型的泛化性。

LongAlign

鏈接：https://huggingface.co/datasets/THUDM/LongAlign-10k

這篇工作主要聚焦做長文本的sft數據，具體來說作者從9個不同的來源收集長篇文章后使用Claude 2.1根據給定的長篇背景生成任務和答案。

模型層面

模型層面主要是探索外推性，即如何確保在模型推理階段可以支持遠遠超過預訓練的長度，其中限制外推的根本原因有兩個即在inference階段面對更長文本的時候，會出現更長的新位置編碼（相比訓練）以及歷史上下文kv緩存過大這兩個根本難題。

為此目前的探索主要發力解決這兩個難題：（1）設計位置編碼；（2）動態設計局部注意力機制。下面我們逐個詳細看看～

（1）設計位置編碼

關于這部分推薦一篇博客：https://mp.weixin.qq.com/s/RtI95hu-ZLxGkdGuNIkERQ

大模型的位置編碼發展史：絕對位置編碼 -> 相對位置編碼 -> 旋轉位置編碼。

其中絕對編碼的一個缺點是模型無法顯式的感知兩個token之間的相對位置，而后續的比如Sinusoidal相對位置編碼則通過正余弦函數實現了相對位置編碼，而旋轉位置編碼則實現了通過簡單的周期性旋轉將位置信息編入了進去。

其中一個向量維度是d，越靠后的分組，它的旋轉速度越慢，正弦函數的周期越大、頻率越低。

所以我們簡單總結一下旋轉位置編碼直觀的性質，他的核心是通過旋轉向量來將位置信息植入進來（非常巧妙，不需要其他什么復雜的改變，只需要旋轉向量就可以），具體的旋轉過程是：假設當前向量是d維，那么就分為d/2個組，每個組進行各自的周期旋轉，越靠后的分組，它的旋轉速度越慢，正弦函數的周期越大、頻率越低。

轉化為數學一點為：向量q(維度為d)在位置m時，它的第i組(總共d/2個組)分量的旋轉弧度為

當訓練長度為L時，模型訓練的時候只見過即，當推理長度大于L時，模型不能cover新的旋轉弧度也即無法插入新的位置信息了。

知道了卡點，下面我們來看幾個相關的改進工作。

Position Interpolation

該方法為位置插值，思路也比較好的理解，既然超過L后的旋轉模型因為沒有見過就不能理解，那么我們就不超過，但是位置m還想擴大（比如一倍），那就可以通過縮小每個位置的旋轉弧度（讓向量旋轉得慢一些），每個位置的旋轉弧度變為原來的，這樣的話長度就可以擴大幾倍。具體的為：，這樣的話即保證了沒有超過訓練的旋轉范圍，又插入更長或者更多的位置。

NTK-Aware Interpolation

該方法也是通過縮放，具體方法為如下：具體的是引入了一個縮放因子。

從數學角度看的話，Position Interpolation是將縮放因子放到了外面，而NTK是放到了里面（帶有指數）。從直觀的理論上看Position Interpolation方法是對向量的所有分組進行同等力度地縮小，而NTK對于較前的分組（高頻分量）縮小幅度小，對于較后的分組（低頻分量）縮小幅度大。

這樣做的目的是靠前的分組，在訓練中模型已經見過很多完整的旋轉周期（因為旋轉速度很快，這個性質之前已經介紹過了），位置信息得到了充分的訓練，所以已經具有較強的外推能力。而靠后的分組，由于旋轉的較慢，模型無法見到完整的旋轉周期，或者見到的旋轉周期很少，外推性能就很差，需要進行位置插值。

NTK-by-parts Interpolation

這個方法就更直接了，直接一刀切，對于高頻分量就不縮小了（一點也不）即不進行插值，因為已經具備外推性，而對于低頻分量由于訓練沒見過完整旋轉周期所以外推性差，那就進行插值。相比于NTK-Aware Interpolation方法，這個方法更硬一些。

Dynamic NTK Interpolatio

NTK插值在超過訓練長度L時表現還不錯，但是在訓練長度內反而表現較差，為此本方法實現了動態插值即當inference的長度l在訓練長度L內就不進行插值，超過訓練長度L才進行NTK-Aware Interpolation。

具體的縮小因子也是個動態值為：，其中l隨著不斷生成不斷累加，是個動態值。

（2）動態設計局部注意力機制

在生成每一個token的時候，其實核心都是在計算attention score，那么就需要查詢之前token的kv值，為了提高效率，一般來說會把歷史的kv值都緩沖起來，這樣后續就可以快速用了，但問題是當隨著長度增加時，內存必然OOM。

知道了卡點，下面我們來看幾個相關的改進工作。

EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS

論文鏈接：https://arxiv.org/pdf/2309.17453.pdf

(a) 就是常規inference，可以看到不論是復雜度還是效果性能隨著長度增加，都會變得嚴峻。

(b) 就是常說的滑動窗口，核心方法就是每次只緩沖最近幾個token，這樣的話可以保證效率，但是當文本變長后，性能會下降。

(c) 就是不緩沖，每次重新計算最近幾個token的，好處是保住了性能，但是效率也大大降低，因為每次都要重新計算

(d) 就是本文提出的方法，其通過觀察發現大量的注意力分數被分配給初始token（即使這些token與語言建模任務沒有相關性），基于此作者沿用(b)的方法，只不過每次除了用緩沖的最近幾個token，額外再加上開頭的幾個token。

通過(d)方法最終實現了無限外推，該工作的代碼也已經開源，star非常多，很受歡迎。

LONGLORA: EFFICIENT FINE-TUNING OF LONG- CONTEXT LARGE LANGUAGE MODELS

論文地址：https://browse.arxiv.org/pdf/2309.12307.pdf

本篇主要的貢獻在于開源了一個長文本訓練數據（見上節）以及提出了一個shift short attention

可以看到就是先分組(各個組內進行self attention)，只不過由于各個組由于之間沒有交互信息，導致效果變成，于是作者也采用滑窗口機制來緩解一下，即使用半組長度來滑，本質上就是滑動窗口，只不過就是先分組再滑。

同時其支持lora訓練，可快速訓練適配部署自己的模型。

LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS

論文地址：https://arxiv.org/pdf/2311.04879.pdf

其和上篇的LONGLORA大同小異，主要不同是替用qlora進行訓練，更節省資源，同時另外一個貢獻就是開源了一個長文本數據集(見上節)

Soaring from 4K to 400K: Extending LLM’s Context with Activation Beacon

論文地址：https://arxiv.org/pdf/2401.03462v1.pdf

這篇論文的思路也很樸素：大的思路也是采用滑動窗口，只不過在怎么動態保存之前上下文的思路上采用的是壓縮思路，即前面信息既然太多，那就壓一壓。

具體的前面咱們介紹的EFFICIENT是通過每次滑的時候始終保留最前面幾個token，而本篇的思路就是把每個區間的信息（圖中藍色）壓縮成一個激活信標（圖中綠色），而后面就用這些單個激活信標來代表整個區間的信息。

那激活信標怎么得到呢？作者也是采用了注意力機制，具體的探索了三種方法，一種是分段即每個信標只用自己區間的信息（圖A），第二種是逐步分段即每個信標可以關注比其前身多一個子區間(圖B)，第三種是完全覆蓋，其中所有信標都可以關注整個上下文（圖C）。這三種方法的計算成本相同。最后作者發現第二種最好。

有了信標后，便可以將信標和來自普通信息一起使用滑動窗口進行流式處理即每個滑動窗口由過去上下文區間的m個信標和最新上下文區間的普通標記組成。

評估層面

在迭代模型長文本能力的過程中，需要一個量化指標來不斷指導，目前業界已經有一些評估，一起來看看吧～

ZeroSCROLLS

論文鏈接：https://arxiv.org/pdf/2305.14196.pdf

其由十個自然語言任務構成，包括摘要、問答、聚合任務(給50條評論，讓模型預測正面評論的百分比)等等

longeval

論文鏈接：https://lmsys.org/blog/2023-06-29-longchat/

該工作通過設計topic和lines長文本記憶能力來測試模型的長文本能力。

L-Eval

論文鏈接：https://arxiv.org/pdf/2307.11088.pdf?

該工作從公開數據集收集數據，然后手動過濾和校正，重新標注得到。

LongBench

論文鏈接：https://arxiv.org/abs/2308.14508

該工作也是設計了單文檔問答、多文檔問答、摘要任務、Few-shot任務、合成任務、代碼補全等等

LooGLE

論文鏈接：https://arxiv.org/pdf/2311.04939.pdf

該工作從科學論文、維基百科文章、電影和電視中收集樣本，然后也是設計摘要等任務。

FinLongEval

論文鏈接：https://github.com/valuesimplex/FinLongEval

主要聚焦金融領域的長文本評測

總結

可以看到，在助力LLM長文本能力的道路上目前有兩個大的方向在發力：

（1）從數據入手即構建做高質量長文本數據，這非常重要，因為有了數據才能訓練，其中長文本預訓練數據相對來說比較好找，但是sft數據就比較難了，并不是說強行cat起來就是有效長文本，比如把多個單輪文本cat到8k，但是這是一個偽多輪，對模型學習全局信息幫助很??；關于怎么構建高質量的長文本數據尤其是中文領域的數據還需要更多的探索，可以借鑒長文本評測任務來汲取靈感進行構建訓練數據。

（2）從模型層面入手進行外推，目前一個是探索位置編碼，另外一個就是探索怎么緩解kv緩沖也即兩個核心問題：第一就是尋找或設計合適的位置編碼；第二是設計局部注意力機制。其中第一個大的方向都是縮放即通過縮放將旋轉范圍依然縮放到和訓練一致但實現了插入了更多的或者更長的位置，第二個大的方向基本都是探索怎么把之前的信息進行動態壓縮，更進一步這里的動態其實就是滑動，只不過在滑動上進行各種不同的邏輯。將兩個技術點（本來就是解決不同問題的）合理的結合也是很重要的。

總的來說，首先盡可能的收集準備好高質量的長文本訓練數據，然后在當前資源下訓練到最大長度，最后在推理時可以借助各種外推手段進行拓展。

審核編輯：黃飛

?

閱讀全文

GPT(14803) GPT(14803)
位置編碼器(5494) 位置編碼器(5494)
大模型(810) 大模型(810)
LLM(229) LLM(229)

評論

查看更多

相關推薦

一文全面了解linux相關知識

今天浩道跟大家分享linux實用場景相關的實例，助你全面了解linux相關知識。

2023-01-29 11:09:09

374

3D軟件中如何應用文本特征？3D文本特征應用技巧

`在日常設計過程中，設計工程師總會遇到需要在各種塑料、鑄造或鍛造零件的模型上，標注企業標準化標簽或零件號的情況。浩辰3D軟件除了能夠快速且高效地完成3D模型的設計與裝配，還能在各種3D模型上實現文本

2021-04-22 17:28:02

全面了解電腦主板

大家知道，主板是所有電腦配件的總平臺，其重要性不言而喻。而下面我們就以圖解的形式帶你來全面了解主板。

2019-08-02 06:42:14

全面了解紅外遙控

本帖最后由 eehome 于 2013-1-5 09:51 編輯全面了解紅外遙控

2012-08-19 22:57:01

全面了解紅外遙控

本帖最后由 eehome 于 2013-1-5 10:10 編輯全面了解紅外遙控

2012-08-11 09:44:07

全面了解車用電機控制器，從原理到設計！

的優缺點。全面總結了開關磁阻電動機的發展方向及應用前景，描述了開開關磁阻電動機調速系統的四個組成部分和運行情況。從分析SR電機的性能入手，在Matlab／Simulink下建立了開關磁阻電機的線性仿真模型

2020-06-22 14:44:05

全面、高效的了解電子行業最新信息

  由于經濟危機帶來的影響，電子行業也面臨著種種困難。如何拓展國際市場，如何讓產品結構與貿易形勢方式調整更加深入。如何快速掌握市場變化，了解行業最新行情、市場需求和同行業的相關

2009-06-23 10:59:47

快速創建下拉列表項文本

快速創建下拉列表項文本，通過復制文本到txt控件快速導入，如圖上內容

2019-07-18 11:32:45

文本信息抽取的分階段詳細介紹

系統基于已有的標注構建一個學習模型，并用一個條件概率分布進行表示。信息抽取系統則是根據得到的條件概率分布模型，對新的樣本進行標注。文字單元在具體的實現中可以是一個文本、一個句子、一個詞語，甚至還可

2019-09-16 15:03:58

長文件名沒有用

=_MAX_LFN*2+1;//長文件名最大長度tfileinfo.lfname=mymalloc(SRAMIN,tfileinfo.lfsize);//為長文件緩存區分配內存if(res

2019-04-15 04:47:16

CC2540的應用是否需要全面了解藍牙協議

現在打算用這個IC來開發一些產品，但是感覺入門挺高的，不知如何下手。請各位指導一二！用這個來開發，是否需要全面了解藍牙協議,對于藍牙協議，該如何處理？

2018-08-19 07:39:33

HarmonyOS 3.1版本發布，全面進入聲明式開發

——Stage模型，并在DFX、Web組件開發、國際化開發、通信互聯、媒體軟件等子系統能力方面有所更新或增強，這些能力標志著HarmonyOS全面進入ArkTS語言的聲明式開發階段。下面，讓我們一起了解

2022-11-15 11:58:42

NLPIR在文本信息提取方面的優勢介紹

構建知識圖譜需要滿足三項要素要求，分別是實體，關系和屬性。文本信息提取，則是在文本中提出三元信息，包括實體和關系的信息，實體和屬性的信息，然后將這些關系設置成數據庫的過程。進行信息提取的主要環節

2019-09-12 15:33:03

eplan_路徑功能文本能解決什么問題

eplan_路徑功能文本是什么？eplan_路徑功能文本能解決什么問題？eplan_路徑功能文本可能存在哪些問題？

2021-09-06 07:24:07

為什么雙層板頂面可以全面灌注底面只能用快速灌注

為什么雙層板頂面可以全面灌注底面只能用快速灌注

2017-11-23 08:54:33

初學者怎樣提高自己的動手能力和掌握知識的全面性

初學者怎樣提高自己的動手能力和掌握知識的全面性

2015-08-14 14:56:59

大咖帶你了解技術團隊效能動力模型

全面發展，從而提升自己的職業素養。技術團隊效能動力模型針對以上三個問題的思考形成了技術團隊效率動力模型。模型中主要包含兩部分，即集體環境效能和個體職業素養，而各部分又可進一步可分解出其他要素。模型中箭頭所

2018-06-06 21:28:10

如何快速地得到精確的MGH發送器模型？

如何建立自己的MGH MacroModel？如何快速地得到精確的MGH發送器模型？

2021-05-25 07:24:25

如何快速搭建STM32應用模型？

如何快速搭建STM32應用模型？

2022-02-10 06:27:15

如何利用CH376S創建長文件名文件？

用CH376S創建長文件名文件時，根據EXAM11例程創建文件，發現返回的數值是0x41，在電腦中查看U盤文件，短文件名文件有創建，長文件名沒有創建，還有想知道這個短文件名和長文件名之間有什么對應

2022-07-04 07:42:27

如何提升模型能力？

目標檢測的模型集成方法及實驗常見的提升模型能力的方式

2021-02-24 07:10:29

如何構建文本生成器？如何實現馬爾可夫鏈以實現更快的預測模型

加載真正的訓練語料庫?？梢允褂萌魏蜗胍?b class="flag-6" style="color: red">長文本(.txt)文檔。為了簡單起見將使用一個政治演講來提供足夠的詞匯來教授我們的模型。text_path = "

2022-11-22 15:06:55

求助，CH32F103如何讀取U盤已有的長文件名？

讀取U盤里面現有的長文件名，通過CH103FileOpen枚舉文件夾內的文件，可以得到長文件名文件的短文件名，也可以使用該短文件名來操作這個文件，就是不知道如何得到這個長文件名文件的長文件名？如果有

2022-05-12 08:28:17

用于快速模型的模型調試器11.20版用戶指南

用于快速模型的模型調試器是用于可擴展集群軟件開發的完全可重定目標的調試器。它旨在滿足SoC軟件開發人員的需求。 Model Debugger具有易于使用的GUI前端，并支持： ?源代碼級調試

2023-08-10 06:33:37

用于快速模型的模型調試器11.21版用戶指南

用于快速模型的模型調試器是用于可擴展集群軟件開發的完全可重定目標的調試器。它旨在滿足SoC軟件開發人員的需求。 Model Debugger具有易于使用的GUI前端，并支持： ?源代碼級調試

2023-08-09 07:57:45

論述運用word排版長文檔的主要步驟和方法精選資料分享

，在這里供大家使用。（如果大家使用計算機二級office軟件方便的話，另說）長文本排版：首先是要求：(1) 調整紙張大小為B5，頁邊距的左邊距為2cm，右邊距為2cm，裝訂線1cm，對稱頁邊距。(2

2021-07-19 07:38:17

全面了解紅外遙控.pdf

全面了解紅外遙控.pdf

2006-04-09 22:21:18

101

快速的文本傾向性分類方法

提出了一種快速的文本傾向性分類方法，即采用類別空間模型描述詞語對類別的傾向性，基于詞的統計特征實現分類；針對傾向性分類的復雜性，在綜合考慮詞頻、詞的文本頻、詞

2008-12-18 16:41:43

7

3D打印高性能材料模型樹脂 RE 51 高耐磨高精度無氣泡快速打印

3D打印高性能材料模型樹脂 RE 51 RE 51 模型樹脂RE 51是一款可快速打印的模型樹脂材料，具有高精度的材料特性，可使打印模型具有光潔、精細的紋理表面

2023-02-15 14:50:30

配電網CAD系統中文本標注技術與應用

本文介紹了矢量繪圖系統中文本標注技術的原理和方法，結合配電網CAD 系統的開發，給出了在VC++開發環境下多行文本標注的具體實現方法。標注文本能和系統圖形同步顯示，具

2010-02-22 13:49:16

36

筆記本能換顯卡？

筆記本能換顯卡？

2010-01-20 14:10:24

528

文本分類的原理是什么？#硬聲創作季

文本

電子學習發布于 2022-11-20 21:09:28

基于PLSA主題模型的多標記文本分類_蔣銘初

基于PLSA主題模型的多標記文本分類_蔣銘初

2017-01-08 10:40:54

0

通信設備硬件工程師應該具備的基本能力和知識

通信設備硬件工程師應該具備的基本能力和知識

2017-01-13 21:53:25

10

文本分類中CTM模型的優化和可視化應用研究

如何從海量文本中自動提取相關信息已成為巨大的技術挑戰，文本分類作為解決該問題的重要方法已引起廣大關注，而其中文本表示是影響分類效果的關鍵因素。為此采用相關主題模型進行文本表示，以保證信息完整同時表現

2017-11-22 10:46:30

10

基于微博文本的詞對主題演化模型

針對傳統主題模型忽略了微博短文本和文本動態演化的問題，提出了基于微博文本的詞對主題演化（ BToT）模型，并根據所提模型對數據集進行主題演化分析。BToT模型在文本生成過程中引入連續的時間變量

2017-12-03 11:31:15

14

中文短文本聚合模型研究

的中文短文本聚合模型，通過快速匹配和精細匹配兩個關鍵步驟可以大幅度降低匹配的候選對數量，并保證匹配的精度．針對傳統短文本相似度算法的不足，提出了一種新穎的廣義Jaro-Winkler相似度算法，并從理論上分析了該算法的參

2017-12-25 10:11:34

0

通過講述Redis的數據結構和主要命令對Redis的基本能力進行直觀介紹

本文將從Redis的基本特性入手，通過講述Redis的數據結構和主要命令對Redis的基本能力進行直觀介紹。之后在性能調優等方面進行更深入的介紹和指導。

2018-01-25 15:41:04

3749

如何使用TensorFlow Hub文本模塊構建一個模型，以根據相關描述預測電影類型

您所選擇的預訓練文本嵌入是您模型中的一個超參數，所以最好用不同的文本嵌入進行試驗，看看哪個的準確性最高。先從用與您的文本最接近的文本訓練過的模型開始。由于我們的電影描述都是較長的輸入，因此，我發現

2018-09-07 17:13:16

2968

基于用戶行為特征的多維度文本聚類

每個維度中屬性間的關系。為有效利用與文本相關的用戶行為信息，提出一種結合用戶行為信息的多維度文本聚類模型（MTCUBC）。根據文本間的相似性在不同空間上應該保持一致的原則，該模型將用戶行為信息作為文本內容聚類的約束來

2018-11-16 15:37:26

1

如何使用狄利克雷多項分配模型進行多源文本主題挖掘模型

隨著文本數據來源渠道越來越豐富，面向多源文本數據進行主題挖掘已成為文本挖掘領域的研究重點。由于傳統主題模型主要面向單源文本數據建模，直接應用于多源文本數據有較多的限制。針對該問題提出

2018-11-27 17:30:40

4

訓練一個機器學習模型，實現了根據基于文本分析預測葡萄酒質量

我們可以把上述的其他信息也引入作為特征參數，這樣就能構建出一個更全面的模型來預測葡萄酒質量。為了將文字描述與其他特征結合起來進行預測，我們可以創建一個集成學模型（文本分類器就是集成在內的一部分）；也可以創建一個層級模型，在層級模型中，分類器的輸出會作為一個預測變量。

2019-05-16 18:27:39

5662

人工智能在文本創作上的發展分析

AI在文本創作上的能力正在加強。人們對于人工智能的創作能力賦予了更大的想象力，尤其是在OpenAI 推出文本生成模型 GPT-2 后。

2019-07-08 09:53:07

1291

KUKA-C4機器人如何導出/導入長文本

? 如果已經分配輸入 / 輸出端、標志位或名稱，則可以將這些名稱（所謂的 “長文本 ”）導出到一個文件中。同樣也可以導入具有長文本名稱的文件。用這個方法，重新安裝之后就不必在每臺機器人上手動輸入

2020-12-23 17:11:51

3964

如何優雅地使用bert處理長文本

這是今年清華大學及阿里巴巴發表在NIPS 2020上的一篇論文《CogLTX: Applying BERT to Long Texts》，介紹了如何優雅地使用bert處理長文本。作者同時開源

2020-12-26 09:17:27

8296

如何提高事件檢測(ED)模型的魯棒性和泛化能力？

論文中指出，以往關于ED的工作都是考慮如何提升模型的性能，而較少考慮模型的魯棒性和泛化能力，作者將模型的魯棒性和泛化能力定義為如下三條，并通過設計模型進行研究：抗攻擊性能:當訓練數據中被加入擾動

2020-12-31 10:21:13

2997

傳統企業中臺數字化轉型需要提升哪些方面的基本能力呢？

傳統企業在技術能力、組織架構和商業模式等方面與阿里巴巴存在非常大的差異，在實施中臺戰略時是否可以照搬阿里巴巴中臺建設模式？傳統企業中臺數字化轉型需要提升哪些方面的基本能力呢？

2021-01-05 17:10:24

4653

給KUKA-C4機器人導入長文本方法

? 如果已經分配輸入 / 輸出端、標志位或名稱，則可以將這些名稱（所謂的 “長文本 ”）導出到一個文件中。同樣也可以導入具有長文本名稱的文件。用這個方法，重新安裝之后就不必在每臺機器人上手動輸入

2021-02-09 13:49:00

1600

KUKA-C4機器人如何導出/導入長文本

如果已經分配輸入 / 輸出端、標志位或名稱，則可以將這些名稱（所謂的 “長文本 ”）導出到一個文件中。

2021-03-10 10:44:41

3269

結合BERT模型的中文文本分類算法

針對現有中文短文夲分類算法通常存在特征稀疏、用詞不規范和數據海量等問題，提出一種基于Transformer的雙向編碼器表示（BERT）的中文短文本分類算法，使用BERT預訓練語言模型對短文本進行句子

2021-03-11 16:10:39

6

基于神經網絡的中文文本蘊含識別模型

基于神經網絡的文本蘊含識別模型通常僅從訓練數據中學習推理知識，導致模型泛化能力較弱。提出種融合外部語義知識的中文知識增強推理模型（ CKEIM）。根據知網知識庫的特點提取詞級語義知識特征以構建注意力

2021-03-12 13:50:16

7

一種基于神經網絡的短文本分類模型

針對短文本缺乏上下文信息導致的語義模糊冋題，構建一種融合知識圖譜和注意力機制的神經網絡模型。借助現有知識庫獲取短文本相關的概念集，以獲得短文本相關先驗知識，彌補短文本缺乏上下文信息的不足。將字符向量

2021-03-12 14:07:47

7

FAT32長文件名解析

接著我們來看看FAT32 文件系統特有的長文件名。結構如下圖：為研究方便，先在我的1G的u盤建一個長文件名的文本文件。

2021-03-18 17:35:18

8

基于圖集成模型的自動摘要生產方法

現有長文本自動摘要生成方法存在句子特征單一化和無法全面衡量句子相似特征的問題，導致摘要生成的準確率降低。為此，提岀一種基于圖集成模型的自動摘要生成方法。在計算得到文本句子詞頻、語義和句法特征后，利用

2021-03-22 14:40:16

10

基于BP神經網絡分類器的垃圾文本過濾模型

在網絡社交平臺海量的信息文本中含有許多垃圾文本，這些文本的廣泛散布影響了人們正常社交。為此提出一種垃圾文本過濾模型。通過BERT模型提取文本的句編碼，采用B- Feature方法對句編碼進行特征構造

2021-03-27 10:39:01

43

一種基于BERT模型的社交電商文本分類算法

基于BERT模型的社交電商文本分類算法。首先，該算法采用BERT（ Bidirectional Encoder Representations from Transformers）預訓練語言模型來完成社交電商文本的句子層面的特征向量表示，隨后有針對性地將獲得的特征向量輸入分類器進行分類，最后采

2021-04-13 15:14:21

8

融合文本分類和摘要的多任務學習摘要模型

質量，使用K- means聚類算法構建 Cluster-2、 Cluster-10和 Cluster-20文本分類數據集訓練分類器，并研究不同分類數據集參與訓練對摘要模型的性能影響，同時利用基于統計分布的判別法全面評價摘要準確性。在CNNDM測試集上的實驗結果表明，

2021-04-27 16:18:58

11

公交車?？空镜?b class="flag-6" style="color: red">快速路出口通行能力模型

論，建立兩種情況下的快速路岀口通行能力模型，通過仿真對模型進行驗證。結果表眀：模型具有較高的精度和可靠型;隨著公交車到達率的増大，公交?？空驹O置在岀口上游時岀口通行能力下降更顯著;當公交車到達率低于240輛/h時，泊位

2021-05-07 16:22:06

14

基于詞嵌入與神經網絡的文本匹配模型

為增強文本匹配模型的文本語義捕捉能力并提高語義匹配準確度，提出一種基于詞嵌人與依存關系的文本匹配模型。構建融合詞語義和詞間依存關系的語義表示，通過余弦均值卷積和K-Maκ池化操作獲得描述兩段文本

2021-06-09 16:28:55

14

基于LSTM的表示學習-文本分類模型

分類的關鍵。為了獲得妤的文本表示，提高文本分類性能，構建了基于LSTM的表示學習-文本分類模型，其中表示學習模型利用語言模型為文本分類模型提供初始化的文本表示和網絡參數。文中主要采用對抗訓練方法訓練語言模型，即在詞向量

2021-06-15 16:17:17

18

基于評分矩陣與評論文本的深度學習模型

基于評分矩陣與評論文本的深度學習模型

2021-06-24 11:20:30

58

基于深度學習的文本主題模型研究綜述

基于深度學習的文本主題模型研究綜述

2021-06-24 11:49:18

68

文本挖掘之概率主題模型綜述

文本挖掘之概率主題模型綜述

2021-06-24 14:16:54

16

基于注意力機制的新聞文本分類模型

基于注意力機制的新聞文本分類模型

2021-06-27 15:32:32

29

基于WordNet模型的遷移學習文本特征對齊算法

基于WordNet模型的遷移學習文本特征對齊算法

2021-06-27 16:14:43

8

如何快速了解天線匹配

如何快速了解天線匹配

2021-09-23 11:57:06

41

受控文本生成模型的一般架構及故事生成任務等方面的具體應用

來自：哈工大訊飛聯合實驗室本期導讀：本文是對受控文本生成任務的一個簡單的介紹。首先，本文介紹了受控文本生成模型的一般架構，點明了受控文本生成模型的特點。然后，本文介紹了受控文本生成技術在故事生成

2021-10-13 09:46:39

3033

KUKA-C4機器人導出/導入長文本

從長文本導出中生成的文件，已自動具有相應結構，確保其可被重新導入。如果應手動將名稱寫入一個文件，則建議首先在機器人控制系統中分配幾個虛擬長文本，然后導出并將名稱寫入文件。

2022-07-26 15:55:37

2049

快速了解文本語義相似度領域的研究脈絡和進展

文本表示：當數據被預處理完成后，就可以送入模型了。在文本相似度任務中，需要有一個模塊用于對文本的向量化表示，從而為下一步相似度比較做準備。這個部分一般會選用一些 backbone 模型，如 LSTM，BERT 等。

2022-08-16 10:04:55

609

Taskflow API之三大特性

文檔級輸入：支持文檔級輸入，解決預訓練模型對輸入文本的長度限制問題，大大節省用戶輸入長文本時的代碼開發量。

2022-09-20 16:36:58

1313

給一個文本提示就能生成3D模型！

想要直接訓練一個text-to-3D的模型非常困難，因為DALL-E 2等模型的訓練需要吞噬數十億個圖像-文本對，但三維合成并不存在如此大規模的標注數據，也沒有一個高效的模型架構對3D數據進行降噪。

2022-10-19 14:51:16

697

基于文本驅動的三維模型風格化方法

來自華南理工大學、香港理工大學、跨維智能、鵬城實驗室等機構的研究團隊提出了一種基于文本驅動的三維模型風格化方法，該方法可對輸入的三維模型根據文本進行更具真實性和魯棒性的風格化。

2022-10-31 16:56:43

699

摘要模型理解或捕獲輸入文本的要點

輸入文本的要點； ? （2）模型過度依賴語言模型，生成流暢但不充分的單詞。 ? 在本文研究中，提出了一個忠實增強摘要模型（FES），旨在解決這兩個問題，提高抽象摘要的忠實度。對于第一個問題，本文使用問答（QA）來檢查編碼器是否完全掌握輸入文檔，并

2022-11-01 11:37:57

692

一種「個性化」的文本到圖像擴散模型 DreamBooth

一些大型文本到圖像模型基于用自然語言編寫的文本提示（prompt）實現了高質量和多樣化的圖像合成。這些模型的主要優點是從大量的圖像 - 文本描述對中學到強大的語義先驗，例如將「dog」這個詞與可以在圖像中以不同姿勢出現的各種狗的實例關聯在一起。

2022-11-14 15:11:22

1027

基于VQVAE的長文本生成利用離散code來建模文本篇章結構的方法

等，其輸入信息有限，而要求輸出內容豐富，經常需要生成多個句子或段落，在這些任務上預訓練語言模型依然存在連貫性較差、缺乏常識等問題。本次與大家分享一篇建模長文本篇章結構的工作，用以提升生成文本的連貫性。論文題目《DISCODVT: Generating L

2022-12-01 17:07:49

1101

百度文心一言背后的大模型實力如何？文心一言背后的它全面領先

文心大模型在市場格局中處于第一梯隊，產品能力、生態能力、應用能力全面領先，受到行業廣泛認可。 ? ? 簡單來說，文心大模型能為即將發布的生成式對話產品文心一言提供強大的技術支持。 ? ? 作為基于百度智能云技術打造出來的大模型，文心一言未

2023-03-04 14:26:04

2077

ELMER: 高效強大的非自回歸預訓練文本生成模型

每個單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關系，依次生成的結構也使得自回歸模型難以并行化。目前大部分預訓練生成模型均采用自回歸方式，包括GPT-2，BART，T5等模型。

2023-03-13 10:39:59

910

GTC 2023主題直播：NVIDIA Nemo構建定制的語言文本轉文本

NVIDIA Nemo用于構建定制的語言文本轉文本，客戶可以引入自己的模型，或從Nemo涵蓋了GPT-8、GPT-43到GPT-530等數十億參數的從創建專有模型到運營，NVIDIA AI專家將全程與您合作。

2023-03-22 11:22:25

497

KUKA-C4機器人導出/導入長文本

如果已經分配輸入 / 輸出端、標志位或名稱，則可以將這些名稱（所謂的 “長文本 ”）導出到一個文件中。同樣也可以導入具有長文本名稱的文件。用這個方法，重新安裝之后就不必在每臺機器人上手動輸入長字段文字。

2023-04-10 14:22:08

739

NVIDIA AI 技術助力 vivo 文本預訓練大模型性能提升

vivo AI 團隊與 NVIDIA 團隊合作，通過算子優化，提升 vivo 文本預訓練大模型的訓練速度。在實際應用中，訓練提速 60% ，滿足了下游業務應用對模型訓練速度的要求。通過

2023-05-26 07:15:03

422

ETH提出RecurrentGPT實現交互式超長文本生成

RecurrentGPT 則另辟蹊徑，是利用大語言模型進行交互式長文本生成的首個成功實踐。它利用 ChatGPT 等大語言模型理解自然語言指令的能力，通過自然語言模擬了循環神經網絡（RNNs）的循環計算機制。

2023-05-29 14:34:43

573

Meta開源文本如何生成音樂大模型

年初，谷歌推出了音樂生成大模型 MusicLM，效果非常不錯。有人稱這比大火的 ChatGPT 還重要，幾乎解決了音樂生成問題。近日，Meta 也推出了自己的文本音樂生成模型 MusicGen，并且

2023-06-12 15:11:25

493

基于文本到圖像模型的可控文本到視頻生成

1. 論文信息 2. 引言 ? 大規模擴散模型在文本到圖像合成方面取得了巨大的突破，并在創意應用方面取得了成功。一些工作試圖在視頻領域復制這個成功，即在野外世界建模高維復雜視頻分布。然而，訓練這樣

2023-06-14 10:39:14

536

基于預訓練模型和語言增強的零樣本視覺學習

在一些非自然圖像中要比傳統模型表現更好 CoOp 增加一些 prompt 會讓模型能力進一步提升怎么讓能力更好？可以引入其他知識，即其他的預訓練模型，包括大語言模型、多模態模型也包括

2023-06-15 16:36:11

277

達觀曹植大模型正式對外公測！專注于長文本、多語言、垂直化發展

處理工程實踐經驗，已開發出具有長文本、多語言、垂直化三大特點的專用國產“曹植”大語言模型。7月伊始，達觀正式對外發布“曹植”大語言模型應用公測版，可在達觀數據官網申請試用！申請通道與規則 1?申請通道公司官網申請通道

2023-07-12 15:04:01

552

對話文本數據是培養大模型的智能與交流之源

對話文本數據，作為人類交流的生動表現，正成為訓練大型模型的寶貴資源。這些數據不僅蘊含了豐富的語言特點和人類交流方式，更在模型訓練中發揮著重要的意義，從而為其賦予更強大的智能和更自然的交流能力。大型模型

2023-08-14 10:11:11

368

對話文本數據的珍貴貢獻：訓練大模型賦予智能與情感理解

在當今信息爆炸的時代，對話文本數據正成為塑造人工智能大模型的重要基石，為這些模型注入智能和情感理解的能力。這些數據不僅在培養模型的語言表達能力方面起到關鍵作用，更為其賦予了人類交流的深度和多樣性

2023-08-14 10:09:37

355

大型模型的重要基石與洞察力之源之文本數據

在當今數字化時代，文本數據已成為人類活動的主要載體，無處不在的信息交流塑造著我們的社會、經濟和文化。而正是這些海量的文本數據，為大型模型的訓練和應用提供了豐富的資源，成為其重要的基石與洞察力之源

2023-08-14 10:06:23

328

Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

2023-08-25 09:06:57

885

港中文賈佳亞團隊聯手MIT發布超長文本擴展技術，打破LLM遺忘魔咒

它代表著業界對長文本大語言模型的重新思考和關注，有效擴展了大語言模型的上下文窗口，允許模型考慮和處理較長的文本序列，是大語言模型的革新性發明。

2023-10-18 15:54:53

281

李開復4個多月后“放大招”：對標OpenAI、谷歌，發布“全球最強”開源大模型

在語言模型中，上下文窗口是大模型綜合運算能力的金指標之一，對于理解和生成與特定上下文相關的文本至關重要，擁有更長窗口的語言模型可以處理更豐富的知識庫信息，生成更連貫、準確的文本。

2023-11-06 15:47:40

285

Long-Context下LLM模型架構全面介紹

的限制:當前許多LLM受資源限制，主要是在較短的文本上進行預訓練，使它們對現實世界中常見的較長的上下文提示不太有效。本文對基于Transformer的LLM模型架構的進展進行了全面的介紹。

2023-11-27 17:37:36

440

浪潮信息發布源2.0基礎大模型，千億參數全面開源

11月27日，浪潮信息發布"源2.0"基礎大模型，并宣布全面開源。源2.0基礎大模型包括1026億、518億、21億等三種參數規模的模型，在編程、推理、邏輯等方面展示出了先進的能力。

2023-11-28 09:10:14

417

從Google多模態大模型看后續大模型應該具備哪些能力

前段時間Google推出Gemini多模態大模型，展示了不凡的對話能力和多模態能力，其表現究竟如何呢？

2023-12-28 11:19:52

361

商湯科技發布新版日日新·商量大語言模型

商湯科技近日發布了新版的日日新·商量大語言模型-通用版本（SenseChat V4）。這一版本的模型在知識理解、閱讀理解、綜合推理、數理、代碼和長文本理解等領域的通用能力得到了顯著提升。

2024-02-04 10:30:41

426

商湯日日新SensNova 4.0發布

商湯科技“日日新SenseNova 4.0”正式發布，標志著大模型體系的一次重大飛躍。該模型在知識覆蓋、推理能力、長文本理解、數字推理以及代碼生成等多個維度上實現了全面升級。

2024-02-05 10:29:50

447

亞馬遜發布史上最大文本轉語音模型BASE TTS

亞馬遜的人工智能研究團隊近日宣布，他們成功開發出了迄今為止規模最大的文本轉語音模型——BASE TTS。這款新模型擁有高達9.8億個參數，不僅在規模上超越了之前的所有版本，還在能力上實現了質的飛躍。

2024-02-20 17:04:21

336

已全部加載完成

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看

<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>