LLM的長度外推淺談-電子發燒友網

一、NBCE

NBCE：使用樸素貝葉斯擴展LLM的Context處理長度

蘇神最早提出的擴展LLM的context方法，基于bayes啟發得到的公式：

在問答下實測確實不錯，在較長context下的閱讀理解還算好用。

局限性是，無序性，即無法識別Context的輸入順序，這在續寫故事等場景可能表現欠佳，做一些依賴每個context生成答案，比如提取文檔摘要，效果較差。

outputs=model(input_ids=input_ids,
attention_mask=attention_mask,
return_dict=True,
use_cache=True,
past_key_values=past_key_values
)
past_key_values=outputs.past_key_values

#=====核心代碼開始=====
beta=0.25
probas=torch.nn.functional.softmax(outputs.logits[:,-1],dim=-1)
logits=probas.log()
k=(probas*logits).sum(dim=-1)[1:].argmax()+1
logits_max=logits[k]
logits_uncond=logits[0]
logits=(1+beta)*logits_max-beta*logits_uncond
#=====核心代碼結束=====

#構建分布，采樣
tau=0.01#tau=1是標準的隨機采樣，tau->0則是貪心搜索
probas=torch.nn.functional.softmax(logits[None]/tau,dim=-1)
next_tokens=torch.multinomial(probas,num_samples=1).squeeze(1)

此處代碼，圖片，文本均選自科學空間。

二、線性內插

llama基于rotary embedding在2048長度上預訓練，該方法通過將position壓縮到0~2048之間，從而達到長度外推的目的。

longchat將模型微調為上下文長度外擴為16384，壓縮比為 8。例如，position_ids = 10000 的 token 變為position_ids = 10000 / 8 = 1250，相鄰 token 10001 變為 10001 / 8 = 1250.125

該方法的缺陷是需要進行一定量的微調，讓模型來適應這種改變。

importtorch
importtransformers
importtransformers.models.llama.modeling_llama
fromeinopsimportrearrange

fromfunctoolsimportpartial

classCondenseRotaryEmbedding(torch.nn.Module):
def__init__(self,dim,ratio,max_position_embeddings=2048,base=10000,device=None):
super().__init__()
inv_freq=1.0/(base**(torch.arange(0,dim,2).float().to(device)/dim))
self.register_buffer("inv_freq",inv_freq)

#Buildheretomake`torch.jit.trace`work.
self.ratio=ratio
max_position_embeddings*=ratio
print(f"CondensingPositionalembeddingsfrom{max_position_embeddings}to{max_position_embeddings//ratio}")
self.max_seq_len_cached=max_position_embeddings
t=torch.arange(self.max_seq_len_cached,device=self.inv_freq.device,dtype=self.inv_freq.dtype)/ratio
freqs=torch.einsum("i,j->ij",t,self.inv_freq)
#Differentfrompaper,butitusesadifferentpermutationinordertoobtainthesamecalculation
emb=torch.cat((freqs,freqs),dim=-1)
dtype=torch.get_default_dtype()
self.register_buffer("cos_cached",emb.cos()[None,None,:,:].to(dtype),persistent=False)
self.register_buffer("sin_cached",emb.sin()[None,None,:,:].to(dtype),persistent=False)

defforward(self,x,seq_len=None):
#x:[bs,num_attention_heads,seq_len,head_size]
#This`if`blockisunlikelytoberunafterwebuildsin/cosin`__init__`.Keepthelogicherejustincase.
ifseq_len>self.max_seq_len_cached:
self.max_seq_len_cached=seq_len
t=torch.arange(self.max_seq_len_cached,device=x.device,dtype=self.inv_freq.dtype)/self.ratio
freqs=torch.einsum("i,j->ij",t,self.inv_freq)
#Differentfrompaper,butitusesadifferentpermutationinordertoobtainthesamecalculation
emb=torch.cat((freqs,freqs),dim=-1).to(x.device)
self.register_buffer("cos_cached",emb.cos()[None,None,:,:].to(x.dtype),persistent=False)
self.register_buffer("sin_cached",emb.sin()[None,None,:,:].to(x.dtype),persistent=False)
return(
self.cos_cached[:,:,:seq_len,...].to(dtype=x.dtype),
self.sin_cached[:,:,:seq_len,...].to(dtype=x.dtype),
)

defreplace_llama_with_condense(ratio):
transformers.models.llama.modeling_llama.LlamaRotaryEmbedding=partial(CondenseRotaryEmbedding,ratio=ratio)

三、NTK-Aware Scaled RoPE

RoPE是一種β進制編碼//spaces.ac.cn/archives/9675

有意思的解釋一下，RoPE 的行為就像一個時鐘。12小時時鐘基本上是一個維度為 3、底數為 60 的 RoPE。因此，每秒鐘，分針轉動 1/60 分鐘，每分鐘，時針轉動 1/60。

現在，如果將時間減慢 4 倍，那就是二使用的線性RoPE 縮放。不幸的是，現在區分每一秒，因為現在秒針幾乎每秒都不會移動。

因此，如果有人給你兩個不同的時間，僅相差一秒，你將無法從遠處區分它們。NTK-Aware RoPE 擴展不會減慢時間。一秒仍然是一秒，但它會使分鐘減慢 1.5 倍，將小時減慢 2 倍。

這樣，您可以將 90 分鐘容納在一個小時中，將 24 小時容納在半天中。

所以現在你基本上有了一個可以測量 129.6k 秒而不是 43.2k 秒的時鐘。由于在查看時間時不需要精確測量時針，因此與秒相比，更大程度地縮放小時至關重要。

不想失去秒針的精度，但可以承受分針甚至時針的精度損失。

importtransformers

old_init=transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__
defntk_scaled_init(self,dim,max_position_embeddings=2048,base=10000,device=None):

#Themethodisjustthesethreelines
max_position_embeddings=16384
a=8#Alphavalue
base=base*a**(dim/(dim-2))#Basechangeformula

old_init(self,dim,max_position_embeddings,base,device)
transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__=ntk_scaled_init

四、Dynamically Scaled RoPE

對于上面的方法二、三，都涉及到一個超參數α，用于調節縮放比例，該方法是通過序列長度動態選擇正確的比例參數，效果可以看上圖。

對于線性插值，前 2k 上下文的精確位置值，然后在模型逐個生成標記時重新計算每個新序列長度的位置向量。本質上，將比例設置為原始模型上下文長度/當前序列長度。

對于動態 NTK，α 的縮放設置為 (α * 當前序列長度 / 原始模型上下文長度) - (α - 1)。隨著序列長度的增加動態縮放超參數。

importmath
importtorch

classLlamaDynamicScaledRotaryEmbedding(torch.nn.Module):
def__init__(self,dim,max_position_embeddings=2048,base=10000,ntk=False,device=None):
super().__init__()
self.ntk=ntk
self.base=base
self.dim=dim
self.max_position_embeddings=max_position_embeddings
inv_freq=1.0/(base**(torch.arange(0,dim,2).float().to(device)/dim))
self.register_buffer("inv_freq",inv_freq)

#Buildheretomake`torch.jit.trace`work.
self.max_seq_len_cached=max_position_embeddings
t=torch.arange(self.max_seq_len_cached,device=self.inv_freq.device,dtype=self.inv_freq.dtype)
freqs=torch.einsum("i,j->ij",t,self.inv_freq)
#Differentfrompaper,butitusesadifferentpermutationinordertoobtainthesamecalculation
emb=torch.cat((freqs,freqs),dim=-1)
dtype=torch.get_default_dtype()
self.register_buffer("cos_cached",emb.cos()[None,None,:,:].to(dtype),persistent=False)
self.register_buffer("sin_cached",emb.sin()[None,None,:,:].to(dtype),persistent=False)

defforward(self,x,seq_len=None):
#x:[bs,num_attention_heads,seq_len,head_size]
#This`if`blockisunlikelytoberunafterwebuildsin/cosin`__init__`.Keepthelogicherejustincase.
ifseq_len>self.max_seq_len_cached:
self.max_seq_len_cached=seq_len
ifself.ntk:
base=self.base*((self.ntk*seq_len/self.max_position_embeddings)-(self.ntk-1))**(self.dim/(self.dim-2))
inv_freq=1.0/(base**(torch.arange(0,self.dim,2).float().to(x.device)/self.dim))
self.register_buffer("inv_freq",inv_freq)
t=torch.arange(self.max_seq_len_cached,device=x.device,dtype=self.inv_freq.dtype)
ifnotself.ntk:
t*=self.max_position_embeddings/seq_len
freqs=torch.einsum("i,j->ij",t,self.inv_freq)
#Differentfrompaper,butitusesadifferentpermutationinordertoobtainthesamecalculation
emb=torch.cat((freqs,freqs),dim=-1).to(x.device)
self.register_buffer("cos_cached",emb.cos()[None,None,:,:].to(x.dtype),persistent=False)
self.register_buffer("sin_cached",emb.sin()[None,None,:,:].to(x.dtype),persistent=False)
return(
self.cos_cached[:,:,:seq_len,...].to(dtype=x.dtype),
self.sin_cached[:,:,:seq_len,...].to(dtype=x.dtype),
)

五、consistent of Dynamically Scaled RoPE

方法四存在一個問題是，因為α是動態的，因為解碼是有cache的，所以，在生成第100個token時，算的α和第200個token時，算的α時不一致的。

query和key的rotation base不一致，正確的應該時這樣

importmath
fromtypingimportList,Optional,Tuple,Union

importtorch
importtorch.nn.functionalasF
importtorch.utils.checkpoint
fromtorchimportnn
fromtransformers.models.llama.modeling_llamaimportrepeat_kv,apply_rotary_pos_emb
fromtransformers.models.llama.modeling_llamaimportLlamaAttention

defforward(
self,
hidden_states:torch.Tensor,
attention_mask:Optional[torch.Tensor]=None,
position_ids:Optional[torch.LongTensor]=None,
past_key_value:Optional[Tuple[torch.Tensor]]=None,
output_attentions:bool=False,
use_cache:bool=False,
)->Tuple[torch.Tensor,Optional[torch.Tensor],Optional[Tuple[torch.Tensor]]]:
bsz,q_len,_=hidden_states.size()

ifself.pretraining_tp>1:
key_value_slicing=(self.num_key_value_heads*self.head_dim)//self.pretraining_tp
query_slices=self.q_proj.weight.split((self.num_heads*self.head_dim)//self.pretraining_tp,dim=0)
key_slices=self.k_proj.weight.split(key_value_slicing,dim=0)
value_slices=self.v_proj.weight.split(key_value_slicing,dim=0)

query_states=[F.linear(hidden_states,query_slices[i])foriinrange(self.pretraining_tp)]
query_states=torch.cat(query_states,dim=-1)

key_states=[F.linear(hidden_states,key_slices[i])foriinrange(self.pretraining_tp)]
key_states=torch.cat(key_states,dim=-1)

value_states=[F.linear(hidden_states,value_slices[i])foriinrange(self.pretraining_tp)]
value_states=torch.cat(value_states,dim=-1)

else:
query_states=self.q_proj(hidden_states)
key_states=self.k_proj(hidden_states)
value_states=self.v_proj(hidden_states)

query_states=query_states.view(bsz,q_len,self.num_heads,self.head_dim).transpose(1,2)
key_states=key_states.view(bsz,q_len,self.num_key_value_heads,self.head_dim).transpose(1,2)
value_states=value_states.view(bsz,q_len,self.num_key_value_heads,self.head_dim).transpose(1,2)

kv_seq_len=key_states.shape[-2]
ifpast_key_valueisnotNone:
kv_seq_len+=past_key_value[0].shape[-2]
cos,sin=self.rotary_emb(value_states,seq_len=kv_seq_len)

ifpast_key_valueisnotNone:
#reusekw/oRoPE
key_states=torch.cat([past_key_value[0],key_states],dim=2)

#applyRoPEafterretrievingallkeysandqueries
query_states,rotated_key_states=apply_rotary_pos_emb(query_states,key_states,cos,sin,position_ids)

ifpast_key_valueisnotNone:
#reusev,self_attention
value_states=torch.cat([past_key_value[1],value_states],dim=2)

past_key_value=(key_states,value_states)ifuse_cacheelseNone#cachethekeyw/oRoPE

#repeatk/vheadsifn_kv_heads1:
attn_output=attn_output.split(self.hidden_size//self.pretraining_tp,dim=2)
o_proj_slices=self.o_proj.weight.split(self.hidden_size//self.pretraining_tp,dim=1)
attn_output=sum([F.linear(attn_output[i],o_proj_slices[i])foriinrange(self.pretraining_tp)])
else:
attn_output=self.o_proj(attn_output)

ifnotoutput_attentions:


attn_weights=None

returnattn_output,attn_weights,past_key_value


defreplace_llama_attn_with_consistent_ntk_rope():
LlamaAttention.forward=forward

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

解碼器

解碼器

+關注

關注
9

文章
1078

瀏覽量
40258
LLM

LLM

+關注

關注
0

文章
217

瀏覽量
243

原文標題：淺談LLM的長度外推

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

對比解碼在LLM上的應用

為了改進LLM的推理能力，University of California聯合Meta AI實驗室提出將Contrastive Decoding應用于多種任務的LLM方法。實驗表明，所提方法能有效改進LLM的推理能力。讓我們走進

發表于 09-21 11:37 ?412次閱讀

順豐上市后王衛質押百億元股權欲收購百度外賣？

王衛質押股權與最近盛傳的順豐收購百度外賣一事相結合，外界由此盛傳王衛質押股權籌集資金，其目的就是收購百度外賣。

發表于 05-26 10:58 ?1394次閱讀

餓了么確認收購百度外賣!最快本周收購,百度外賣為何會變成百度的棄子?

　餓了么和百度外度一直就以競爭對手的形式出現，然而兩者之間相斗爭總有敗的一方，近日餓了么和百度外賣又一次上了熱搜榜。

發表于 08-21 14:52 ?803次閱讀

餓了么正式宣布收購百度外賣后者人員架構不變以獨立品牌運營

8月24日下午消息，餓了么剛剛正式宣布收購百度外賣。合并完成后，百度外賣成為餓了么的全資子公司。百度外賣仍以獨立的品牌和運營體系發展，包括管理層在內的人員架構保持不變。

發表于 08-24 16:53 ?694次閱讀

餓了么正式宣布收購百度外賣內部郵件曝光

8月24日下午消息，餓了么剛剛正式宣布收購百度外賣，隨后，百度外賣內部郵件曝光。郵件表示，合并后，百度外賣仍以獨立的品牌和運營體系發展，包括管理層在內的人員架構保持不變。

發表于 08-24 16:59 ?769次閱讀

LLM性能的主要因素

現在是2023年5月，截止目前，網絡上已經開源了眾多的LLM，如何用較低的成本，判斷LLM的基礎性能，選到適合自己任務的LLM，成為一個關鍵。本文會涉及以下幾個問題：影響LLM性能

發表于 05-22 15:26 ?1297次閱讀

如何利用LLM做多模態任務？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力，但目前還未開放多模態輸入接口

發表于 05-22 15:57 ?561次閱讀

中國研究人員提出StructGPT，提高LLM對結構化數據的零樣本推理能力

盡管結構化數據的體量往往非常巨大，但不可能容納輸入提示中的所有數據記錄（例如，ChatGPT 的最大上下文長度為 4096）。將結構化數據線性化為 LLM 可以輕松掌握的語句是解決此問題的簡單方法。工具操作技術激勵他們增強 LLM

發表于 05-24 16:02 ?2498次閱讀

LLM在各種情感分析任務中的表現如何

? 最近幾年，GPT-3、PaLM和GPT-4等LLM刷爆了各種NLP任務，特別是在zero-shot和few-shot方面表現出它們強大的性能。因此，情感分析(SA)領域也必然少不了LLM的影子

發表于 05-29 17:24 ?1648次閱讀

淺談濾波器階數和長度作用

濾波器是一種常見的電路，用于在信號處理過程中濾除特定頻率范圍內的信號，從而保留所需信號。濾波器的性能表現與其階數和長度密切相關。下面我們來了解一下濾波器的階數和長度的概念和作用。

發表于 06-03 11:36 ?1310次閱讀

MLC-LLM的編譯部署流程

MLC-LLM部署在各種硬件平臺的需求，然后我就開始了解MLC-LLM的編譯部署流程和RWKV World模型相比于MLC-LLM已經支持的Raven系列模型的特殊之處。 MLC-LLM

發表于 09-04 09:22 ?1953次閱讀

使用MLC-LLM支持RWKV-5推理的過程思考

對LLM的理解比較有限，從代碼實現的角度來說，RWKV的狀態和KV Cache不同，不依賴序列長度，這讓RWKV模型在各種長度下運行內存和運行速度都是趨于穩定的，所以我感覺工程價值是比基于Transformer架構比如Llama

發表于 11-19 15:58 ?606次閱讀

如何利用位置編碼實現長度外推？

無論是縮放位置索引還是修改基地，所有token都變得彼此更接近，這將損害LLM區分相近token的位置順序的能力。結合他們對RoPE的波長的觀察，存在一些波長比預訓練的上下文窗口長的維度，NTK-by-parts插值的作者建議完全不插值較高的頻率維度。

發表于 01-08 09:58 ?253次閱讀

LLM推理加速新范式！推測解碼（Speculative Decoding）最新綜述

低下（->每個token的生成都需要重復讀寫LLM的巨量參數），并且序列的生成時間隨著序列長度的增加而線性增加。

發表于 01-29 15:54 ?706次閱讀

100%在樹莓派上執行的LLM項目

ChatGPT的人性口語化回復相信許多人已體驗過，也因此掀起一波大型語言模型（Large Language Model, LLM）熱潮，LLM即ChatGPT背后的主運作技術，但LLM運作需要龐大運算力，因此目前多是在云端（Cl

發表于 02-29 16:29 ?788次閱讀