羞羞网站免费观看,久久亚洲国产成人亚,国产精品v欧美精品v日本精

長上下文業(yè)務(wù)需求與主流方案解析：RoPE位置編碼與2023年LLM廠商發(fā)展

更新時(shí)間：2025-03-17 09:23:50作者：佚名

interpolation是什么意思_意思是不是輕聲詞_意思是什么

最近，在漫長的背景下有越來越多的業(yè)務(wù)需求，這只是當(dāng)前功能和主流解決方案的基本內(nèi)容的簡要摘要。

長期文字最相關(guān)的是自然的位置編碼。現(xiàn)在，許多模型使用繩索，這是位置編碼。繩索的基本內(nèi)容以前已經(jīng)對其進(jìn)行整理。

關(guān)于長篇小說

從2023年中期開始，主要的LLM制造商開始關(guān)注長篇小說問題。在2023年5月，克勞德（Claude）支持長度為100k令牌。在6月和7月，Chatgpt3.5還支持16K，ChatGLM2-B的最大長度可以達(dá)到32K。

（一個(gè)單詞，ChatGLM系列一直非常好，從基本模型，長窗口，工具呼叫和代理商來看，我一直處于相對尖端的水平。我最近已經(jīng)使用Chatglm3和Chatglm4進(jìn)行了體驗(yàn)。

大約在同一時(shí)間，LM-SYS的Longchat和Mosaiclm的MPT也支持16K和更長的環(huán)境。

剛剛在今年的農(nóng)歷新年之前出現(xiàn)的QWEN-1.5系列桶也以32k的速度開始。還有一些支持超長窗口的型號

模型支持長度

Baichuan2

192k

gpt4-turbo

128K

是的

200k

基米

128K（200,000個(gè)漢字）

Claude2

200k

在完成基本模型效果后，大型制造商完成了他們可以贏得的排名，并專注于增長背景的能力（當(dāng)然，長篇小說也有排名）。

為什么這么久？

長上下文要求

根據(jù)所使用的語言和令牌，每個(gè)令牌的相應(yīng)編碼文本不同。以中文為例，在大多數(shù)模型中對應(yīng)于每個(gè)令牌的漢字?jǐn)?shù)量> 1.5個(gè)字符（某些有效的標(biāo)記器可以實(shí)現(xiàn)2個(gè)以上的字符）。然后，200k令牌可以處理30w單詞的上下文。

我剛剛讀過劉·辛云（Liu Zhenyun）的小說《一句話價(jià)值一千句話》。整本書大約是270,000個(gè)單詞，這意味著這些長篇小說模型現(xiàn)在可以在幾秒鐘內(nèi)閱讀小說，然后與我交換我的經(jīng)歷，或者告訴我本書的摘要，或幫助我在文本中找到一些詳細(xì)的描述。

以上方案對應(yīng)于大型模型的工具場景。我們可以使用大型模型閱讀論文，總結(jié)研究報(bào)告或閱讀代碼的能力。這些場景需要相對較長的上下文輸入。

大型型號，抹布（檢索效果的一代）也有一個(gè)流行的應(yīng)用程序方案，它對長上下文輸入也有要求。但是，在抹布中，大多數(shù)輸入文本不是直接來自用戶輸入，而是檢索到的。

除了基于工具的應(yīng)用程序方案外，還有一些個(gè)性化的方案，這些方案也對長篇小說有要求。例如，一些智能助手需要長時(shí)間記住用戶的喜好和設(shè)置。這些偏好和設(shè)置可以以propt或?qū)υ挼男问匠掷m(xù)存在，當(dāng)進(jìn)行新的對話時(shí)，將這些內(nèi)容與用戶的新輸入進(jìn)行處理。

意思是什么_意思是不是輕聲詞_interpolation是什么意思

實(shí)際上，即使是單個(gè)聊天也可能要求模型處理更長的上下文。例如，我們可以讓模型扮演特定的電影和電視角色或游戲角色與我們交談。目前，通常會設(shè)置該模型，例如這是什么樣的任務(wù)，故事背景和世界觀的樣子以及現(xiàn)在需要溝通的哪些方面。這些設(shè)置將以提示的形式在開始時(shí)輸入模型。隨著對話的進(jìn)行，如果模型的文本能力很長，則可能會忘記我們之前給出的設(shè)置，這將導(dǎo)致經(jīng)驗(yàn)中的問題。

上面的示例實(shí)際上導(dǎo)致了長期文本要求的更具體的內(nèi)容：（1）當(dāng)文本相對較長時(shí)，您仍然可以說人類語言，并且PPL還應(yīng)較低（2）除了說人類語言外，您還應(yīng)該能夠考慮到上述詳細(xì)信息，并且應(yīng)該沒有自我糾紛。

如何支持長篇小說

看來許多當(dāng)前的應(yīng)用程序方案確實(shí)具有較長的上下文要求，那么如何實(shí)施它們？

如果我們直接訓(xùn)練2K/4K長度的模型，然后在推斷時(shí)設(shè)置一個(gè)8K或16K的窗口，那么PPL將急劇上升，從而導(dǎo)致該模型無法說到人類語言。在談?wù)摾K索時(shí)提到的原因之一是該模型無法處理尚未經(jīng)過良好培訓(xùn)的位置編碼。

直接培訓(xùn)

由于在訓(xùn)練期間使用2K/4K無法在8K/16K/32K+的上下文長度上得到很好的推理，因此在培訓(xùn)期間直接使用更長的數(shù)據(jù)來訓(xùn)練還不夠嗎？

從理論上講，這個(gè)想法是可行的，但是您在實(shí)踐中會遇到一些問題（他可能認(rèn)為這不是問題）。

1。培訓(xùn)數(shù)據(jù)

直觀地說，要培訓(xùn)長上下文模型，需要長文本。要達(dá)到32K或更大的長度，它只能是書籍。

當(dāng)然，我們還可以將多個(gè)中長的文本拼寫，然后將其用于培訓(xùn)。例如，當(dāng)過濾4K長度數(shù)據(jù)時(shí)，這8件足夠長。然后，使用注意力面具來限制文本的每個(gè)段落之間的注意力，以便他們可以在各自的位置訓(xùn)練每個(gè)段落而不相互干預(yù)。即使您不戴口罩，效果也很好。

通常，它是[連續(xù)的長文本]> [多個(gè)中等文本剪接]（也可用）

2。資源消耗

讓我們簡要介紹一下變形金剛在培訓(xùn)中消耗的資源。

假設(shè)該模型具有圖層，詞匯尺寸為，隱藏的大小為，批處理大小為，并且訓(xùn)練窗口長度為，并且使用Adam Optimizer進(jìn)行訓(xùn)練（需要一階和二階動量）。為了簡化估計(jì)，可以假定注意力頭的數(shù)量為1。

（1）參數(shù)數(shù)量

模型的總參數(shù)數(shù)量= Word Vector參數(shù)數(shù)量 + *解碼器層參數(shù)數(shù)量=

您可以看到參數(shù)數(shù)量與窗口長度無關(guān)，并且模型確定它是固定值。

（2）計(jì)算的數(shù)量

一次性正向計(jì)算量=輸出分類標(biāo)頭logits計(jì)算 + *每層計(jì)算數(shù)量

看看計(jì)算數(shù)量和參數(shù)數(shù)量之間的關(guān)系。忽略參數(shù)數(shù)量和計(jì)算數(shù)量中的低階項(xiàng)，然后

可以看出，隨著輸入長度的增加，總計(jì)算量為平方。目前，基本上可以將其視為線性。當(dāng)前，大多數(shù)型號的范圍在1K至1W的范圍內(nèi)，當(dāng)它們不超長時(shí)，基本上可以被認(rèn)為與這些模型相當(dāng)。計(jì)算是長度的“弱”二次關(guān)系

（3）視頻記憶

在訓(xùn)練過程中，視頻內(nèi)存主要包括模型參數(shù)，梯度，優(yōu)化器狀態(tài)值和中間激活值。

在訓(xùn)練過程中，每個(gè)參數(shù)（）具有相應(yīng)的梯度（），每個(gè)參數(shù)對應(yīng)于具有一階動量和二階動量（）的優(yōu)化器。在混合精度訓(xùn)練中，半精度用于正向計(jì)算和梯度計(jì)算，優(yōu)化器會備份單位優(yōu)化器狀態(tài)，??梯度和參數(shù)以更新參數(shù)，因此共同的參數(shù)占據(jù)。

interpolation是什么意思_意思是不是輕聲詞_意思是什么

該部分與輸入長度沒有直接關(guān)系。

意思是不是輕聲詞_意思是什么_interpolation是什么意思

需要占據(jù)視頻內(nèi)存的另一部分是中間激活值。

保存激活值是計(jì)算梯度，因此每個(gè)矩陣乘法，軟磁性和輟學(xué)都需要保存輸入值的中間激活值。

對于注意力層，輸入時(shí)，您必須首先投射需要保存的中間值；計(jì)算重量時(shí)，您需要乘以矩陣，并且需要保存矩陣的值；執(zhí)行SoftMax時(shí)，您需要保存輸入；依此類推，所有需要保存的中間激活值都是。對于圖層模型interpolation是什么意思，將其乘以。

可以看出，中間激活值隨著平方關(guān)系的增加而增加。當(dāng)訓(xùn)練4K長度模型和32K長度模型時(shí)，激活值所需的視頻記憶增加了64倍。在這種情況下，要么擴(kuò)展集群，添加更多的GPU，降低批量的大小，要么增加梯度積累的價(jià)值，這無論如何都會增加培訓(xùn)成本。

小型型號（例如2B，7b）可以是硬連線并支持16k或32k的長度，但是對于較大的長度（200k）或較大的型號（34b，70b+），這將更便宜。

現(xiàn)在的一般方法是將其分為兩個(gè)階段。在第一階段，使用2K或4K訓(xùn)練基本模型。在模型學(xué)習(xí)了文本內(nèi)容和短位置關(guān)系之后，然后使用比第一階段少的數(shù)據(jù)在長篇小說中優(yōu)化效果。

在第二階段，如何通過更少的培訓(xùn)來取得更好的結(jié)果。

線性插值位置插值

6月23日，META提出了一種線性插值方法PI（位置插值），用于“通過位置插值擴(kuò)展大語模型的上下文窗口”，該繩索可以將2K的基本模型擴(kuò)展到32K，并在1K訓(xùn)練下實(shí)現(xiàn)良好的結(jié)果。

interpolation是什么意思_意思是不是輕聲詞_意思是什么

相比之下，通過直接微調(diào)擴(kuò)展的Llama模型僅顯示有效上下文尺寸kmax的最小增加到2048年至2560，即使在微調(diào)超過10000步之后，也沒有明確指示窗口尺寸的加速度。

相反，直接基于基本模型的長文本微調(diào)的效率相對較低。經(jīng)過10,000步的訓(xùn)練，有效長度僅從2048年增加到2560。

看來，盡管繩索具有許多優(yōu)勢，但不包括長上下文外推。

還對本文中繩索的外推性能進(jìn)行了一些分析。最初，繩索是相對位置編碼，具有遠(yuǎn)程衰減的特征。從理論上講，它應(yīng)該具有某些外推能力，但實(shí)際上并非如此。簡而言之，紙張發(fā)現(xiàn)，當(dāng)相對位置差異不大時(shí)（

意思是不是輕聲詞_interpolation是什么意思_意思是什么

查看上圖中間的圖片。當(dāng)該位置超過3000時(shí)，突然出現(xiàn)了較大的注意力評分。右圖的圖使用插值方法，這是相對穩(wěn)定的。

（遠(yuǎn)程衰減上邊界問題的特定推導(dǎo)過程將不會擴(kuò)展。有興趣的朋友可以閱讀本文的原始文本）

另一方面，PI甚至可以在無需插值的情況下就具有一定的長窗口功能。

interpolation是什么意思_意思是什么_意思是不是輕聲詞

插值的概念如下：如下圖所示，左上部分表示預(yù)先訓(xùn)練的2K長度位置代碼，右上部分表示基于此基礎(chǔ)的直接外推，因此，以前未經(jīng)培訓(xùn)的許多值將出現(xiàn)，并且模型的學(xué)習(xí)成本相對較高；下半部分代表基于已經(jīng)訓(xùn)練的2K模型的插值，類似于每兩個(gè)位置代碼之間插入一個(gè)位置點(diǎn)，因此總位置表示從2K增加到4K。在此基礎(chǔ)上，進(jìn)行了少量的微調(diào)，該模型可以快速學(xué)習(xí)新的位置表示。

interpolation是什么意思_意思是不是輕聲詞_意思是什么

這個(gè)想法也非常直觀。例如，原始模型學(xué)到了位置1，位置2，位置3 ...的某個(gè)規(guī)則，現(xiàn)在我告訴該模型，該位置不一定是整數(shù)，而是位置1，位置1.5，位置2，位置2.5 ...盡管值已經(jīng)發(fā)生了變化，但相對關(guān)系仍然存在，因此該模型還可以在原始學(xué)識淵博的關(guān)系的幫助下迅速延伸到“ 0.5”位置。

由于三角函數(shù)的平滑性質(zhì)，我們可以重新定義注意力評分的計(jì)算，以使結(jié)果沒有異常大的值，即，它是原始長度（即2048年），我們想增加的長度（8k/16k/32k等）。

更具體地說，是為了繩索進(jìn)行一些修改

等效于位置的分辨率已從1下降。

（分析，但實(shí)施非常簡單。工程師的福音。我真的希望這些論文能夠在將來給出這樣的結(jié)果）

然后使用數(shù)萬到數(shù)十萬個(gè)樣本進(jìn)行預(yù)訓(xùn)練，這很好。

interpolation是什么意思_意思是什么_意思是不是輕聲詞

（文章還具有隨后的重點(diǎn)。在訓(xùn)練長篇小說之后，在短上下文方案中效果略有下降）

NTK意見插值

線性插值等效于直接線性地拉伸COS函數(shù)，減少不同位置之間的差異，從而使模型之間的區(qū)別降低，這有些簡單且粗糙。 NTK感知的插值在理論上提出了一種更“精致”的方法，這是一種在繩索上進(jìn)行非線性插值的方法。 Codellama使用此方法將長度擴(kuò)展到1m。

NTK是神經(jīng)切線核，神經(jīng)可能的核。這是什么？讓GLM4幫助回答

神經(jīng)切線內(nèi)核（NTK）是深度學(xué)習(xí)理論的概念，這是一種理論工具，在訓(xùn)練無限范圍的神經(jīng)網(wǎng)絡(luò)時(shí)會出現(xiàn)。在深度學(xué)習(xí)領(lǐng)域，寬度通常是指網(wǎng)絡(luò)中每一層的神經(jīng)元數(shù)量。 NTK的提議為理解深度學(xué)習(xí)提供了一種新的觀點(diǎn)，尤其是當(dāng)網(wǎng)絡(luò)寬度趨于無限時(shí)，線性模型可以近似網(wǎng)絡(luò)的行??為。

理想情況下，當(dāng)網(wǎng)絡(luò)寬度傾向于無限時(shí)，網(wǎng)絡(luò)訓(xùn)練過程可以通過固定的內(nèi)核函數(shù)來描述，即神經(jīng)切線核。該內(nèi)核函數(shù)描述了網(wǎng)絡(luò)輸出與輸入之間關(guān)系的性質(zhì)，從而使我們可以使用內(nèi)核方法來分析此類網(wǎng)絡(luò)的訓(xùn)練和概括能力。

具體而言，NTK允許我們預(yù)測網(wǎng)絡(luò)權(quán)重的演變，并且隨著培訓(xùn)的進(jìn)行，以及網(wǎng)絡(luò)在無限寬的網(wǎng)絡(luò)中如何隨時(shí)間變化。這些預(yù)測在數(shù)學(xué)上更清晰和分析性更為清晰，有助于我們深入了解深度學(xué)習(xí)的工作原理，尤其是在概括和優(yōu)化方面。

NTK的研究為設(shè)計(jì)新的網(wǎng)絡(luò)體系結(jié)構(gòu)，培訓(xùn)算法和理論分析提供了重要的理論基礎(chǔ)。它還表明，在某些條件下，深度學(xué)習(xí)可以簡化為傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)理論，例如核方法，這些理論為將深度學(xué)習(xí)與經(jīng)典的機(jī)器學(xué)習(xí)理論聯(lián)系起來提供了橋梁。

大致了解這一點(diǎn)。那么，NTK對長篇小說擴(kuò)展有何評論？

它認(rèn)為，線性插值可以平等地在各個(gè)方向上處理組件并降低旋轉(zhuǎn)速度interpolation是什么意思，這是一個(gè)問題。

回想一下，在繩索中，位置的輸入向量的矩陣長度像這樣“旋轉(zhuǎn)”

意思是什么_interpolation是什么意思_意思是不是輕聲詞

它將輸入矢量的元素分為兩組，總共有兩個(gè)組，分別有兩個(gè)元素，并且不同的組分別旋轉(zhuǎn)。在這里，我們可以發(fā)現(xiàn)每個(gè)組的旋轉(zhuǎn)速度不同，因?yàn)榭梢钥闯觯M越小，旋轉(zhuǎn)越快，旋轉(zhuǎn)越大，旋轉(zhuǎn)速度就慢。在這里，總旋轉(zhuǎn)速度越大，整體旋轉(zhuǎn)速度越慢，反之亦然。在同一位置，由于不同的旋轉(zhuǎn)速度，位置向量的信號頻率高且低。前部較高，頻率越低。

不加選擇地提取高頻和低頻信息將失去許多重要的高頻信息，這不是很好。高頻信號應(yīng)推斷，以防止分辨率太低，所有分辨率都被擠壓在一起。低頻信號適合插值。

如何實(shí)現(xiàn)“高頻外推和低頻插值”？

首先，在談?wù)摾K索時(shí)，對于二維情況，

interpolation是什么意思_意思是不是輕聲詞_意思是什么

當(dāng)擴(kuò)展到高維條件時(shí)

意思是什么_interpolation是什么意思_意思是不是輕聲詞

在，。

在此公式下，線性插值等效于

變得

意思是不是輕聲詞_interpolation是什么意思_意思是什么

1“ data-formula-type =” inline-equation“ style =”>，這等同于壓縮。

NTK感知的縮放繩索已更改，具體來說，它的基本值已修改（最初是10,000的繩索）

有

意思是什么_interpolation是什么意思_意思是不是輕聲詞

interpolation是什么意思_意思是不是輕聲詞_意思是什么

它等效于繁殖系數(shù)。當(dāng)它相對較小時(shí)，它接近1，等效于直接外推。當(dāng)它相對較大時(shí)（請注意，從0到[errata]的值應(yīng)為d/2-1），它接近，接近線性插值。

引用了Zhihu文章的觀點(diǎn)，以了解NTK-Aware Interpolation

有趣的是，繩索的行為就像時(shí)鐘。 12小時(shí)的時(shí)鐘基本上是一條繩索，尺寸為3，底座為60。因此，每秒鐘，每一分鐘每分鐘，每分鐘，小時(shí)手每分鐘都會旋轉(zhuǎn)1/60。現(xiàn)在，如果您將時(shí)間降低了4次，則是第二次使用的線性繩索縮放。不幸的是，現(xiàn)在每一秒都不同，因?yàn)楝F(xiàn)在二手幾乎不會每秒移動。因此，如果有人給您兩個(gè)不同的時(shí)間，只有一秒鐘的時(shí)間，您將無法將它們與遠(yuǎn)處區(qū)分開。 NTK感知的繩索擴(kuò)展不會放慢時(shí)間。一秒鐘仍然是一秒鐘，但它將幾分鐘減少了1.5次，小時(shí)減少了2次。這樣，您可以在半天的一小時(shí)零24小時(shí)內(nèi)握住90分鐘。因此，現(xiàn)在您基本上的時(shí)鐘尺寸為129.6萬秒，而不是43.2k秒。由于不需要小時(shí)手來準(zhǔn)確測量觀看時(shí)間的時(shí)間，因此至關(guān)重要的是，比秒鐘更大的時(shí)間縮放小時(shí)至關(guān)重要。我不想失去二手的準(zhǔn)確性，但是我可以承受微小手甚至小時(shí)手的準(zhǔn)確性損失。

此外，Su Jianlin從“主要”的角度分析了繩索。有興趣的朋友可以閱讀原始文本，這也非常聰明。

在紗線的論文中，NTK的優(yōu)勢和缺點(diǎn)被評論

鑒于[6]的結(jié)果，與PI相比，該方法在擴(kuò)展非注冊模型的上下文大小方面的表現(xiàn)要好得多[9]。但是，這種方法的一個(gè)主要故障是，鑒于它不僅是一種相互作用方案，因此某些維度略有推斷為“界外”值，因此用“ NTK-Aware”干擾[6]對PI [9]進(jìn)行微調(diào)。此外，由于“界外”值，理論量表因子s不能準(zhǔn)確描述真實(shí)的上下文擴(kuò)展量表。實(shí)際上，對于給定上下文長度擴(kuò)展，必須設(shè)置比例值S高于預(yù)期尺度。

NTK的優(yōu)點(diǎn)是它可以比無線性插值做得更好，而無需微調(diào)。但是，由于低頻部分仍將被外推到范圍之外的值，因此必須將系數(shù)設(shè)置為大于所需的系數(shù)。例如，如果您想在32K下取得更好的結(jié)果，則必須選擇大于8的結(jié)果，例如16。

NTK-PORTS

NTK-Parts方法在NTK插值的基礎(chǔ)上有另一種思想。它認(rèn)為，無論是線性插值還是NTK感知的插值，它都認(rèn)為繩索的所有組成部分對網(wǎng)絡(luò)都同樣重要。 NTK-Poarts的想法認(rèn)為，應(yīng)對不同的組件進(jìn)行不同的處理，并且它們對網(wǎng)絡(luò)的影響也不同。

對于組件，繩索的波長嵌入

interpolation是什么意思_意思是什么_意思是不是輕聲詞

表示一輪旋轉(zhuǎn)所需的長度。當(dāng)它很小時(shí)，波長很短，反之亦然，波長很長。這也對應(yīng)于我們之前所說的，前面的組件是高頻，背面的組件是低頻。

這里可以觀察到，當(dāng)它相對較大時(shí)，波長可能會更大。在這種情況下，繩索尚未單圈旋轉(zhuǎn)，這將導(dǎo)致該組件的分布不均勻（例如，如果僅旋轉(zhuǎn)轉(zhuǎn)彎的1/4，則值全部集中在0?1之間，并且對于-1?0，則沒有值。在這種情況下，該維度的編碼等同于絕對位置編碼，因?yàn)閹缀趺總€(gè)位置都有其獨(dú)特的價(jià)值。相反，當(dāng)它相對較小時(shí)，模型只能訪問相對位置信息。

此外，插值將導(dǎo)致在相鄰或接近位置的緊密關(guān)系（因?yàn)樾D(zhuǎn)量很小并且點(diǎn)產(chǎn)品較大），并且文章認(rèn)為這將損害該模型理解本地關(guān)系的能力，因此被選為不介入高頻部件。 NTK-PORTS的想法是

引入了一個(gè)比例來表示波長與上下文長度之間的關(guān)系。還有兩個(gè)閾值可以區(qū)分上述三種情況。如果認(rèn)為波長很大，并且認(rèn)為波長很小。為方便起見，定義坡道功能

NTK-PARTS插值可以定義為一對操作

interpolation是什么意思_意思是不是輕聲詞_意思是什么

這里有兩個(gè)超級參數(shù)要確定。根據(jù)實(shí)驗(yàn)給出的文本中給出的建議值是，當(dāng)波長與上下文長度一樣長時(shí)，如果波長與上下文長度一樣長，則認(rèn)為波長是較大的，并且僅插值。當(dāng)波長小于上下文長度的1/32時(shí)，被認(rèn)為波長比上下文小得多，因此僅被推斷出來。

動態(tài)NTK縮放繩

無論是線性插值還是NTK感知的插值，都可以使用固定系數(shù)來縮放原始繩索，該系數(shù)將有一些局限性。一方面，在這種情況下，模型可以支持的最大上下文是由使用的縮放系數(shù)確定的。如果超過此范圍，將仍然會出現(xiàn)注意力評分的風(fēng)險(xiǎn)。另一方面，在解碼過程中，當(dāng)解碼長度尚未達(dá)到訓(xùn)練長度時(shí)，它用于修改基座，這也可能導(dǎo)致一些損失。基于NTK插值，動態(tài)NTK縮放的繩索將固定系數(shù)更改為動態(tài)系數(shù)。

具體來說，是

這樣，隨著解碼長度的增加，當(dāng)l“ data-formula-type =“ inline-equation”樣式=“”>從1逐漸增加時(shí)，無需更改它。

要注意的一件事是，當(dāng)使用動態(tài)系數(shù)時(shí)，您應(yīng)該注意KV-Cache的緩存機(jī)制是否正確，并在使用繩索之前記住要緩存值。

紗

上述方法均使用插值。研究人員發(fā)現(xiàn)，通過插值，令牌之間的距離變得更近（因?yàn)樾D(zhuǎn)角度現(xiàn)在較小），并且平均最小距離正在減少，因此注意軟軟療法的分布將變得更加尖銳（也就是說，它們都在一定間隔中集中）。換句話說，繩索的原始長距離衰減特征變得更弱且不明顯，這將導(dǎo)致該模型更加注意更多的令牌，這將削弱注意力機(jī)制并導(dǎo)致產(chǎn)出質(zhì)量的降低。

當(dāng)繩索插值到更長的上下文時(shí)，注意軟馬克斯分布中的熵會減少，因此研究人員的目標(biāo)是逆轉(zhuǎn)此熵扣除額（即增加注意力集的“溫度”）。這可以通過將中間注意矩陣乘以溫度1“ data-formula-type =” inline-equation“ intline-equation” style =“”>，但是由于將繩索編碼為rope作為旋轉(zhuǎn)矩陣，因此可以簡單地通過恒定因子擴(kuò)展繩索的長度。這樣，您就不必修改注意力代碼。

interpolation是什么意思_意思是什么_意思是不是輕聲詞