亚洲男人天堂av,国产一区二区久久精品,国产精品一区二区久久精品,国产精品久久久久久一区二区三区,五月婷婷在线观看视频,亚洲狠狠色丁香婷婷综合

歡迎您訪問長上下文業(yè)務(wù)需求與主流方案解析:RoPE位置編碼與2023年LLM廠商發(fā)展!

長上下文業(yè)務(wù)需求與主流方案解析:RoPE位置編碼與2023年LLM廠商發(fā)展

更新時(shí)間:2025-03-17 09:23:50作者:佚名

interpolation是什么意思_意思是不是輕聲詞_意思是什么

最近,在漫長的背景下有越來越多的業(yè)務(wù)需求,這只是當(dāng)前功能和主流解決方案的基本內(nèi)容的簡要摘要。

長期文字最相關(guān)的是自然的位置編碼。現(xiàn)在,許多模型使用繩索,這是位置編碼。繩索的基本內(nèi)容以前已經(jīng)對其進(jìn)行整理。

關(guān)于長篇小說

從2023年中期開始,主要的LLM制造商開始關(guān)注長篇小說問題。在2023年5月,克勞德(Claude)支持長度為100k令牌。在6月和7月,Chatgpt3.5還支持16K,ChatGLM2-B的最大長度可以達(dá)到32K。

(一個(gè)單詞,ChatGLM系列一直非常好,從基本模型,長窗口,工具呼叫和代理商來看,我一直處于相對尖端的水平。我最近已經(jīng)使用Chatglm3和Chatglm4進(jìn)行了體驗(yàn)。

大約在同一時(shí)間,LM-SYS的Longchat和Mosaiclm的MPT也支持16K和更長的環(huán)境。

剛剛在今年的農(nóng)歷新年之前出現(xiàn)的QWEN-1.5系列桶也以32k的速度開始。還有一些支持超長窗口的型號

模型支持長度

Baichuan2

192k

gpt4-turbo

128K

是的

200k

基米

128K(200,000個(gè)漢字)

Claude2

200k

在完成基本模型效果后,大型制造商完成了他們可以贏得的排名,并專注于增長背景的能力(當(dāng)然,長篇小說也有排名)。

為什么這么久?

長上下文要求

根據(jù)所使用的語言和令牌,每個(gè)令牌的相應(yīng)編碼文本不同。以中文為例,在大多數(shù)模型中對應(yīng)于每個(gè)令牌的漢字?jǐn)?shù)量> 1.5個(gè)字符(某些有效的標(biāo)記器可以實(shí)現(xiàn)2個(gè)以上的字符)。然后,200k令牌可以處理30w單詞的上下文。

我剛剛讀過劉·辛云(Liu Zhenyun)的小說《一句話價(jià)值一千句話》。整本書大約是270,000個(gè)單詞,這意味著這些長篇小說模型現(xiàn)在可以在幾秒鐘內(nèi)閱讀小說,然后與我交換我的經(jīng)歷,或者告訴我本書的摘要,或幫助我在文本中找到一些詳細(xì)的描述。

以上方案對應(yīng)于大型模型的工具場景。我們可以使用大型模型閱讀論文,總結(jié)研究報(bào)告或閱讀代碼的能力。這些場景需要相對較長的上下文輸入。

大型型號,抹布(檢索效果的一代)也有一個(gè)流行的應(yīng)用程序方案,它對長上下文輸入也有要求。但是,在抹布中,大多數(shù)輸入文本不是直接來自用戶輸入,而是檢索到的。

除了基于工具的應(yīng)用程序方案外,還有一些個(gè)性化的方案,這些方案也對長篇小說有要求。例如,一些智能助手需要長時(shí)間記住用戶的喜好和設(shè)置。這些偏好和設(shè)置可以以propt或?qū)υ挼男问匠掷m(xù)存在,當(dāng)進(jìn)行新的對話時(shí),將這些內(nèi)容與用戶的新輸入進(jìn)行處理。

意思是什么_意思是不是輕聲詞_interpolation是什么意思

實(shí)際上,即使是單個(gè)聊天也可能要求模型處理更長的上下文。例如,我們可以讓模型扮演特定的電影和電視角色或游戲角色與我們交談。目前,通常會設(shè)置該模型,例如這是什么樣的任務(wù),故事背景和世界觀的樣子以及現(xiàn)在需要溝通的哪些方面。這些設(shè)置將以提示的形式在開始時(shí)輸入模型。隨著對話的進(jìn)行,如果模型的文本能力很長,則可能會忘記我們之前給出的設(shè)置,這將導(dǎo)致經(jīng)驗(yàn)中的問題。

上面的示例實(shí)際上導(dǎo)致了長期文本要求的更具體的內(nèi)容:(1)當(dāng)文本相對較長時(shí),您仍然可以說人類語言,并且PPL還應(yīng)較低(2)除了說人類語言外,您還應(yīng)該能夠考慮到上述詳細(xì)信息,并且應(yīng)該沒有自我糾紛。

如何支持長篇小說

看來許多當(dāng)前的應(yīng)用程序方案確實(shí)具有較長的上下文要求,那么如何實(shí)施它們?

如果我們直接訓(xùn)練2K/4K長度的模型,然后在推斷時(shí)設(shè)置一個(gè)8K或16K的窗口,那么PPL將急劇上升,從而導(dǎo)致該模型無法說到人類語言。在談?wù)摾K索時(shí)提到的原因之一是該模型無法處理尚未經(jīng)過良好培訓(xùn)的位置編碼。

直接培訓(xùn)

由于在訓(xùn)練期間使用2K/4K無法在8K/16K/32K+的上下文長度上得到很好的推理,因此在培訓(xùn)期間直接使用更長的數(shù)據(jù)來訓(xùn)練還不夠嗎?

從理論上講,這個(gè)想法是可行的,但是您在實(shí)踐中會遇到一些問題(他可能認(rèn)為這不是問題)。

1。培訓(xùn)數(shù)據(jù)

直觀地說,要培訓(xùn)長上下文模型,需要長文本。要達(dá)到32K或更大的長度,它只能是書籍。

當(dāng)然,我們還可以將多個(gè)中長的文本拼寫,然后將其用于培訓(xùn)。例如,當(dāng)過濾4K長度數(shù)據(jù)時(shí),這8件足夠長。然后,使用注意力面具來限制文本的每個(gè)段落之間的注意力,以便他們可以在各自的位置訓(xùn)練每個(gè)段落而不相互干預(yù)。即使您不戴口罩,效果也很好。

通常,它是[連續(xù)的長文本]> [多個(gè)中等文本剪接](也可用)

2。資源消耗

讓我們簡要介紹一下變形金剛在培訓(xùn)中消耗的資源。

假設(shè)該模型具有圖層,詞匯尺寸為,隱藏的大小為,批處理大小為,并且訓(xùn)練窗口長度為,并且使用Adam Optimizer進(jìn)行訓(xùn)練(需要一階和二階動量)。為了簡化估計(jì),可以假定注意力頭的數(shù)量為1。

(1)參數(shù)數(shù)量

模型的總參數(shù)數(shù)量= Word Vector參數(shù)數(shù)量 + *解碼器層參數(shù)數(shù)量=

您可以看到參數(shù)數(shù)量與窗口長度無關(guān),并且模型確定它是固定值。

(2)計(jì)算的數(shù)量

一次性正向計(jì)算量=輸出分類標(biāo)頭logits計(jì)算 + *每層計(jì)算數(shù)量

看看計(jì)算數(shù)量和參數(shù)數(shù)量之間的關(guān)系。忽略參數(shù)數(shù)量和計(jì)算數(shù)量中的低階項(xiàng),然后

可以看出,隨著輸入長度的增加,總計(jì)算量為平方。目前,基本上可以將其視為線性。當(dāng)前,大多數(shù)型號的范圍在1K至1W的范圍內(nèi),當(dāng)它們不超長時(shí),基本上可以被認(rèn)為與這些模型相當(dāng)。計(jì)算是長度的“弱”二次關(guān)系

(3)視頻記憶

在訓(xùn)練過程中,視頻內(nèi)存主要包括模型參數(shù),梯度,優(yōu)化器狀態(tài)值和中間激活值。

在訓(xùn)練過程中,每個(gè)參數(shù)()具有相應(yīng)的梯度(),每個(gè)參數(shù)對應(yīng)于具有一階動量和二階動量()的優(yōu)化器。在混合精度訓(xùn)練中,半精度用于正向計(jì)算和梯度計(jì)算,優(yōu)化器會備份單位優(yōu)化器狀態(tài),??梯度和參數(shù)以更新參數(shù),因此共同的參數(shù)占據(jù)。

interpolation是什么意思_意思是不是輕聲詞_意思是什么

該部分與輸入長度沒有直接關(guān)系。

意思是不是輕聲詞_意思是什么_interpolation是什么意思

需要占據(jù)視頻內(nèi)存的另一部分是中間激活值。

保存激活值是計(jì)算梯度,因此每個(gè)矩陣乘法,軟磁性和輟學(xué)都需要保存輸入值的中間激活值。

對于注意力層,輸入時(shí),您必須首先投射需要保存的中間值;計(jì)算重量時(shí),您需要乘以矩陣,并且需要保存矩陣的值;執(zhí)行SoftMax時(shí),您需要保存輸入;依此類推,所有需要保存的中間激活值都是。對于圖層模型interpolation是什么意思,將其乘以。

可以看出,中間激活值隨著平方關(guān)系的增加而增加。當(dāng)訓(xùn)練4K長度模型和32K長度模型時(shí),激活值所需的視頻記憶增加了64倍。在這種情況下,要么擴(kuò)展集群,添加更多的GPU,降低批量的大小,要么增加梯度積累的價(jià)值,這無論如何都會增加培訓(xùn)成本。

小型型號(例如2B,7b)可以是硬連線并支持16k或32k的長度,但是對于較大的長度(200k)或較大的型號(34b,70b+),這將更便宜。

現(xiàn)在的一般方法是將其分為兩個(gè)階段。在第一階段,使用2K或4K訓(xùn)練基本模型。在模型學(xué)習(xí)了文本內(nèi)容和短位置關(guān)系之后,然后使用比第一階段少的數(shù)據(jù)在長篇小說中優(yōu)化效果。

在第二階段,如何通過更少的培訓(xùn)來取得更好的結(jié)果。

線性插值位置插值

6月23日,META提出了一種線性插值方法PI(位置插值),用于“通過位置插值擴(kuò)展大語模型的上下文窗口”,該繩索可以將2K的基本模型擴(kuò)展到32K,并在1K訓(xùn)練下實(shí)現(xiàn)良好的結(jié)果。

interpolation是什么意思_意思是不是輕聲詞_意思是什么

相比之下,通過直接微調(diào)擴(kuò)展的Llama模型僅顯示有效上下文尺寸kmax的最小增加到2048年至2560,即使在微調(diào)超過10000步之后,也沒有明確指示窗口尺寸的加速度。

相反,直接基于基本模型的長文本微調(diào)的效率相對較低。經(jīng)過10,000步的訓(xùn)練,有效長度僅從2048年增加到2560。

看來,盡管繩索具有許多優(yōu)勢,但不包括長上下文外推。

還對本文中繩索的外推性能進(jìn)行了一些分析。最初,繩索是相對位置編碼,具有遠(yuǎn)程衰減的特征。從理論上講,它應(yīng)該具有某些外推能力,但實(shí)際上并非如此。簡而言之,紙張發(fā)現(xiàn),當(dāng)相對位置差異不大時(shí)(

意思是不是輕聲詞_interpolation是什么意思_意思是什么

查看上圖中間的圖片。當(dāng)該位置超過3000時(shí),突然出現(xiàn)了較大的注意力評分。右圖的圖使用插值方法,這是相對穩(wěn)定的。

(遠(yuǎn)程衰減上邊界問題的特定推導(dǎo)過程將不會擴(kuò)展。有興趣的朋友可以閱讀本文的原始文本)

另一方面,PI甚至可以在無需插值的情況下就具有一定的長窗口功能。

interpolation是什么意思_意思是什么_意思是不是輕聲詞

插值的概念如下:如下圖所示,左上部分表示預(yù)先訓(xùn)練的2K長度位置代碼,右上部分表示基于此基礎(chǔ)的直接外推,因此,以前未經(jīng)培訓(xùn)的許多值將出現(xiàn),并且模型的學(xué)習(xí)成本相對較高;下半部分代表基于已經(jīng)訓(xùn)練的2K模型的插值,類似于每兩個(gè)位置代碼之間插入一個(gè)位置點(diǎn),因此總位置表示從2K增加到4K。在此基礎(chǔ)上,進(jìn)行了少量的微調(diào),該模型可以快速學(xué)習(xí)新的位置表示。

interpolation是什么意思_意思是不是輕聲詞_意思是什么

這個(gè)想法也非常直觀。例如,原始模型學(xué)到了位置1,位置2,位置3 ...的某個(gè)規(guī)則,現(xiàn)在我告訴該模型,該位置不一定是整數(shù),而是位置1,位置1.5,位置2,位置2.5 ...盡管值已經(jīng)發(fā)生了變化,但相對關(guān)系仍然存在,因此該模型還可以在原始學(xué)識淵博的關(guān)系的幫助下迅速延伸到“ 0.5”位置。

由于三角函數(shù)的平滑性質(zhì),我們可以重新定義注意力評分的計(jì)算,以使結(jié)果沒有異常大的值,即,它是原始長度(即2048年),我們想增加的長度(8k/16k/32k等)。

更具體地說,是為了繩索進(jìn)行一些修改

等效于位置的分辨率已從1下降。

(分析,但實(shí)施非常簡單。工程師的福音。我真的希望這些論文能夠在將來給出這樣的結(jié)果)

然后使用數(shù)萬到數(shù)十萬個(gè)樣本進(jìn)行預(yù)訓(xùn)練,這很好。

interpolation是什么意思_意思是什么_意思是不是輕聲詞

(文章還具有隨后的重點(diǎn)。在訓(xùn)練長篇小說之后,在短上下文方案中效果略有下降)

NTK意見插值

線性插值等效于直接線性地拉伸COS函數(shù),減少不同位置之間的差異,從而使模型之間的區(qū)別降低,這有些簡單且粗糙。 NTK感知的插值在理論上提出了一種更“精致”的方法,這是一種在繩索上進(jìn)行非線性插值的方法。 Codellama使用此方法將長度擴(kuò)展到1m。

NTK是神經(jīng)切線核,神經(jīng)可能的核。這是什么?讓GLM4幫助回答

神經(jīng)切線內(nèi)核(NTK)是深度學(xué)習(xí)理論的概念,這是一種理論工具,在訓(xùn)練無限范圍的神經(jīng)網(wǎng)絡(luò)時(shí)會出現(xiàn)。在深度學(xué)習(xí)領(lǐng)域,寬度通常是指網(wǎng)絡(luò)中每一層的神經(jīng)元數(shù)量。 NTK的提議為理解深度學(xué)習(xí)提供了一種新的觀點(diǎn),尤其是當(dāng)網(wǎng)絡(luò)寬度趨于無限時(shí),線性模型可以近似網(wǎng)絡(luò)的行??為。

理想情況下,當(dāng)網(wǎng)絡(luò)寬度傾向于無限時(shí),網(wǎng)絡(luò)訓(xùn)練過程可以通過固定的內(nèi)核函數(shù)來描述,即神經(jīng)切線核。該內(nèi)核函數(shù)描述了網(wǎng)絡(luò)輸出與輸入之間關(guān)系的性質(zhì),從而使我們可以使用內(nèi)核方法來分析此類網(wǎng)絡(luò)的訓(xùn)練和概括能力。

具體而言,NTK允許我們預(yù)測網(wǎng)絡(luò)權(quán)重的演變,并且隨著培訓(xùn)的進(jìn)行,以及網(wǎng)絡(luò)在無限寬的網(wǎng)絡(luò)中如何隨時(shí)間變化。這些預(yù)測在數(shù)學(xué)上更清晰和分析性更為清晰,有助于我們深入了解深度學(xué)習(xí)的工作原理,尤其是在概括和優(yōu)化方面。

NTK的研究為設(shè)計(jì)新的網(wǎng)絡(luò)體系結(jié)構(gòu),培訓(xùn)算法和理論分析提供了重要的理論基礎(chǔ)。它還表明,在某些條件下,深度學(xué)習(xí)可以簡化為傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)理論,例如核方法,這些理論為將深度學(xué)習(xí)與經(jīng)典的機(jī)器學(xué)習(xí)理論聯(lián)系起來提供了橋梁。

大致了解這一點(diǎn)。那么,NTK對長篇小說擴(kuò)展有何評論?

它認(rèn)為,線性插值可以平等地在各個(gè)方向上處理組件并降低旋轉(zhuǎn)速度interpolation是什么意思,這是一個(gè)問題。

回想一下,在繩索中,位置的輸入向量的矩陣長度像這樣“旋轉(zhuǎn)”

意思是什么_interpolation是什么意思_意思是不是輕聲詞

它將輸入矢量的元素分為兩組,總共有兩個(gè)組,分別有兩個(gè)元素,并且不同的組分別旋轉(zhuǎn)。在這里,我們可以發(fā)現(xiàn)每個(gè)組的旋轉(zhuǎn)速度不同,因?yàn)榭梢钥闯觯M越小,旋轉(zhuǎn)越快,旋轉(zhuǎn)越大,旋轉(zhuǎn)速度就慢。在這里,總旋轉(zhuǎn)速度越大,整體旋轉(zhuǎn)速度越慢,反之亦然。在同一位置,由于不同的旋轉(zhuǎn)速度,位置向量的信號頻率高且低。前部較高,頻率越低。

不加選擇地提取高頻和低頻信息將失去許多重要的高頻信息,這不是很好。高頻信號應(yīng)推斷,以防止分辨率太低,所有分辨率都被擠壓在一起。低頻信號適合插值。

如何實(shí)現(xiàn)“高頻外推和低頻插值”?

首先,在談?wù)摾K索時(shí),對于二維情況,

interpolation是什么意思_意思是不是輕聲詞_意思是什么

當(dāng)擴(kuò)展到高維條件時(shí)

意思是什么_interpolation是什么意思_意思是不是輕聲詞

在, 。

在此公式下,線性插值等效于

變得

意思是不是輕聲詞_interpolation是什么意思_意思是什么

1“ data-formula-type =” inline-equation“ style =”>,這等同于壓縮。

NTK感知的縮放繩索已更改,具體來說,它的基本值已修改(最初是10,000的繩索)

意思是什么_interpolation是什么意思_意思是不是輕聲詞

interpolation是什么意思_意思是不是輕聲詞_意思是什么

它等效于繁殖系數(shù)。當(dāng)它相對較小時(shí),它接近1,等效于直接外推。當(dāng)它相對較大時(shí)(請注意,從0到[errata]的值應(yīng)為d/2-1),它接近,接近線性插值。

引用了Zhihu文章的觀點(diǎn),以了解NTK-Aware Interpolation

有趣的是,繩索的行為就像時(shí)鐘。 12小時(shí)的時(shí)鐘基本上是一條繩索,尺寸為3,底座為60。因此,每秒鐘,每一分鐘每分鐘,每分鐘,小時(shí)手每分鐘都會旋轉(zhuǎn)1/60。現(xiàn)在,如果您將時(shí)間降低了4次,則是第二次使用的線性繩索縮放。不幸的是,現(xiàn)在每一秒都不同,因?yàn)楝F(xiàn)在二手幾乎不會每秒移動。因此,如果有人給您兩個(gè)不同的時(shí)間,只有一秒鐘的時(shí)間,您將無法將它們與遠(yuǎn)處區(qū)分開。 NTK感知的繩索擴(kuò)展不會放慢時(shí)間。一秒鐘仍然是一秒鐘,但它將幾分鐘減少了1.5次,小時(shí)減少了2次。這樣,您可以在半天的一小時(shí)零24小時(shí)內(nèi)握住90分鐘。因此,現(xiàn)在您基本上的時(shí)鐘尺寸為129.6萬秒,而不是43.2k秒。由于不需要小時(shí)手來準(zhǔn)確測量觀看時(shí)間的時(shí)間,因此至關(guān)重要的是,比秒鐘更大的時(shí)間縮放小時(shí)至關(guān)重要。我不想失去二手的準(zhǔn)確性,但是我可以承受微小手甚至小時(shí)手的準(zhǔn)確性損失。

此外,Su Jianlin從“主要”的角度分析了繩索。有興趣的朋友可以閱讀原始文本,這也非常聰明。

在紗線的論文中,NTK的優(yōu)勢和缺點(diǎn)被評論

鑒于[6]的結(jié)果,與PI相比,該方法在擴(kuò)展非注冊模型的上下文大小方面的表現(xiàn)要好得多[9]。但是,這種方法的一個(gè)主要故障是,鑒于它不僅是一種相互作用方案,因此某些維度略有推斷為“界外”值,因此用“ NTK-Aware”干擾[6]對PI [9]進(jìn)行微調(diào)。此外,由于“界外”值,理論量表因子s不能準(zhǔn)確描述真實(shí)的上下文擴(kuò)展量表。實(shí)際上,對于給定上下文長度擴(kuò)展,必須設(shè)置比例值S高于預(yù)期尺度。

NTK的優(yōu)點(diǎn)是它可以比無線性插值做得更好,而無需微調(diào)。但是,由于低頻部分仍將被外推到范圍之外的值,因此必須將系數(shù)設(shè)置為大于所需的系數(shù)。例如,如果您想在32K下取得更好的結(jié)果,則必須選擇大于8的結(jié)果,例如16。

NTK-PORTS

NTK-Parts方法在NTK插值的基礎(chǔ)上有另一種思想。它認(rèn)為,無論是線性插值還是NTK感知的插值,它都認(rèn)為繩索的所有組成部分對網(wǎng)絡(luò)都同樣重要。 NTK-Poarts的想法認(rèn)為,應(yīng)對不同的組件進(jìn)行不同的處理,并且它們對網(wǎng)絡(luò)的影響也不同。

對于組件,繩索的波長嵌入

interpolation是什么意思_意思是什么_意思是不是輕聲詞

表示一輪旋轉(zhuǎn)所需的長度。當(dāng)它很小時(shí),波長很短,反之亦然,波長很長。這也對應(yīng)于我們之前所說的,前面的組件是高頻,背面的組件是低頻。

這里可以觀察到,當(dāng)它相對較大時(shí),波長可能會更大。在這種情況下,繩索尚未單圈旋轉(zhuǎn),這將導(dǎo)致該組件的分布不均勻(例如,如果僅旋轉(zhuǎn)轉(zhuǎn)彎的1/4,則值全部集中在0?1之間,并且對于-1?0,則沒有值。在這種情況下,該維度的編碼等同于絕對位置編碼,因?yàn)閹缀趺總€(gè)位置都有其獨(dú)特的價(jià)值。相反,當(dāng)它相對較小時(shí),模型只能訪問相對位置信息。

此外,插值將導(dǎo)致在相鄰或接近位置的緊密關(guān)系(因?yàn)樾D(zhuǎn)量很小并且點(diǎn)產(chǎn)品較大),并且文章認(rèn)為這將損害該模型理解本地關(guān)系的能力,因此被選為不介入高頻部件。 NTK-PORTS的想法是

引入了一個(gè)比例來表示波長與上下文長度之間的關(guān)系。還有兩個(gè)閾值可以區(qū)分上述三種情況。如果認(rèn)為波長很大,并且認(rèn)為波長很小。為方便起見,定義坡道功能

NTK-PARTS插值可以定義為一對操作

interpolation是什么意思_意思是不是輕聲詞_意思是什么

這里有兩個(gè)超級參數(shù)要確定。根據(jù)實(shí)驗(yàn)給出的文本中給出的建議值是,當(dāng)波長與上下文長度一樣長時(shí),如果波長與上下文長度一樣長,則認(rèn)為波長是較大的,并且僅插值。當(dāng)波長小于上下文長度的1/32時(shí),被認(rèn)為波長比上下文小得多,因此僅被推斷出來。

動態(tài)NTK縮放繩

無論是線性插值還是NTK感知的插值,都可以使用固定系數(shù)來縮放原始繩索,該系數(shù)將有一些局限性。一方面,在這種情況下,模型可以支持的最大上下文是由使用的縮放系數(shù)確定的。如果超過此范圍,將仍然會出現(xiàn)注意力評分的風(fēng)險(xiǎn)。另一方面,在解碼過程中,當(dāng)解碼長度尚未達(dá)到訓(xùn)練長度時(shí),它用于修改基座,這也可能導(dǎo)致一些損失。基于NTK插值,動態(tài)NTK縮放的繩索將固定系數(shù)更改為動態(tài)系數(shù)。

具體來說,是

這樣,隨著解碼長度的增加,當(dāng)l“ data-formula-type =“ inline-equation”樣式=“”>從1逐漸增加時(shí),無需更改它。

要注意的一件事是,當(dāng)使用動態(tài)系數(shù)時(shí),您應(yīng)該注意KV-Cache的緩存機(jī)制是否正確,并在使用繩索之前記住要緩存值。

上述方法均使用插值。研究人員發(fā)現(xiàn),通過插值,令牌之間的距離變得更近(因?yàn)樾D(zhuǎn)角度現(xiàn)在較小),并且平均最小距離正在減少,因此注意軟軟療法的分布將變得更加尖銳(也就是說,它們都在一定間隔中集中)。換句話說,繩索的原始長距離衰減特征變得更弱且不明顯,這將導(dǎo)致該模型更加注意更多的令牌,這將削弱注意力機(jī)制并導(dǎo)致產(chǎn)出質(zhì)量的降低。

當(dāng)繩索插值到更長的上下文時(shí),注意軟馬克斯分布中的熵會減少,因此研究人員的目標(biāo)是逆轉(zhuǎn)此熵扣除額(即增加注意力集的“溫度”)。這可以通過將中間注意矩陣乘以溫度1“ data-formula-type =” inline-equation“ intline-equation” style =“”>,但是由于將繩索編碼為rope作為旋轉(zhuǎn)矩陣,因此可以簡單地通過恒定因子擴(kuò)展繩索的長度。這樣,您就不必修改注意力代碼。

interpolation是什么意思_意思是什么_意思是不是輕聲詞

意思是不是輕聲詞_interpolation是什么意思_意思是什么

通過對駱駝1和駱駝2的實(shí)驗(yàn),本文提出了建議的值。該值的效果可以通過Llama版本和規(guī)模模型獲得更好的結(jié)果,這意味著在長文本中,這種熵變化很常見。

紗線的最終方法是將NTK逐個(gè)組合在一起,并使用此溫度值來調(diào)整注意力評分。

紗線在微調(diào)方面更好,沒有微調(diào)。

logn

LOGN是指通過LOGN改善注意力計(jì)算中縮放因素的方法,該方法在他的博客中分析了su jianlin。一般的想法與紗線的縮放相似。

簡而言之,我仍然希望,當(dāng)上下文漫長時(shí)引入更多的令牌時(shí),現(xiàn)有令牌仍然可以集中在代幣不會太分心的情況下。因此,提出了新的注意力評分公式

意思是不是輕聲詞_意思是什么_interpolation是什么意思

如您所見網(wǎng)校頭條,當(dāng)l“ data-formula-type =“ inline-equation” style =“”>時(shí),其效果類似于YARN中的縮放。

其他

在擴(kuò)大推理的時(shí)間長度時(shí),還有許多其他有效的任務(wù),例如各種窗口關(guān)注,流媒體LLM,Longlora,F(xiàn)ocus Transformer等,以及對數(shù)據(jù),評估等的更多分析,需要一個(gè)一個(gè)人整理。

概括

較短的預(yù)估計(jì)模型(2K,4K)應(yīng)用于較長的上下文,將由于訓(xùn)練和推理之間的不一致而導(dǎo)致效果下降。

這兩個(gè)問題分別可以通過編碼和注意力評分縮放來緩解這兩個(gè)問題。

線性插值PI,NTK插值和分割的NTK插值都可以減輕第一個(gè)問題,而LOGN和YARN考慮了第二個(gè)問題。目前,這些方法在實(shí)際應(yīng)用中有許多變化,包括修改超參數(shù),功能的重新定義等。

參考

【1】分析變壓器模型的參數(shù)數(shù)量,計(jì)算數(shù)量,中間激活,KV緩存

【2】通過位置插值擴(kuò)展大語模型的上下文窗口

【3】變壓器升級路徑:10。繩索是編碼的β計(jì)量

【紗4紗:大語模型的有效上下文窗口擴(kuò)展

【5】基于調(diào)節(jié)繩索旋轉(zhuǎn)角度的大型模型長度的外推法的詳細(xì)說明

【6】關(guān)于LLM長度外推的簡短討論[7]我想讓大型模型在Propt中了解更多示例,此方法使您可以輸入更多字符

【8】變壓器升級路徑:8。長度外推和位置穩(wěn)健性

【9】繩索外推優(yōu)化 - 支持192K上下文長度

意思是什么_interpolation是什么意思_意思是不是輕聲詞

數(shù)據(jù)報(bào)

為您推薦

2023年北京城市建設(shè)學(xué)校錄取分?jǐn)?shù)線

我們將從以下幾方面大家比較感興趣的做詳細(xì)介紹:學(xué)校簡介、錄取分?jǐn)?shù)線、學(xué)費(fèi)標(biāo)準(zhǔn)、學(xué)校位置。一、學(xué)校簡介及排名二、錄取分?jǐn)?shù)線錄取分?jǐn)?shù)線還可以接受吧?因文章篇幅的限制,如需要此學(xué)校的其它省份的錄取分?jǐn)?shù)線,請關(guān)注留言,我會盡快回復(fù),謝謝支持。實(shí)際學(xué)費(fèi)請以錄取通知書或?qū)W校公示為準(zhǔn)。

2025-03-16 17:07

2023年貴州旅游學(xué)校錄取分?jǐn)?shù)線

溫馨提示:職教招生信息網(wǎng)小編為您整理了“貴州省旅游學(xué)校相關(guān)招生錄取分?jǐn)?shù)線,校區(qū)環(huán)境圖片,初高中起點(diǎn)招生要求等信息”,方便廣大學(xué)生及家長查閱!貴州省旅游學(xué)校招生錄取分?jǐn)?shù)線:上文介紹的是“貴州省旅游學(xué)校招生錄取分?jǐn)?shù)線,校區(qū)環(huán)境圖片,初高中起點(diǎn)招生要求等信息的信息”,希望對廣大學(xué)生家長有所幫助。

2025-03-16 10:11

ink是什么意思 Neuralink獲得FDA批準(zhǔn)開展首次人體臨床研究,腦機(jī)接口技術(shù)邁出重要一步

腦機(jī)接口屬于接觸式類別,是身聯(lián)網(wǎng)未來的重要發(fā)展方向之一。曾阿里達(dá)摩院發(fā)布《2021十大科技趨勢》預(yù)測指出,腦機(jī)接口將迎來重大進(jìn)展,腦機(jī)接口幫助人類超越生物學(xué)極限。Neuralink是一家成立于2016年的腦機(jī)接口公司,自成立以來,一直在招募學(xué)術(shù)界的頂尖神經(jīng)科學(xué)家參與研發(fā)腦機(jī)接口設(shè)備。

2025-03-16 08:27

獺祭清酒:中國餐桌上的日本國酒,連續(xù)六年位居日本酒物語人氣榜第一

搭配這樣一場晚宴,必須在高規(guī)格的日料店,才能滿足味蕾之上的華麗交融。于是我們選擇了蘇州頂流Omakase日料店--鮨殼,帶來這場清酒與日料的味覺盛宴。鮨殼根據(jù)不同季節(jié)為食客精心準(zhǔn)備從日本空運(yùn)過來的上等石材,每道菜都充滿期待與驚喜。別問我們是怎么做到的,來薅羊毛就對了。

2025-03-16 08:26

2023年宿遷衛(wèi)生學(xué)校錄取分?jǐn)?shù)線

今年宿遷衛(wèi)校錄取分?jǐn)?shù)概況2025年宿遷衛(wèi)校的錄取分?jǐn)?shù)線在各專業(yè)之間有所不同,但總體來說,文理科的分?jǐn)?shù)要求較為接近。宿遷衛(wèi)校歷年的錄取分?jǐn)?shù)線普遍在中等水平。報(bào)考宿遷衛(wèi)校時(shí),考生應(yīng)根據(jù)自己的成績和興趣選擇合適的專業(yè)。同時(shí),提前了解宿遷衛(wèi)校的招生政策和往年分?jǐn)?shù)線,有助于考生做出更加科學(xué)的報(bào)考決策。

2025-03-15 21:08

中文和英文中與豬相關(guān)的詞匯含義解析:從豬頭豬腦到pig out

中文里和豬相關(guān)的詞語英文里也有不少和pig相關(guān)的短語out是什么意思?out是一個(gè)常用的俚語pig”pig.pig-headed是什么意思?英文詞典里對pig-headed是這樣解釋的:headpigpig這個(gè)俚語真正的含義是:pig.fly的這一天也不會到來morepig的習(xí)慣用語

2025-03-15 16:36

加載中...
主站蜘蛛池模板: 好男人天堂网 | 国产短视频在线观看 | 香蕉在线视频高清在线播放 | 99热只有精品一区二区 | 中文字幕精品视频 | 亚洲一区二区三区在线免费观看 | 六月丁香婷婷综合 | 四虎新网址 | 亚洲免费视频一区 | 羞羞视频免费观看网站 | 色中色在线视频 | www.激情.com| 日韩一区国产二区欧美三区 | 国产精品视频网站 | 福利视频一区二区微拍堂 | 亚洲毛片在线看 | 自拍偷拍欧美 | 久久精品一区二区三区四区 | 婷婷色在线播放 | 自拍偷拍视频网 | 羞羞视频免费网站在线 | 亚洲欧洲一二三区 | 亚洲欧美中文日韩二区一区 | 玖玖爱精品| 亚洲最大色网站 | 四虎网站最新地址 | 久久久久一 | 羞羞网站在线免费观看 | 国产一区自拍视频 | 麻豆系列 | 国产在线视频99 | 国产一区二区三区日韩欧美 | 国产一区精品在线 | 四虎免费网址 | 久久久久久久亚洲精品 | 一级在线观看视频 | 一级欧美日韩 | 亚洲精品视频久久久 | 亚洲电影免费 | 伊人五月婷婷 | 999热这里只有精品 久久亚洲精品视频 |