更新時(shí)間:2025-03-17 09:23:50作者:佚名
最近,在漫長的背景下有越來越多的業(yè)務(wù)需求,這只是當(dāng)前功能和主流解決方案的基本內(nèi)容的簡要摘要。
長期文字最相關(guān)的是自然的位置編碼。現(xiàn)在,許多模型使用繩索,這是位置編碼。繩索的基本內(nèi)容以前已經(jīng)對其進(jìn)行整理。
關(guān)于長篇小說
從2023年中期開始,主要的LLM制造商開始關(guān)注長篇小說問題。在2023年5月,克勞德(Claude)支持長度為100k令牌。在6月和7月,Chatgpt3.5還支持16K,ChatGLM2-B的最大長度可以達(dá)到32K。
(一個(gè)單詞,ChatGLM系列一直非常好,從基本模型,長窗口,工具呼叫和代理商來看,我一直處于相對尖端的水平。我最近已經(jīng)使用Chatglm3和Chatglm4進(jìn)行了體驗(yàn)。
大約在同一時(shí)間,LM-SYS的Longchat和Mosaiclm的MPT也支持16K和更長的環(huán)境。
剛剛在今年的農(nóng)歷新年之前出現(xiàn)的QWEN-1.5系列桶也以32k的速度開始。還有一些支持超長窗口的型號
模型支持長度
Baichuan2
192k
gpt4-turbo
128K
是的
200k
基米
128K(200,000個(gè)漢字)
Claude2
200k
在完成基本模型效果后,大型制造商完成了他們可以贏得的排名,并專注于增長背景的能力(當(dāng)然,長篇小說也有排名)。
為什么這么久?
長上下文要求
根據(jù)所使用的語言和令牌,每個(gè)令牌的相應(yīng)編碼文本不同。以中文為例,在大多數(shù)模型中對應(yīng)于每個(gè)令牌的漢字?jǐn)?shù)量> 1.5個(gè)字符(某些有效的標(biāo)記器可以實(shí)現(xiàn)2個(gè)以上的字符)。然后,200k令牌可以處理30w單詞的上下文。
我剛剛讀過劉·辛云(Liu Zhenyun)的小說《一句話價(jià)值一千句話》。整本書大約是270,000個(gè)單詞,這意味著這些長篇小說模型現(xiàn)在可以在幾秒鐘內(nèi)閱讀小說,然后與我交換我的經(jīng)歷,或者告訴我本書的摘要,或幫助我在文本中找到一些詳細(xì)的描述。
以上方案對應(yīng)于大型模型的工具場景。我們可以使用大型模型閱讀論文,總結(jié)研究報(bào)告或閱讀代碼的能力。這些場景需要相對較長的上下文輸入。
大型型號,抹布(檢索效果的一代)也有一個(gè)流行的應(yīng)用程序方案,它對長上下文輸入也有要求。但是,在抹布中,大多數(shù)輸入文本不是直接來自用戶輸入,而是檢索到的。
除了基于工具的應(yīng)用程序方案外,還有一些個(gè)性化的方案,這些方案也對長篇小說有要求。例如,一些智能助手需要長時(shí)間記住用戶的喜好和設(shè)置。這些偏好和設(shè)置可以以propt或?qū)υ挼男问匠掷m(xù)存在,當(dāng)進(jìn)行新的對話時(shí),將這些內(nèi)容與用戶的新輸入進(jìn)行處理。
實(shí)際上,即使是單個(gè)聊天也可能要求模型處理更長的上下文。例如,我們可以讓模型扮演特定的電影和電視角色或游戲角色與我們交談。目前,通常會設(shè)置該模型,例如這是什么樣的任務(wù),故事背景和世界觀的樣子以及現(xiàn)在需要溝通的哪些方面。這些設(shè)置將以提示的形式在開始時(shí)輸入模型。隨著對話的進(jìn)行,如果模型的文本能力很長,則可能會忘記我們之前給出的設(shè)置,這將導(dǎo)致經(jīng)驗(yàn)中的問題。
上面的示例實(shí)際上導(dǎo)致了長期文本要求的更具體的內(nèi)容:(1)當(dāng)文本相對較長時(shí),您仍然可以說人類語言,并且PPL還應(yīng)較低(2)除了說人類語言外,您還應(yīng)該能夠考慮到上述詳細(xì)信息,并且應(yīng)該沒有自我糾紛。
如何支持長篇小說
看來許多當(dāng)前的應(yīng)用程序方案確實(shí)具有較長的上下文要求,那么如何實(shí)施它們?
如果我們直接訓(xùn)練2K/4K長度的模型,然后在推斷時(shí)設(shè)置一個(gè)8K或16K的窗口,那么PPL將急劇上升,從而導(dǎo)致該模型無法說到人類語言。在談?wù)摾K索時(shí)提到的原因之一是該模型無法處理尚未經(jīng)過良好培訓(xùn)的位置編碼。
直接培訓(xùn)
由于在訓(xùn)練期間使用2K/4K無法在8K/16K/32K+的上下文長度上得到很好的推理,因此在培訓(xùn)期間直接使用更長的數(shù)據(jù)來訓(xùn)練還不夠嗎?
從理論上講,這個(gè)想法是可行的,但是您在實(shí)踐中會遇到一些問題(他可能認(rèn)為這不是問題)。
1。培訓(xùn)數(shù)據(jù)
直觀地說,要培訓(xùn)長上下文模型,需要長文本。要達(dá)到32K或更大的長度,它只能是書籍。
當(dāng)然,我們還可以將多個(gè)中長的文本拼寫,然后將其用于培訓(xùn)。例如,當(dāng)過濾4K長度數(shù)據(jù)時(shí),這8件足夠長。然后,使用注意力面具來限制文本的每個(gè)段落之間的注意力,以便他們可以在各自的位置訓(xùn)練每個(gè)段落而不相互干預(yù)。即使您不戴口罩,效果也很好。
通常,它是[連續(xù)的長文本]> [多個(gè)中等文本剪接](也可用)
2。資源消耗
讓我們簡要介紹一下變形金剛在培訓(xùn)中消耗的資源。
假設(shè)該模型具有圖層,詞匯尺寸為,隱藏的大小為,批處理大小為,并且訓(xùn)練窗口長度為,并且使用Adam Optimizer進(jìn)行訓(xùn)練(需要一階和二階動量)。為了簡化估計(jì),可以假定注意力頭的數(shù)量為1。
(1)參數(shù)數(shù)量
模型的總參數(shù)數(shù)量= Word Vector參數(shù)數(shù)量 + *解碼器層參數(shù)數(shù)量=
您可以看到參數(shù)數(shù)量與窗口長度無關(guān),并且模型確定它是固定值。
(2)計(jì)算的數(shù)量
一次性正向計(jì)算量=輸出分類標(biāo)頭logits計(jì)算 + *每層計(jì)算數(shù)量
看看計(jì)算數(shù)量和參數(shù)數(shù)量之間的關(guān)系。忽略參數(shù)數(shù)量和計(jì)算數(shù)量中的低階項(xiàng),然后
可以看出,隨著輸入長度的增加,總計(jì)算量為平方。目前,基本上可以將其視為線性。當(dāng)前,大多數(shù)型號的范圍在1K至1W的范圍內(nèi),當(dāng)它們不超長時(shí),基本上可以被認(rèn)為與這些模型相當(dāng)。計(jì)算是長度的“弱”二次關(guān)系
(3)視頻記憶
在訓(xùn)練過程中,視頻內(nèi)存主要包括模型參數(shù),梯度,優(yōu)化器狀態(tài)值和中間激活值。
在訓(xùn)練過程中,每個(gè)參數(shù)()具有相應(yīng)的梯度(),每個(gè)參數(shù)對應(yīng)于具有一階動量和二階動量()的優(yōu)化器。在混合精度訓(xùn)練中,半精度用于正向計(jì)算和梯度計(jì)算,優(yōu)化器會備份單位優(yōu)化器狀態(tài),??梯度和參數(shù)以更新參數(shù),因此共同的參數(shù)占據(jù)。
該部分與輸入長度沒有直接關(guān)系。
需要占據(jù)視頻內(nèi)存的另一部分是中間激活值。
保存激活值是計(jì)算梯度,因此每個(gè)矩陣乘法,軟磁性和輟學(xué)都需要保存輸入值的中間激活值。
對于注意力層,輸入時(shí),您必須首先投射需要保存的中間值;計(jì)算重量時(shí),您需要乘以矩陣,并且需要保存矩陣的值;執(zhí)行SoftMax時(shí),您需要保存輸入;依此類推,所有需要保存的中間激活值都是。對于圖層模型interpolation是什么意思,將其乘以。
可以看出,中間激活值隨著平方關(guān)系的增加而增加。當(dāng)訓(xùn)練4K長度模型和32K長度模型時(shí),激活值所需的視頻記憶增加了64倍。在這種情況下,要么擴(kuò)展集群,添加更多的GPU,降低批量的大小,要么增加梯度積累的價(jià)值,這無論如何都會增加培訓(xùn)成本。
小型型號(例如2B,7b)可以是硬連線并支持16k或32k的長度,但是對于較大的長度(200k)或較大的型號(34b,70b+),這將更便宜。
現(xiàn)在的一般方法是將其分為兩個(gè)階段。在第一階段,使用2K或4K訓(xùn)練基本模型。在模型學(xué)習(xí)了文本內(nèi)容和短位置關(guān)系之后,然后使用比第一階段少的數(shù)據(jù)在長篇小說中優(yōu)化效果。
在第二階段,如何通過更少的培訓(xùn)來取得更好的結(jié)果。
線性插值位置插值
6月23日,META提出了一種線性插值方法PI(位置插值),用于“通過位置插值擴(kuò)展大語模型的上下文窗口”,該繩索可以將2K的基本模型擴(kuò)展到32K,并在1K訓(xùn)練下實(shí)現(xiàn)良好的結(jié)果。
相比之下,通過直接微調(diào)擴(kuò)展的Llama模型僅顯示有效上下文尺寸kmax的最小增加到2048年至2560,即使在微調(diào)超過10000步之后,也沒有明確指示窗口尺寸的加速度。
相反,直接基于基本模型的長文本微調(diào)的效率相對較低。經(jīng)過10,000步的訓(xùn)練,有效長度僅從2048年增加到2560。
看來,盡管繩索具有許多優(yōu)勢,但不包括長上下文外推。
還對本文中繩索的外推性能進(jìn)行了一些分析。最初,繩索是相對位置編碼,具有遠(yuǎn)程衰減的特征。從理論上講,它應(yīng)該具有某些外推能力,但實(shí)際上并非如此。簡而言之,紙張發(fā)現(xiàn),當(dāng)相對位置差異不大時(shí)(
查看上圖中間的圖片。當(dāng)該位置超過3000時(shí),突然出現(xiàn)了較大的注意力評分。右圖的圖使用插值方法,這是相對穩(wěn)定的。
(遠(yuǎn)程衰減上邊界問題的特定推導(dǎo)過程將不會擴(kuò)展。有興趣的朋友可以閱讀本文的原始文本)
另一方面,PI甚至可以在無需插值的情況下就具有一定的長窗口功能。
插值的概念如下:如下圖所示,左上部分表示預(yù)先訓(xùn)練的2K長度位置代碼,右上部分表示基于此基礎(chǔ)的直接外推,因此,以前未經(jīng)培訓(xùn)的許多值將出現(xiàn),并且模型的學(xué)習(xí)成本相對較高;下半部分代表基于已經(jīng)訓(xùn)練的2K模型的插值,類似于每兩個(gè)位置代碼之間插入一個(gè)位置點(diǎn),因此總位置表示從2K增加到4K。在此基礎(chǔ)上,進(jìn)行了少量的微調(diào),該模型可以快速學(xué)習(xí)新的位置表示。
這個(gè)想法也非常直觀。例如,原始模型學(xué)到了位置1,位置2,位置3 ...的某個(gè)規(guī)則,現(xiàn)在我告訴該模型,該位置不一定是整數(shù),而是位置1,位置1.5,位置2,位置2.5 ...盡管值已經(jīng)發(fā)生了變化,但相對關(guān)系仍然存在,因此該模型還可以在原始學(xué)識淵博的關(guān)系的幫助下迅速延伸到“ 0.5”位置。
由于三角函數(shù)的平滑性質(zhì),我們可以重新定義注意力評分的計(jì)算,以使結(jié)果沒有異常大的值,即,它是原始長度(即2048年),我們想增加的長度(8k/16k/32k等)。
更具體地說,是為了繩索進(jìn)行一些修改
等效于位置的分辨率已從1下降。
(分析,但實(shí)施非常簡單。工程師的福音。我真的希望這些論文能夠在將來給出這樣的結(jié)果)
然后使用數(shù)萬到數(shù)十萬個(gè)樣本進(jìn)行預(yù)訓(xùn)練,這很好。
(文章還具有隨后的重點(diǎn)。在訓(xùn)練長篇小說之后,在短上下文方案中效果略有下降)
NTK意見插值
線性插值等效于直接線性地拉伸COS函數(shù),減少不同位置之間的差異,從而使模型之間的區(qū)別降低,這有些簡單且粗糙。 NTK感知的插值在理論上提出了一種更“精致”的方法,這是一種在繩索上進(jìn)行非線性插值的方法。 Codellama使用此方法將長度擴(kuò)展到1m。
NTK是神經(jīng)切線核,神經(jīng)可能的核。這是什么?讓GLM4幫助回答
神經(jīng)切線內(nèi)核(NTK)是深度學(xué)習(xí)理論的概念,這是一種理論工具,在訓(xùn)練無限范圍的神經(jīng)網(wǎng)絡(luò)時(shí)會出現(xiàn)。在深度學(xué)習(xí)領(lǐng)域,寬度通常是指網(wǎng)絡(luò)中每一層的神經(jīng)元數(shù)量。 NTK的提議為理解深度學(xué)習(xí)提供了一種新的觀點(diǎn),尤其是當(dāng)網(wǎng)絡(luò)寬度趨于無限時(shí),線性模型可以近似網(wǎng)絡(luò)的行??為。
理想情況下,當(dāng)網(wǎng)絡(luò)寬度傾向于無限時(shí),網(wǎng)絡(luò)訓(xùn)練過程可以通過固定的內(nèi)核函數(shù)來描述,即神經(jīng)切線核。該內(nèi)核函數(shù)描述了網(wǎng)絡(luò)輸出與輸入之間關(guān)系的性質(zhì),從而使我們可以使用內(nèi)核方法來分析此類網(wǎng)絡(luò)的訓(xùn)練和概括能力。
具體而言,NTK允許我們預(yù)測網(wǎng)絡(luò)權(quán)重的演變,并且隨著培訓(xùn)的進(jìn)行,以及網(wǎng)絡(luò)在無限寬的網(wǎng)絡(luò)中如何隨時(shí)間變化。這些預(yù)測在數(shù)學(xué)上更清晰和分析性更為清晰,有助于我們深入了解深度學(xué)習(xí)的工作原理,尤其是在概括和優(yōu)化方面。
NTK的研究為設(shè)計(jì)新的網(wǎng)絡(luò)體系結(jié)構(gòu),培訓(xùn)算法和理論分析提供了重要的理論基礎(chǔ)。它還表明,在某些條件下,深度學(xué)習(xí)可以簡化為傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)理論,例如核方法,這些理論為將深度學(xué)習(xí)與經(jīng)典的機(jī)器學(xué)習(xí)理論聯(lián)系起來提供了橋梁。
大致了解這一點(diǎn)。那么,NTK對長篇小說擴(kuò)展有何評論?
它認(rèn)為,線性插值可以平等地在各個(gè)方向上處理組件并降低旋轉(zhuǎn)速度interpolation是什么意思,這是一個(gè)問題。
回想一下,在繩索中,位置的輸入向量的矩陣長度像這樣“旋轉(zhuǎn)”
它將輸入矢量的元素分為兩組,總共有兩個(gè)組,分別有兩個(gè)元素,并且不同的組分別旋轉(zhuǎn)。在這里,我們可以發(fā)現(xiàn)每個(gè)組的旋轉(zhuǎn)速度不同,因?yàn)榭梢钥闯觯M越小,旋轉(zhuǎn)越快,旋轉(zhuǎn)越大,旋轉(zhuǎn)速度就慢。在這里,總旋轉(zhuǎn)速度越大,整體旋轉(zhuǎn)速度越慢,反之亦然。在同一位置,由于不同的旋轉(zhuǎn)速度,位置向量的信號頻率高且低。前部較高,頻率越低。
不加選擇地提取高頻和低頻信息將失去許多重要的高頻信息,這不是很好。高頻信號應(yīng)推斷,以防止分辨率太低,所有分辨率都被擠壓在一起。低頻信號適合插值。
如何實(shí)現(xiàn)“高頻外推和低頻插值”?
首先,在談?wù)摾K索時(shí),對于二維情況,
當(dāng)擴(kuò)展到高維條件時(shí)
在, 。
在此公式下,線性插值等效于
變得
1“ data-formula-type =” inline-equation“ style =”>,這等同于壓縮。
NTK感知的縮放繩索已更改,具體來說,它的基本值已修改(最初是10,000的繩索)
有
它等效于繁殖系數(shù)。當(dāng)它相對較小時(shí),它接近1,等效于直接外推。當(dāng)它相對較大時(shí)(請注意,從0到[errata]的值應(yīng)為d/2-1),它接近,接近線性插值。
引用了Zhihu文章的觀點(diǎn),以了解NTK-Aware Interpolation
有趣的是,繩索的行為就像時(shí)鐘。 12小時(shí)的時(shí)鐘基本上是一條繩索,尺寸為3,底座為60。因此,每秒鐘,每一分鐘每分鐘,每分鐘,小時(shí)手每分鐘都會旋轉(zhuǎn)1/60。現(xiàn)在,如果您將時(shí)間降低了4次,則是第二次使用的線性繩索縮放。不幸的是,現(xiàn)在每一秒都不同,因?yàn)楝F(xiàn)在二手幾乎不會每秒移動。因此,如果有人給您兩個(gè)不同的時(shí)間,只有一秒鐘的時(shí)間,您將無法將它們與遠(yuǎn)處區(qū)分開。 NTK感知的繩索擴(kuò)展不會放慢時(shí)間。一秒鐘仍然是一秒鐘,但它將幾分鐘減少了1.5次,小時(shí)減少了2次。這樣,您可以在半天的一小時(shí)零24小時(shí)內(nèi)握住90分鐘。因此,現(xiàn)在您基本上的時(shí)鐘尺寸為129.6萬秒,而不是43.2k秒。由于不需要小時(shí)手來準(zhǔn)確測量觀看時(shí)間的時(shí)間,因此至關(guān)重要的是,比秒鐘更大的時(shí)間縮放小時(shí)至關(guān)重要。我不想失去二手的準(zhǔn)確性,但是我可以承受微小手甚至小時(shí)手的準(zhǔn)確性損失。
此外,Su Jianlin從“主要”的角度分析了繩索。有興趣的朋友可以閱讀原始文本,這也非常聰明。
在紗線的論文中,NTK的優(yōu)勢和缺點(diǎn)被評論
鑒于[6]的結(jié)果,與PI相比,該方法在擴(kuò)展非注冊模型的上下文大小方面的表現(xiàn)要好得多[9]。但是,這種方法的一個(gè)主要故障是,鑒于它不僅是一種相互作用方案,因此某些維度略有推斷為“界外”值,因此用“ NTK-Aware”干擾[6]對PI [9]進(jìn)行微調(diào)。此外,由于“界外”值,理論量表因子s不能準(zhǔn)確描述真實(shí)的上下文擴(kuò)展量表。實(shí)際上,對于給定上下文長度擴(kuò)展,必須設(shè)置比例值S高于預(yù)期尺度。
NTK的優(yōu)點(diǎn)是它可以比無線性插值做得更好,而無需微調(diào)。但是,由于低頻部分仍將被外推到范圍之外的值,因此必須將系數(shù)設(shè)置為大于所需的系數(shù)。例如,如果您想在32K下取得更好的結(jié)果,則必須選擇大于8的結(jié)果,例如16。
NTK-PORTS
NTK-Parts方法在NTK插值的基礎(chǔ)上有另一種思想。它認(rèn)為,無論是線性插值還是NTK感知的插值,它都認(rèn)為繩索的所有組成部分對網(wǎng)絡(luò)都同樣重要。 NTK-Poarts的想法認(rèn)為,應(yīng)對不同的組件進(jìn)行不同的處理,并且它們對網(wǎng)絡(luò)的影響也不同。
對于組件,繩索的波長嵌入
表示一輪旋轉(zhuǎn)所需的長度。當(dāng)它很小時(shí),波長很短,反之亦然,波長很長。這也對應(yīng)于我們之前所說的,前面的組件是高頻,背面的組件是低頻。
這里可以觀察到,當(dāng)它相對較大時(shí),波長可能會更大。在這種情況下,繩索尚未單圈旋轉(zhuǎn),這將導(dǎo)致該組件的分布不均勻(例如,如果僅旋轉(zhuǎn)轉(zhuǎn)彎的1/4,則值全部集中在0?1之間,并且對于-1?0,則沒有值。在這種情況下,該維度的編碼等同于絕對位置編碼,因?yàn)閹缀趺總€(gè)位置都有其獨(dú)特的價(jià)值。相反,當(dāng)它相對較小時(shí),模型只能訪問相對位置信息。
此外,插值將導(dǎo)致在相鄰或接近位置的緊密關(guān)系(因?yàn)樾D(zhuǎn)量很小并且點(diǎn)產(chǎn)品較大),并且文章認(rèn)為這將損害該模型理解本地關(guān)系的能力,因此被選為不介入高頻部件。 NTK-PORTS的想法是
引入了一個(gè)比例來表示波長與上下文長度之間的關(guān)系。還有兩個(gè)閾值可以區(qū)分上述三種情況。如果認(rèn)為波長很大,并且認(rèn)為波長很小。為方便起見,定義坡道功能
NTK-PARTS插值可以定義為一對操作
這里有兩個(gè)超級參數(shù)要確定。根據(jù)實(shí)驗(yàn)給出的文本中給出的建議值是,當(dāng)波長與上下文長度一樣長時(shí),如果波長與上下文長度一樣長,則認(rèn)為波長是較大的,并且僅插值。當(dāng)波長小于上下文長度的1/32時(shí),被認(rèn)為波長比上下文小得多,因此僅被推斷出來。
動態(tài)NTK縮放繩
無論是線性插值還是NTK感知的插值,都可以使用固定系數(shù)來縮放原始繩索,該系數(shù)將有一些局限性。一方面,在這種情況下,模型可以支持的最大上下文是由使用的縮放系數(shù)確定的。如果超過此范圍,將仍然會出現(xiàn)注意力評分的風(fēng)險(xiǎn)。另一方面,在解碼過程中,當(dāng)解碼長度尚未達(dá)到訓(xùn)練長度時(shí),它用于修改基座,這也可能導(dǎo)致一些損失。基于NTK插值,動態(tài)NTK縮放的繩索將固定系數(shù)更改為動態(tài)系數(shù)。
具體來說,是
這樣,隨著解碼長度的增加,當(dāng)l“ data-formula-type =“ inline-equation”樣式=“”>從1逐漸增加時(shí),無需更改它。
要注意的一件事是,當(dāng)使用動態(tài)系數(shù)時(shí),您應(yīng)該注意KV-Cache的緩存機(jī)制是否正確,并在使用繩索之前記住要緩存值。
紗
上述方法均使用插值。研究人員發(fā)現(xiàn),通過插值,令牌之間的距離變得更近(因?yàn)樾D(zhuǎn)角度現(xiàn)在較小),并且平均最小距離正在減少,因此注意軟軟療法的分布將變得更加尖銳(也就是說,它們都在一定間隔中集中)。換句話說,繩索的原始長距離衰減特征變得更弱且不明顯,這將導(dǎo)致該模型更加注意更多的令牌,這將削弱注意力機(jī)制并導(dǎo)致產(chǎn)出質(zhì)量的降低。
當(dāng)繩索插值到更長的上下文時(shí),注意軟馬克斯分布中的熵會減少,因此研究人員的目標(biāo)是逆轉(zhuǎn)此熵扣除額(即增加注意力集的“溫度”)。這可以通過將中間注意矩陣乘以溫度1“ data-formula-type =” inline-equation“ intline-equation” style =“”>,但是由于將繩索編碼為rope作為旋轉(zhuǎn)矩陣,因此可以簡單地通過恒定因子擴(kuò)展繩索的長度。這樣,您就不必修改注意力代碼。
通過對駱駝1和駱駝2的實(shí)驗(yàn),本文提出了建議的值。該值的效果可以通過Llama版本和規(guī)模模型獲得更好的結(jié)果,這意味著在長文本中,這種熵變化很常見。
紗線的最終方法是將NTK逐個(gè)組合在一起,并使用此溫度值來調(diào)整注意力評分。
紗線在微調(diào)方面更好,沒有微調(diào)。
logn
LOGN是指通過LOGN改善注意力計(jì)算中縮放因素的方法,該方法在他的博客中分析了su jianlin。一般的想法與紗線的縮放相似。
簡而言之,我仍然希望,當(dāng)上下文漫長時(shí)引入更多的令牌時(shí),現(xiàn)有令牌仍然可以集中在代幣不會太分心的情況下。因此,提出了新的注意力評分公式
如您所見網(wǎng)校頭條,當(dāng)l“ data-formula-type =“ inline-equation” style =“”>時(shí),其效果類似于YARN中的縮放。
其他
在擴(kuò)大推理的時(shí)間長度時(shí),還有許多其他有效的任務(wù),例如各種窗口關(guān)注,流媒體LLM,Longlora,F(xiàn)ocus Transformer等,以及對數(shù)據(jù),評估等的更多分析,需要一個(gè)一個(gè)人整理。
概括
較短的預(yù)估計(jì)模型(2K,4K)應(yīng)用于較長的上下文,將由于訓(xùn)練和推理之間的不一致而導(dǎo)致效果下降。
這兩個(gè)問題分別可以通過編碼和注意力評分縮放來緩解這兩個(gè)問題。
線性插值PI,NTK插值和分割的NTK插值都可以減輕第一個(gè)問題,而LOGN和YARN考慮了第二個(gè)問題。目前,這些方法在實(shí)際應(yīng)用中有許多變化,包括修改超參數(shù),功能的重新定義等。
參考
【1】分析變壓器模型的參數(shù)數(shù)量,計(jì)算數(shù)量,中間激活,KV緩存
【2】通過位置插值擴(kuò)展大語模型的上下文窗口
【3】變壓器升級路徑:10。繩索是編碼的β計(jì)量
【紗4紗:大語模型的有效上下文窗口擴(kuò)展
【5】基于調(diào)節(jié)繩索旋轉(zhuǎn)角度的大型模型長度的外推法的詳細(xì)說明
【6】關(guān)于LLM長度外推的簡短討論[7]我想讓大型模型在Propt中了解更多示例,此方法使您可以輸入更多字符
【8】變壓器升級路徑:8。長度外推和位置穩(wěn)健性
【9】繩索外推優(yōu)化 - 支持192K上下文長度
數(shù)據(jù)報(bào)
2025-03-16 17:07
2025-03-16 08:27
2025-03-15 21:08