重新审阅Transformer:颠倒更实用,着实天下预料的新SOTA泛起了

2025-03-21 14:44:01 来源: 分类:焦点

思考到基于 Transformer 的重新着实预料器的争议,钻研者们正在思考为甚么 Transformer 在光阴序列预料中的审阅实用展现致使不如线性模子,而在良多其余规模却发挥着主导熏染。颠倒更的新

克日 ,天下来自清华大学的预料一篇新论文提出了一个差距的视角 ——Transformer 的功能不是固有的,而是泛起由于将架构不当地运用于光阴序列数据组成的  。

论文地址 :https://arxiv.org/pdf/2310.06625.pdf

基于 Transformer 的重新着实预料器的现有妄想可能并不适宜多变量光阴序列预料。如图 2 左侧所示 ,审阅实用统一光阴步长的颠倒更的新点根基上代表了残缺差距的物理意思 ,但丈量服从却不不同,天下这些点被嵌入到一个 token 中 ,预料多变量相关性被抹去。泛起而且,重新着实在事实天下中 ,审阅实用由于多变量光阴点的颠倒更的新部份感触野以及光阴戳不同过错齐,单个光阴步组成的标志很难揭示有利信息 。此外 ,尽管序列变更会受到序列挨次的极大影响,但在光阴维度上却不适当地接管变体留意力机制 。因此,Transformer 在捉拿根基序列表征以及形貌多元相关性方面的能耐被削弱 ,限度了其在差距光阴序列数据上的能耐以及泛化能耐 。

对于将每一个光阴步的多变量点嵌入一个(光阴)token 的不同理性,钻研者从光阴序列的反向视角动身,将每一个变量的全部光阴序列自力嵌入一个(变量)token,这是扩展部份感触野的 patching 的极其情景。经由颠倒 ,嵌入的 token 群集了序列的全局表征,可能愈加以变量为中间 ,更好地运用留意力机制妨碍多变量分割关连 。同时 ,前馈收集可能熟练地学习恣意回溯序列编码的差距变量的泛化表征,并解码以预料未来序列 。

钻研者以为 Transformer 对于光阴序列预料并非实用 ,而是运用不妥。在文中,钻研者重新审阅了 Transformer 的妄想 ,并建议将 iTransformer 作为光阴序列预料的根基支柱。他们将每一个光阴序列嵌入为变量 token,接管多变量相关性关注,并运用前馈收集妨碍序列编码  。试验服从表明,本文所提出的 iTransformer 在图 1 所示的实际预料基准上抵达了 SOTA 水准,并出人预料地处置了基于 Transformer 的预料器的痛点。

总结来说 ,本文的贡献有如下三点:

  • 钻研者对于 Transformer 的架构妨碍了反思  ,发现原生 Transformer 组件在光阴序列上的能耐尚未患上到短缺开拓 。

  • 本文提出的 iTransformer 将自力光阴序列视为 token,经由自留意力捉拿多变量相关性  ,并运用层归一化以及前馈收集模块学习更好的序列全局展现法  ,用于光阴序列预料。

  • 经由试验,iTransformer 在着实天下的预料基准上抵达了 SOTA。钻研者合成了反转模块以及架构抉择,为未来改善基于 Transformer 的预料器指明了倾向。

iTransformer

在多变量光阴序列预料中  ,给定历史审核:

用 T 个光阴步长以及 N 个变量  ,钻研者预料未来的 S 个光阴步长 :

 。为利便起见 ,展现为

更多资讯请点击:焦点

推荐资讯

原创 湖人夺冠!他们1胜48败!又一中国人要进NBA?

原标题:湖人夺冠!他们1胜48败!又一中国人要进NBA? 欢迎大家来到上周柚球“一周大事件”回顾! 过去一周,精彩纷呈,让我们一起来瞅瞅,是哪些家伙们被柚子妞挂在了心头? “东1控”

雄鹿主帅谈米德尔顿:尚未复出光阴表 会看看他的治疗下场若何

直播吧11月27日讯 明天停止的一场NBA老例赛,雄鹿108比102击败开拓者。赛后雄鹿主帅阿德里安-格里芬接受了媒体的采访。谈到米德尔顿的伤势,格里芬说道:“如今尚未复出光阴表,便是逐日审核。咱们会

原创 CBA今日5场大战!辽篮主场赢球,王哲林再遇难题,北控结束三连败

原标题:CBA今日5场大战!辽篮主场赢球,王哲林再遇难题,北控结束三连败 目前CBA常规赛进入白热化阶段,12月之后很多球队战斗力在提升,此消彼长之间让比赛变得更好看。12月7日第14轮全面开打