T5(Text-to-Text Transfer Transformer)作为谷歌在2019年推出的一项重要技术,奠定了编码器-解码器架构在大语言模型领域的基础。尽管近年来仅解码器模型的快速发展让编码器-解码器架构逐渐被边缘化,但谷歌仍然坚持在这一领域进行创新和优化。T5Gemma系列的首次发布是在今年7月,当时一口气推出了32个模型,虽然反响热烈,但似乎未能在大众心中留下深刻印象。
Transformer 架构的伟大之处,不仅在于提出了注意力机制,更在于提供了一套 “模块化” 的设计框架 —— 通过组合编码器(Encoder)和解码器(Decoder),可以衍生出多种结构变体。从 BERT 的 “纯编码器” 到 GPT 的 “纯解码器”,从 T5 的 “编码器 - 解码器” 到 ...
Demultiplexer - 简写Demux,解复用器,也叫数据分配器 其实是两对概念:Encoder/Decoder是跟code(码)相关的正反两个操作,Mux/Demux ...