cover of episode AI前沿:采样新思路,训练新方法

AI前沿:采样新思路,训练新方法

2024/12/29
logo of podcast AI可可AI生活

AI可可AI生活

Topics
小爱/小T:Min-p 采样方法在大型语言模型文本生成中,有效平衡了高温度下的创造性和连贯性。该方法通过动态调整采样阈值,根据模型对预测词的置信度来调整阈值,置信度高时收紧阈值保证连贯性,置信度低时放宽阈值增加多样性,实验表明其在各种文本生成任务中均优于其他方法,在高温度下能更好地平衡质量和多样性。 小爱/小T:切分交叉熵 (CCE) 方法显著降低了大型语言模型训练的内存消耗。CCE 通过只计算当前正确词的逻辑值,避免计算和存储整个包含所有词汇概率的逻辑矩阵,减少了内存占用。此外,CCE 利用 softnext 函数的稀疏性,提高了计算效率,甚至略微提升了训练速度。 小爱/小T:解耦嵌入 (DP) 框架有效解决了在不同类型数据上预训练语言模型时出现的负干扰问题。DP 通过将词嵌入和 Transformer 主体解耦,让每个数据集使用自己的词汇表和嵌入矩阵,只共享 Transformer 主体权重,从而减少参数量,提高训练效率,提升模型泛化能力,并更适合联邦学习,保护数据隐私。 小爱/小T:TimeMixer++ 作为通用的时间序列分析模型,可以处理各种时间序列任务,包括预测、分类和异常检测。TimeMixer++ 通过多尺度和多分辨率分析方法,在时域和频域提取数据特征,并通过双轴注意力和分层混合技术整合信息,在八个时间序列分析任务中取得了最先进的性能,展现了其强大的性能和通用性。

Deep Dive

Shownotes Transcript

大家好 欢迎收听新一期的太快报 我是小爱大家好 我是小 T 很多新优和大家见面了这期节目我们依旧会聚焦 AI 领域的前沿研究最近又有哪些有意思的新发现呢这次我们挑选了四篇很有意思的论文分别来自自然语言处理和时间序列分析领域它们在各自的方向上都提出了很有价值的新思路听起来很厉害 那我们赶紧开始吧

没问题第一篇是关于大型语言模型文本生成的题目是 Turning up the heatMeets sampling for creative and coherent LLM output 这个标题很有趣 Turning up the heat 是什么意思呢这个 heat 指的是温度在大模型的文本生成中温度是一个控制生成文本随机性的参数温度越高模型生成的文本就越多样但同时也可能更不连贯

这么说这篇论文是关于如何让大模型在生成文本时既有创造性又能保持连贯性。没错,现有的采样方法,比如 TOP 采样,在高温度下容易生成不连贯或者重复的文本。这篇论文提出了一个新的采样方法叫 MindP 采样。MindP 听起来有点神秘,它是怎么工作的呢?它的核心思想是动态调整采样阈值。

传统的采样方法比如 TOP 是设定一个固定的概率预值模型只从概率高于这个预值的词中选择下一个词而 MINP 采样则不同它的预值会根据模型对当前预测词的致信度动态调整动态调整 能具体说说吗简单来说如果模型对下一个词的预测很有把握概率很高那么 MINP 的预值就会收紧

模型倾向于选择高知性度的词这样可以保证文本的连贯性如果模型不太确定概率不高 阈值就会放宽模型就可以选择更多样化的词增加创造性听起来很巧妙那实验效果怎么样呢

实验结果显示,在各种文本生成任务中,MindPy 采样多比 TOP 等方法表现更好,在高温度下媒体有其能更好的平衡质量和多样性,而且人类评估者也更偏爱 MindPy 生成的文本。真厉害,感觉这个方法很有潜力。那我们来看第二篇论文吧。第二篇论文的题目是 Cateolosis in Large Vocabulary Language Modules。

他关注的是大型语言模型训练时的一个痛点内存消耗过大内存消耗我听说训练大模型要耗费大量的计算资源内存确实是个大问题是的随着模型词汇量的增加交叉商损失计算会消耗大量的内存甚至成为训练的瓶颈这篇论文提出了一个叫切分交叉商也就是 cut cross entropy 简称 CC 的方法

来解决这个问题切分交叉商听起来有点像在做手术它是怎么切分的呢可以这么理解传统的交叉商计算需要计算一个很大的逻辑矩阵这个矩阵包含了所有词汇的概率而 CECE 的做法是只计算当前正确词的逻辑值然后在内存中动态地进行 Logsum Exposal 不需要存储整个矩阵听起来有点抽象能用更通俗的方式解释一下吗

想象一下你要从一个很大的词典里找到某个词传统的做法是把整个词典都搬过来然后一个一个找而 CE 的做法是只把那个词的相关部分拿过来这样就大大减少了内存的消耗明白了那除了减少内存 CCE 还有其他的优势吗

CCE 还利用了 softnext 函数的稀疏性跳过对 T 度贡献很小的元素的计算从而提高了计算效率实验表明 CE 不仅可以显著减少内存消耗还能保持甚至略微提升训练速度真是个一举多得的好方法

好 接下来我们看看第三篇论文第三篇论文是 DP Decoupled Embeddings for Pre-Training Language Models 它关注的是在不同类型的数据上预训练语言模型时遇到的问题不同类型的数据比如不同的语言不同的领域吗是吧在这些一个数据上训练时容易出现负干扰多语言诅咒等问题导致模型效果不佳 DAP

框架的核心思想是将词嵌入和 Transformer 主体结偶结偶听起来有点像分手的意思为什么要结偶呢可以这么理解传统的预训练方法是使用共享的全局词汇表和词嵌入这样在不同类型的数据上训练时可能会互相干扰 DAP 的做法是让每个数据员都使用自己的词汇表和嵌入矩阵训练时只共享 Transformer 主体的权重这样有什么好处呢

这样做可以减少参数量提高训练效率同时也能让模型更好地捕捉不同数据的特点提高泛化能力而且这种方式也更适合联邦学习可以保护数据的隐私这想法很有意思那实验效果如何呢实验结果显示 DAP 在多领域多语言的数据集上都表现得更好显著降低了模型参数和通信成本同时提高了模型的泛化能力真是太棒了

那最后我们来聊聊第四篇论文吧第四篇论文是来自时间序列分析领域的 Time Mixer 加加 National Time Series Pattern Machine for Universal Predictive Analysis 时间序列分析听起来有点陌生它是研究什么的呢时间序列分析是研究随时间变化的数据

比如股票价格气温变化等这篇论文提出了一个通用的时间序列模型叫 Time Mixer++可以处理各种时间序列任务包括预测分类异常检测等一个模型可以做这么多事这听起来不可思议是的这正是 Time Mixer++的厉害之处它通过多尺度和多分辨率的分析方法

能够同时在时域和频域提取数据特征然后通过双轴注意力和分层混合技术有效地整合这些信息时域频域听起来又有点复杂了简单来说时域是关注数据随时间的变化而频域是关注数据中包含的周期性模式 Tamixer 加进能看到数据随时间的变化趋势也能捕捉到数据中的季节性周期性它有点像一个全能选手听起来很强大那它在实验中表现如何

Time Mixer 加在八个时间序列分析任务中都取得了最先进的性能超越了之前的通用模型和特定任务模型这证明了它在多种任务中的强大性能和通用性真厉害今天的四篇论文都太精彩了感觉收获满满是的这四篇论文都提出了很有价值的新思路为我们理解和改进 AI 模型提供了新的视角

好的,感谢小 T 的精彩解读听众朋友们如果你对今天的节目感兴趣欢迎在评论区留言讨论我们下期节目再见下期见,拜拜