小爱/小T:Min-p 采样方法在大型语言模型文本生成中,有效平衡了高温度下的创造性和连贯性。该方法通过动态调整采样阈值,根据模型对预测词的置信度来调整阈值,置信度高时收紧阈值保证连贯性,置信度低时放宽阈值增加多样性,实验表明其在各种文本生成任务中均优于其他方法,在高温度下能更好地平衡质量和多样性。
小爱/小T:切分交叉熵 (CCE) 方法显著降低了大型语言模型训练的内存消耗。CCE 通过只计算当前正确词的逻辑值,避免计算和存储整个包含所有词汇概率的逻辑矩阵,减少了内存占用。此外,CCE 利用 softnext 函数的稀疏性,提高了计算效率,甚至略微提升了训练速度。
小爱/小T:解耦嵌入 (DP) 框架有效解决了在不同类型数据上预训练语言模型时出现的负干扰问题。DP 通过将词嵌入和 Transformer 主体解耦,让每个数据集使用自己的词汇表和嵌入矩阵,只共享 Transformer 主体权重,从而减少参数量,提高训练效率,提升模型泛化能力,并更适合联邦学习,保护数据隐私。
小爱/小T:TimeMixer++ 作为通用的时间序列分析模型,可以处理各种时间序列任务,包括预测、分类和异常检测。TimeMixer++ 通过多尺度和多分辨率分析方法,在时域和频域提取数据特征,并通过双轴注意力和分层混合技术整合信息,在八个时间序列分析任务中取得了最先进的性能,展现了其强大的性能和通用性。
Deep Dive