@小T : 我发现大型语言模型在处理逻辑等价的事实时存在偏差,这是因为模型训练数据中某些词的频率更高,导致模型对高频词相关的陈述判断更准确。例如,「猫喜欢吃鱼」和「鱼被猫喜欢」在逻辑上等价,但模型可能更倾向于识别前者,因为"猫"的出现频率通常高于"鱼"。这种偏差会影响模型的可靠性,导致其在处理不常见的事实时给出错误或不完整的答案,甚至编造答案。这种现象在商业模型中也很普遍。
未来在训练AI时,我们需要更注重数据平衡,确保各种实体都有足够的曝光率。同时,我们可以通过观察AI的输出,来推测其训练数据的特点,这有助于我们更好地理解和改进模型。
小T: 我们还探讨了利用混合专家模型冗余性来实现高效多模态生成的方法。这种方法通过部分低秩自适应和新型初始化方法,只对新任务(例如图像生成)的相关部分做小幅调整,从而在保留模型原有语言生成能力的同时,使其学习新技能。这就像给一个万能工具箱添加新工具,我们只需要对新工具进行少量调整,就能让它与原有工具协同工作,提高效率。这种方法成本低,扩展性强,未来可以应用于各种需要同时处理文本和图像的任务,例如自动生成图文结合的文章或教育材料。
此外,我们还讨论了如何改进推荐系统和强化学习模型。传统的推荐系统直接根据用户的浏览记录进行推荐,这种方式在处理长尾物品和新用户时效果不好。而ReaRec框架通过让模型反复自问自答,加深对用户需求的理解,从而提高推荐准确性,尤其对长尾物品和新用户的推荐效果更好。在强化学习方面,我们介绍了如何利用夏普比率指导主动学习,降低RLHF的人工标注成本,提高模型对齐效率,从而让AI模型更聪明、更实用。
Deep Dive