arXiv 论文列表

多元一体？基于上下文的2024年欧洲议会选举预测中的LLM偏差

作者: Leah von der Heyde, Anna-Carolina Haensch, Alexander Wenz, Bolei Ma

arXiv:2409.09045v2 宣告类型: replace-cross 摘要："基于大规模语言模型（LLMs）的合成样本"被论为可以作为人类调查的高效替代品，前提是它们的训练数据包含了关于人类态度和行为的信息。然而，LLM合成样本可能表现出偏差，例如，由于训练数据和微调过程可能无法代表多样化的背景。这种偏差有可能加强现有研究、政策制定和社会中的偏差。因此，研究人员需要调查LLM生成的合成样本在什么情况下以及在何种条件下可以用于公众意见预测。在本研究中，我们通过预测2024年欧洲议会选举的结果来考察基于LLM的个体公众意见预测在多大程度上表现出上下文相关的偏差。我们向三个LLM提供了26,000名合格欧洲选民的个体背景信息，并要求它们预测每个人的投票行为。通过将其与实际结果进行比较，我们展示了基于LLM的对未来投票行为的预测大多失败，其准确性在国家和语言背景下分布不均，并且需要在提示中包含详细的态度信息。研究结果强调了LLM合成样本在公众意见预测中的有限适用性。通过探讨它们的上下文偏差，本研究促进了对LLM及其在计算社会学中应用中的不平等现象的理解和缓解。

发布时间: 4/21/2025

查看原文

NeurLZ: 一种基于神经学习的在线方法以增强科学损减压缩

作者: Wenqi Jia, Zhewen Hu, Youyuan Liu, Boyuan Zhang, Jinzhen Wang, Jinyang Liu, Wei Niu, Stavros Kalafatis, Junzhou Huang, Sian Jin, Daoce Wang, Jiannan Tian, Miao Yin

arXiv:2409.05785v4 通知类型: replace-cross 摘要：大规模科学模拟生成大量的数据集，这给存储和输入/输出带来了挑战。传统的有损压缩在压缩比、数据质量和适应不同科学数据特征方面难以取得平衡进步。虽然基于深度学习的解决方案已被探索，但它们通常依赖大型模型和离线训练的做法限制了对动态数据特性和计算效率的适应性。为了应对这些挑战，我们提出了NeurLZ，一种通过结合在线学习、跨域学习和稳健的误差调节来增强有损压缩的神经方法。NeurLZ的关键创新包括：(1) 压缩时间的在线神经学习，利用轻量级跳过的DNN模型，不需要昂贵的离线关联，适应残留误差；(2) 误差缓解能力，恢复由传统压缩器忽略的压缩误差中的细微差别；(3) $1\times$和$2\times$误差调节模式，确保严格遵守$1\times$用户输入的误差界限或较为宽松的$2\times$界限，以提高整体质量；(4) 跨域学习，利用科学数据中的域间关联来改进传统方法。针对代表性的HPC数据集（如Nyx、Miranda、飓风）和最先进的压缩器进行全面评估显示了NeurLZ的有效性。在前五个学习周期内，NeurLZ实现了89%的比特率降低，并通过进一步优化在等效失真下达到约94%的降低，明显优于现有方法，充分展示了NeurLZ在增强科学有损压缩方面的优越性能，作为一种可扩展和高效的解决方案。

发布时间: 4/21/2025

查看原文

理解知识性语言与语言增强的 Bayesian 理解心智理论

作者: Lance Ying, Tan Zhi-Xuan, Lionel Wong, Vikash Mansinghka, Joshua B. Tenenbaum

arXiv:2408.12022v2 宣告类型: replace-cross 摘要：人们是如何理解和评估关于他人信念的声明的，即使这些信念无法直接观察到？在本文中，我们提出了一个认知模型，该模型基于关于其他代理目标、信念和意图的贝叶斯推断：语言增强的贝叶斯理论之 Mind（LaBToM）。通过将自然语言转换为具有语法约束的LLM解码的“思维语言”，并通过评估这些转换与反转生成模型推断出的理性行动和感知推断之间的差异，LaBToM 捕捉了关于知识声明的梯度可信度判断。我们在一个实验中验证了该模型，该实验中参与者观看一个代理在一个迷宫中导航以找到藏在盒子中的钥匙，以便达到其目标，然后对该代理信念的句子进行评级。与多模态LLM（GPT-4o、Gemini Pro）和删节模型相比，我们的模型与人类判断高度相关，涵盖多种表达，包括模态语言、不确定性表达、知识声明、概率比较以及错误信念归因。

发布时间: 4/21/2025

查看原文

无监督机器学习混合方法结合线性规划于损失函数中：一种稳健优化技术

作者: Andrew Kiruluta, Andreas Lemos

arXiv:2408.09967v2 通知类型: 替换-交叉摘要：本文提出了一种新颖的混合方法，该方法将线性规划（LP）集成到无监督机器学习模型的损失函数中。通过利用优化技术和机器学习的优点，该方法提供了一个 robust 的框架来解决传统方法可能难以处理的复杂优化问题。所提出的方法将线性规划问题的约束条件和目标直接纳入损失函数中，指导学习过程遵循这些约束条件并优化期望的结果。此技术不仅保留了线性规划的可解释性，而且还受益于机器学习的灵活性和适应性，使其特别适合无监督或半监督学习场景。

发布时间: 4/21/2025

查看原文

自然语言提纲编写代码：LLM时代的知识密集型编程

作者: Kensen Shi, Deniz Alt{\i}nb\"uken, Saswat Anand, Mihai Christodorescu, Katja Gr\"unwedel, Alexa Koenings, Sai Naidu, Anurag Pathak, Marc Rasi, Fredde Ribeiro, Brandon Ruffin, Siddhant Sanyam, Maxim Tabachnyk, Sara Toth, Roy Tu, Tobias Welp, Pengcheng Yin, Manzil Zaheer, Satish Chandra, Charles Sutton

arXiv:2408.04820v4 宣告类型: replace-cross 摘要：我们提出使用自然语言大纲作为一种新型的模态和交互界面，以在整个软件开发过程中为开发者提供AI辅助。代码函数的自然语言大纲由多条简洁的叙述性语句组成，将代码分割并以文献式编程的风格总结其主要思想。关键之处在于，我们发现现代大型语言模型实际上可以生成准确且高质量的自然语言大纲。此外，自然语言大纲允诺代码与自然语言之间的双向同步，开发者可以更改代码或自然语言，而AI模型可以自动更新另一方。我们讨论了许多自然语言大纲的应用场景：它们可以加速代码和差异的理解与导航，简化代码维护，增强代码搜索，引导代码生成，等等。随后，我们提出了几种生成大纲的LLM提示技术，并将其进行比较，征求专业开发者的评价意见。最后，我们展示了将自然语言大纲应用于代码审查和恶意软件检测中的两个案例研究。

发布时间: 4/21/2025

查看原文

上下文学习的自旋玻璃模型

作者: Yuhao Li, Ruoran Bai, Haiping Huang

arXiv:2408.02288v3 宣告类型: replace-cross 摘要：大规模语言模型展现出令人惊讶的上下文内学习能力——能够使用一条提示生成对查询的预测，而无需额外训练，这与传统的监督学习截然不同。因此，提供一种机械解释并将这种经验现象与物理学联系起来是一个挑战，至今尚未解决。我们研究了一个简单但表达能力强的变压器，其带有线性注意机制，并将该结构映射到一个带有实值自旋的自旋玻璃模型，其中，耦合和场解释了数据中的内在无序。自旋玻璃模型解释了在预训练过程中权重参数彼此之间的互动方式，并进一步阐明了为什么仅仅通过提供一条提示就能预测一个未见过的功能，而无需进一步训练。我们的理论揭示了，对于单实例学习，增加任务多样性会导致上下文内学习的出现，这使得玻尔兹曼分布能够收敛到唯一的正确权重参数解。因此，预训练的变压器在新的提示设置中展示了预测能力。所提出的可解析模型因此为思考如何解释大规模语言模型许多令人 intrigue 但令人困惑的特性提供了有希望的途径。

发布时间: 4/21/2025

查看原文

MoFO：用于减轻大语言模型微调遗忘问题的动量过滤优化器

作者: Yupeng Chen, Senmiao Wang, Yushun Zhang, Zhihang Lin, Haozhe Zhang, Weijian Sun, Tian Ding, Ruoyu Sun

arXiv:2407.20999v3 公告类型: replace-cross 摘要：大规模语言模型（LLMs）在各种任务中展现了非凡的能力。通常，LLMs 首先在大型语料库上进行预训练，然后在特定任务的数据集上进行微调。然而，在微调过程中，LLMs 可能会忘记在预训练阶段获得的一些知识，导致整体能力下降。现有的减轻遗忘的方法通常依赖于访问预训练数据，而在许多现实场景中，这样的数据可能不可用，例如，仅提供微调检查点的开源LLMs。为了解决这一挑战，我们提出了一种新的微调算法，称为动量筛选优化器（MoFO）。MoFO 是贪婪分块坐标下降（BCD）方法的一种扩展：在每次迭代中，MoFO 只更新具有最大动量幅度的模型参数，而保持所有其他参数不变。MoFO 在微调性能上达到了默认微调算法的类似水平，同时有效地减轻了知识遗忘。我们通过严格的收敛分析和广泛的实验验证了 MoFO，证明了它能够在没有预训练数据的情况下有效地减轻遗忘。

发布时间: 4/21/2025

查看原文

LLMs中拒绝训练能否泛化到过去时态？

作者: Maksym Andriushchenko, Nicolas Flammarion

arXiv:2407.11969v4 宣告类型: replace-cross 摘要：拒绝训练广泛应用于防止LLM生成有害、不希望的或非法的输出。我们揭示了当前拒绝训练方法中一个有趣的泛化差距：简单地将过去的有害请求改写为过去时态（例如，“如何制作莫洛托夫鸡尾酒？”改为“人们是如何制作莫洛托夫鸡尾酒的？”）通常足以突破许多最先进的LLM。我们使用GPT-3.5 Turbo作为改写模型，系统评估了这种方法在Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o mini、GPT-4o、o1-mini、o1-preview和R2D2模型上的效果。例如，当使用GPT-4作为越狱检测者时，对JailbreakBench上的有害请求进行20次过去时态改写尝试后，针对GPT-4o的这种简单攻击的成功率从1%提高到了88%。有趣的是，我们还发现未来时态的改写效果较差，这表明拒绝护栏倾向于将过去的历史性问题视为较无害的问题。此外，我们在微调GPT-3.5 Turbo时的实验表明，当过去的示例明确包含在微调数据中时，防范过去的改写是可行的。总体来说，我们的发现突显了广泛使用的对齐技术——如监督 Fine-tuning (SFT)、强化学习人类反馈 (RLHF) 和对抗性训练——在对研究模型进行对齐时可能不够稳健，且并不总是按预期进行泛化。我们在 https://github.com/tml-epfl/llm-past-tense 提供了代码和越狱构件。

发布时间: 4/21/2025

查看原文

Towards Robust Alignment of Language Models：分布鲁棒化直接偏好优化

作者: Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jiawei Chen, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He

arXiv:2407.07880v2 宣告类型: replace-cross 摘要：本研究针对直接偏好优化(DPO)方法中用于调整大型语言模型(LLMs)与人类偏好的训练数据集中的噪声挑战。我们把噪声分类为点噪声，包括低质量的数据点，和对偏好排名产生影响的错误的数据对关联的成对噪声。利用分布鲁棒优化(DRO)，我们增强了DPO对这些噪声的抵抗力。我们的理论洞察表明，DPO本⾝内含DRO原则，赋予其对点噪声的鲁棒性，其中正则化系数$\beta$在降低噪声影响方面起着关键作用。在此框架的基础上，我们提出了分布鲁棒化DPO(Dr. DPO)，通过在最坏情况的成对情景下进行优化来增强成对鲁棒性。Dr. DPO中引入的新型超参数$\beta'$允许对数据对的可靠性进行细调控制，提供了在嘈杂的训练环境中平衡探索和利用的策略。实证评估表明，Dr. DPO在生成文本质量和在偏好数据集中响应准确性的提升方面显著改进，在噪声环境和无噪声环境中均展现出增强的性能。代码可在 https://github.com/junkangwu/Dr_DPO 获取。

发布时间: 4/21/2025

查看原文

语言表示可以成为推荐系统所需的内容：发现与潜力

作者: Leheng Sheng, An Zhang, Yi Zhang, Yuxin Chen, Xiang Wang, Tat-Seng Chua

arXiv:2407.05441v3 宣告类型: replace-cross 摘要：近期的研究实证表明，语言模型（LMs）不仅编码语义信息，还蕴含了丰富的世界知识，吸引了各领域的广泛关注。然而，在推荐领域，尚不确定LMs是否隐式地编码了用户偏好信息。与普遍认为由于语言建模和行为建模目标的巨大差异导致LMs和传统推荐器学习两个截然不同的表征空间的观点不同，本项工作重新审视了这一观点，并探索直接从语言表征空间中提取推荐表征空间的可能性。令人惊讶的是，我们的发现表明，当高级LM表征线性映射到项目表征时，可以取得卓越的推荐性能。这一结果暗示，高级语言表征空间与一个有效的项目表征空间之间可能存在同态性，这表明协同信号可能被LMs隐式地编码。受这些发现的启发，我们探讨了仅基于语言表征设计高级协同过滤（CF）模型的可能性，而不依赖于ID嵌入。具体来说，我们整合了几种关键组件，以构建一个简单而有效的模型，输入项标题。实验结果表明，这种简单模型可以超越现有的领先ID基于的CF模型，这为利用语言表征进行更好推荐提供了思路。此外，我们系统地分析了这种简单模型，并找到了几种关键特征，这些特征有助于利用高级语言表征：良好的项目表征初始化、零样本推荐能力以及关注用户意图。我们的发现突出了语言建模与行为建模之间的联系，这可以启迪自然语言处理和推荐系统社区。

发布时间: 4/21/2025

查看原文