arXiv:2502.06516v1 交叉公告类型:cross
摘要:少数样本是位于数据流形低密度区域的未充分代表的实例,在许多生成AI应用中都很有价值,如数据增强、创意内容生成等。不幸的是,现有的基于扩散的少数样本生成器通常依赖于专用的、计算成本高昂的指导,专门针对少数样本的生成。为了解决这个问题,我们提出了一个简单而强大的无需指导的方法Boost-and-Skip,用于使用扩散模型生成少数样本。我们框架的关键优势仅需对标准生成过程进行两项最小更改:(i) 方差提升的初始化和(ii) 时间步骤跳过。我们强调,这些看似简单的修改得到了坚实的理论和实证证据支持,从而有效地促进了未充分代表的少数样本特征的出现。我们的全面实验表明,Boost-and-Skip大大提高了生成少数样本的能力,甚至在计算量显著减少的情况下,也能与基于指导的最先进的方法相媲美。
arXiv:2502.06494v1 支持类型: 横向研究
摘要: 尽管大型语言模型(LLMs)在指导性对话如指令遵循和问答任务中表现出色,但在LLM引导的对话中,即LLM主导对话进程并引导对话目标的情况下的潜在可能性仍被广泛忽视。在本研究中,我们首先将LLM引导的对话划分为三个基本组成部分:(i) 目标导航;(ii) 上下文管理;(iii) 同理心参与,提出GuideLLM作为一种安装方案。随后,我们实现了一个面试环境,用于评估LLM引导的对话。具体来说,该环境中涉及多个话题,以进行全面的面试评估,产生约1.4千个对话回合、184千个标记,以及每个聊天机器人的面试过程中提及的超过200个事件。我们从面试质量和自传生成质量的角度将GuideLLM与6种最先进的LLM(如GPT-4o和Llama-3-70b-Instruct)进行比较。对于自动评估,我们从多个自传中提取用户代理,并采用LLM作为评委来评分LLM的行为。我们还通过45名人类参与者与GuideLLM和基线系统进行对话,进行了人工参与实验。我们收集了关于对话和自传质量的人类反馈、偏好和评级。实验结果表明,GuideLLM在自动评估中显著优于基线LLM,在人类评分中也表现出一致的领先性能。
arXiv:2502.06491v1 类型: cross
摘要: 基于模型的离线强化学习(MORL)旨在通过利用从现有数据集派生的动力学模型来学习策略。通过保守地量化动力学模型,现有的大多数MORL工作生成的轨迹近似于真实数据分布,以便利用当前信息(例如,在时间步t的状态和动作)来促进策略学习。然而,这些工作忽略了历史信息对环境动力学的影响,导致生成的轨迹不可靠,可能与真实数据分布不一致。本文提出了一种新的MORL算法——可靠性保证的变换器(RT),该算法通过计算生成轨迹的累计可靠性(即,使用加权变分距离远离真实数据)来消除不可靠的轨迹。此外,通过采样具有高奖励的候选动作,RT可以有效地从现有的离线数据中生成高回报的轨迹。我们在政策学习中理论上证明了RT的性能保证,并在多个基准任务上与最先进的基于模型的方法进行了实验证明其有效性。
arXiv:2502.06490v1 交叉公告类型
摘要:随着时间语言模型(LLMs)时代的到来,语音生成技术的迅速发展已经确立了离散语音令牌作为语音表示的基本范式。这些令牌因其离散、紧凑和简洁的特性而具有优势,不仅有利于高效的传输和存储,而且天然与语言建模框架相兼容,使得语音可以无缝集成到以文本为中心的LLM架构中。当前的研究将离散语音令牌分为两类主要类别:声学令牌和语义令牌,每类都发展成为具有独特设计哲学和方法论方法的研究领域。本文系统地综合了现有的分类和离散语音分词的最新创新,对每种范式的优缺点进行了批判性的评估,并进行了跨令牌类型的系统实验比较。此外,我们识别出了该领域中存在的持续挑战,并提出了潜在的研究方向,旨在提供可操作的见解以启发今后离散语音令牌的发展和应用。
arXiv:2502.06485v1 公告类型:交叉
摘要:结晶材料通常表现出高度对称性。然而,大多数生成模型并未考虑到对称性,而是对每个原子的相对位置及元素不做任何约束地进行建模。我们提出了一种生成模型, Wyckoff Diffusion(WyckoffDiff),它可以生成基于对称性的晶体描述。这得益于考虑了用于表示晶格结构的编码所有对称性的表示方法,并设计了一种新颖的神经网络架构,使其能够在离散生成模型框架中利用该表示方法。除了通过构建方式遵守对称性外,我们模型的离散性质使生成过程变得快速。此外,我们还提出了一种新的度量标准,Fréchet Wrenformer Distance,它可以捕捉所生成材料的对称性特征,并将WyckoffDiff与最近提出的用于晶体生成的生成模型进行了基准测试。
arXiv:2502.06472v1 Announce Type: cross
摘要:维护全面和最新的知识图谱(KGs)对于现代AI系统至关重要,但手工整理难以跟上科学文献的快速增长。本文介绍了KARMA,这是一种新型框架,利用多代理大规模语言模型(LLMs)通过结构化分析非结构化文本来自动进行KG增强。我们的方法采用了九个协作代理,涵盖了实体发现、关系提取、模式对齐和冲突解决等环节,这些代理会迭代解析文档、验证提取的知识,并将其整合到现有的图结构中,同时遵循特定领域的模式。在来自三个不同领域的1200篇PubMed文章上的实验显示,KARMA在知识图谱增强方面的有效性,识别出了多达38,230个新实体,成功率达到了83.1%,并通过多层评估减少了18.6%的冲突边。
arXiv:2502.06470v1 交叉公告类型:理论
摘要:理论思维(ToM),即归因他人心理状态并预测其行为的能力,是社会智能的基础。在本文中,我们回顾了对大型语言模型(LLMs)的行为和表征ToM的研究,识别了高级LLM ToM能力带来的重要安全风险,并建议了几种有效评估和缓解这些风险的研究方向。
arXiv:2502.06453v1 类别: cross
摘要: 大型语言模型在复杂的数学推理任务中表现出了令人印象深刻的能力,这引发了关于性能是否由真正的推理能力还是记忆能力实现的讨论。为了解决这一问题,之前的工作通过简单变形构建了数学基准,即修改问题但仍然保留了解决方案的基本推理模式。然而,没有任何工作探索了根本性变形,这种变形从根本上改变了问题的性质,使得原来的解决方案步骤不再适用。为了解这个差距,我们通过简单变形构建了 MATH-P-Simple,并通过根本性变形构建了 MATH-P-Hard。每个基准都包含源自 MATH 数据集 (Hendrycksmath 等,2021) 的最难(第 5 级)问题的 279 个变形数学问题。我们观察到在 MATH-P-Hard 上各种模型的表现显著下降,包括 o1-mini(-16.49%)和 gemini-2.0-flash-thinking(-12.9%)。我们还提到了一种新的记忆形式的问题,即模型不评估其解决方案技能在修改后情境中的适用性便盲目应用。这种问题在使用原始问题进行上下文学习时被放大了。我们呼吁研究努力来解决这一挑战,这对于开发更稳健和可靠的推理模型至关重要。
arXiv:2502.06440v1 宣告类型: cross
摘要: 多智能体路径规划(MAPF)问题旨在在一个已知的、可能充满障碍物的环境中,确定多个智能体的最短且无碰撞路径。这是大规模物流和交通部署的中心挑战。分散式基于学习的方法显示出解决MAPF问题的巨大潜力,提供了更具反应性和可扩展性的解决方案。然而,现有的基于学习的MAPF方法通常依赖于智能体基于有限的视野(FOV)做出决策,导致在复杂场景中出现短视的策略和低效的合作。在这种情况下,一个关键挑战是在有限的观察和通信基础上达成智能体之间潜在运动的共识。为了解决这一挑战,我们引入了一个新的框架,该框架应用层析理论到分散式深度强化学习中,使智能体能够通过局部共识学习彼此之间的几何交叉依赖性,并利用这些依赖性进行紧密合作决策。特别是,层析理论提供了一种通过局部观察实现全局共识的数学证明条件。受此启发,我们结合了一个神经网络,根据层析理论在潜在空间中近似建模共识,并通过自我监督学习对其进行训练。在任务过程中,在除了以前工作中作为正常特征的MAPF特征外,每个智能体还分布地推理一个学习到的共识特征,从而在路径规划和防碰撞方面实现高效的合作。因此,我们提出的方法在相对较大的复杂场景中明显优于现有的基于学习的MAPF规划器,在各种仿真和真实世界的机器人实验中展示了其优于基线的优势。
arXiv:2502.06439v1 类型: cross
摘要. 背景。随着软件系统越来越多地嵌入社会基础设施中,软件专业人士确保符合各种非功能性要求的责任也在增加。这些要求包括安全、安全、隐私,以及越来越重要的非歧视。
动机。在价格算法中实现公平性,能够为基本服务提供平等的访问渠道,而不基于受保护属性进行歧视。
方法。我们复制了一个先前的研究,该研究使用黑盒测试对意大利汽车保险公司使用的在线系统中可访问的价格算法进行了审核。与前一项研究相比,我们扩大了测试的数量和分析的种族人口统计变量的数量。
结果。我们的研究证实并扩展了先前的发现,突显了歧视问题在时间上的存续性:种族人口统计变量至今仍然对定价产生显著影响,出生地仍然是对抗不在意大利城市出生的个体的主要歧视因素。我们还发现,驾驶者档案可以决定用户可以获得的报价数量,从而剥夺了所有人平等的机会。
结论。该研究强调了在影响人们日常生活软件系统中进行非歧视测试的重要性。随着时间的推移进行算法审核能够评估这些算法的发展变化。此外,它还展示了实证软件工程在使软件系统更具问责性方面所起的作用。