arXiv:2406.07222v2 宣告类型: replace-cross
摘要:自动形式化,即将不受约束的自然语言自动翻译为形式语言,由于其在定理证明、形式验证和LLM输出检查方面的潜在应用而引起了广泛关注。在本文中,我们分析了当前的自动形式化方法以及用于评估这些方法的过程,重点关注Lean 4定理证明语言。我们展示了在现有方法的基础上,使用自一致性技术扩展类型检查过滤器可以显著提高性能,在ProofNet上的绝对准确率提高了18.4%。为了支持可重复性和进一步的研究,我们发布了我们的代码,其中包括对Lean公式的新符号等价性。我们还发布了新的基准测试:一个新的研究级数学数据集RLM25,修正后的ProofNet,以及包含正确和错误自动形式化配对的ProofNetVerif,用于评估指标。
arXiv:2405.20880v2 宣告类型:替换-交叉
摘要:在拍卖等重复游戏中,玩家通常会使用学习算法来选择他们的行动。这种自主学习代理在在线平台上的使用已经很普遍。本文探讨了将货币转移政策纳入玩家代理算法的影响,通过代理之间的动态影响行为以有利于玩家。我们关注的是理解玩家何时有动力使用货币转移、这种支付如何影响学习动态以及对福利及其在玩家之间的分配有何影响。我们提出了一种简单且通用的博弈论模型来捕捉此类场景。我们的通用博弈结果表明,在非常广泛的博弈类型中,自私的玩家从允许他们的学习代理在游戏动态中向其他学习者支付费用中受益,并且在许多情况下,这种行为会提高所有玩家的福利。我们的第一价格拍卖和第二价格拍卖结果表明,在“支付政策博弈”的均衡中,代理的动态达到强烈勾结的结果,且拍卖商收益较低。这些结果提出了新的问题,并突显了在其中自动化学习代理可以通过与数字生态系统中的同伴互动以及超越机制界限的互动而受益的系统中机制设计所面临的挑战。
arXiv:2405.19458v4 宣告类型: replace-cross
摘要:扩散模型在生成与训练数据高度相似的图像方面表现出色,但也容易进行数据记忆化,这引发了隐私、伦理和法律方面的关切,特别是在医学成像等敏感领域。我们假设这种记忆化源自深度模型的过度参数化,并提出在微调过程中正则化模型容量可以缓解这一问题。首先,我们通过实验证明,通过参数效率微调(PEFT)调节模型容量在一定程度上减轻了记忆化现象,但是还需要确定要微调的具体参数子集以获得高质量的生成。为了识别这些子集,我们提出了一种双层优化框架MemControl,在微调过程中使用记忆化和生成质量指标作为奖励来自动化参数选择。通过MemControl发现的参数子集在生成质量和记忆化之间实现了更好的权衡。对于医学图像生成任务,我们的方法通过微调不到0.019%的模型参数就能超越现有最先进的记忆化缓解策略。此外,我们证明了通过MemControl发现的参数子集可以应用到非医学领域。我们的框架可以扩展到大规模数据集,对奖励函数无依赖,并且可以与现有的方法结合以进一步缓解记忆化问题。据我们所知,这是首次通过实验证明医学图像中的记忆化现象,并提出一种针对性但普遍适用的缓解策略。代码可在https://github.com/Raman1121/Diffusion_Memorization_HPO上获得。
arXiv:2405.18802v2 宣告类型: replace-cross
摘要:联邦学习(FL)是一种有希望的隐私保护机器学习范式,它允许数据所有者在保持数据本地化的同时协作训练模型。尽管FL具有一些潜力,但它面临着来自客户端和服务器的信任问题,特别是在面对好奇或恶意的攻击者时。在本文中,我们提出了一种名为\underline{F}ederated \underline{L}earning with Low-Dimensional \underline{U}pdate \underline{R}epresentation and \underline{P}roximity-Based defense (FLURP)的新型框架,旨在解决分布式学习环境中隐私保护和抵御拜占庭攻击的问题。FLURP采用$\mathsf{LinfSample}$方法,使客户端能够计算滑动窗口中更新的$l_{\infty}$范数,从而生成低维更新表示(LUR)。通过计算LUR之间的共享距离矩阵,而不是直接计算更新的共享距离矩阵,FLURP大幅减少了安全多方计算(SMPC)的开销三个数量级,同时有效地区分了良性和受污染的更新。此外,FLURP集成了利用优化的SMPC协议的隐私保护接近性防御机制,以最小化通信轮数。我们的实验显示,FLURP在低通信和运行时开销的情况下有效对抗拜占庭攻击者。FLURP提供了一个可扩展的框架,用于分布式环境中的安全可靠的联邦学习,促进了其在需要稳健数据管理和安全保障场景中的应用。
arXiv:2405.09806v4 宣告类型: 替换交叉
摘要:深度学习算法需要大量的数据才能实现稳健的表现。然而,在医疗领域,由于患者隐私问题,数据的可用性往往受到限制。合成数据可能解决这些挑战。最近,图像生成模型在医疗应用中越来越受欢迎,但它们往往专用于单一的医学专科和成像模态,从而限制了它们的广泛应用。为了解决这个问题,我们引入了MediSyn:一种文本引导的潜在扩散模型,能够从6个医学专科和10种图像类型生成合成图像。合成图像由专家临床医生验证,以确保它们与相应的文本提示对齐。此外,合成图像与真实图像的直接对比确认了我们的模型能够生成新颖的图像,并且最关键的是可能保护患者隐私。最后,基于合成数据和真实数据混合训练的分类器在性能上与基于两倍真实数据训练的分类器相当。我们的 findings 突显了通用图像生成模型在加速医学中的算法研究和开发方面的巨大潜力。
arXiv:2404.18922v3 宣布类型: replace-cross
摘要:在经典的从人类反馈强化学习(RLHF)框架中,使用了紧密策略优化(PPO)来学习稀疏的、基于句子的奖励——这是传统深度强化学习中一个极具挑战性的场景。尽管PPO在大型语言模型的对齐方面取得了巨大的成功,其开源实现仍然远远不够优化。为了解决这些问题,我们提出了一种框架,将RLHF问题建模为马尔可夫决策过程(MDP),从而能够捕捉到粒度更细的、基于令牌的信息。在这一框架下,我们引入了一种算法,名为强化令牌优化(RTO),它从偏好数据中学习基于令牌的奖励函数,并基于此学习到的令牌级别的奖励信号进行策略优化。理论上,RTO被证明有能力高效地找到近似最优策略。在其实现方面,RTO创新地将直接偏好优化(DPO)和PPO结合起来。DPO最初是从稀疏句子奖励推导而来的,意外地为我们提供了基于令牌的响应质量表征,这一表征能够无缝地融入我们后续的PPO训练阶段。广泛的实验表明,RTO在AlpacaEval 2基准测试中比PPO及其他直接偏好学习算法性能更好,在Arena-Hard中则超出PPO 4.1分。我们的代码和模型可以在 \href{https://github.com/zkshan2002/RTO}{https://github.com/zkshan2002/RTO} 获取。
arXiv:2404.07664v2 宣告类型: replace-cross
摘要:在任何场景中检测和定位未知或分布外(OOD)对象在视觉识别中是一个具有挑战性的任务,特别是在涉及自动驾驶系统(如自动驾驶车辆或列车)的安全关键情况下。监督异常分割或开放世界目标检测模型依赖于对每个领域进行全面注释数据集的训练,但在区分背景和OOD对象方面仍然存在困难。在这项工作中,我们提出了一种插件式框架 - 基于原型的无标签分布外检测(PROWL)。这是一种基于推理的方法,不需要对领域数据集进行训练,并依赖于从预训练的自监督模型中提取相关特征。可以通过指定来自该领域的已知类列表,PROWL 可以以零样本的方式轻易适应检测任何操作设计领域(ODD)中的领域内对象。作为第一个无监督的零样本方法,PROWL 在道路上事故和道路障碍物基准测试提供的 RoadAnomaly 和 RoadObstacle 数据集(SegmentMeIfYouCan, SMIYC 和 Fishyscapes)中达到了最新性能,并且与在辅助OOD数据下没有进行监督训练的现有监督方法相比具有可比拟的性能。我们还展示了它在其他领域(如铁路和海上运输)中的泛化能力。
arXiv:2404.07560v2 通知类型: 替换-交叉
摘要: 尽管在开发和部署社会机器人方面取得了许多近期成就,但仍有很多未被充分探索的环境和应用领域,需要通过终用户系统的系统评估来解决。虽然已经在老年护理领域使用了多种机器人平台,但对于是否有多模态对话能力的社会互动机器人在现实生活设施中将是有用且被接受的问题仍未得到回答。本文试图通过在巴黎的一家全天照护老年护理设施中使用拥有社会和对话交互能力的大尺寸人形机器人进行两轮实验,部分回答这个问题。在H2020 SPRING项目期间开发的软件架构,以及实验协议,使我们能够对超过60名终用户进行接受度(AES)和易用性(SUS)的评估。总体而言,用户对这项技术持开放态度,尤其是在机器人感知和动作技能能够应对环境杂乱并灵活处理各种不同交互时。
arXiv:2404.01752v3 问题类型: 替换-交叉
摘要: 在本文中,我们考虑了在连续空间中的多机器人路径规划(MRPP)问题。该问题的难点来源于由问题的组合性质和连续状态空间引起的极其庞大的搜索空间。我们提出了一种两层方法,其中低层是一个基于采样的规划器Safe Interval RRT*(SI-RRT*),它能够为各个机器人找到一条无碰撞轨迹。高层可以使用任何能够解决机器人之间冲突的方法,我们采用了两种代表性方法,分别是优先级规划(SI-CPP)和冲突基于搜索(SI-CCBS)。实验结果表明,SI-RRT*可以使用很少的数量的样本快速找到高质量的解决方案。SI-CPP在可扩展性方面有所改进,而SI-CCBS相比现有最先进的连续空间规划器能够生成更高质量的解决方案。
arXiv:2403.06828v3 通知类型: 替换-交叉
摘要:在杂乱且未知环境中导航非全驱动机器人需要精确的感知和精确的运动控制以实现实时防碰撞。本文提出NeuPAN:一种实时的、高度准确的、无需地图、易于部署且环境无差异的机器人运动计划器。通过利用紧密耦合的感知到控制框架,NeuPAN相较于现有方法有两个关键创新:1) 它直接将原始点云数据映射到一个潜距离特征空间,用于碰撞自由运动生成,避免了感知到控制管道中的误差传递;2) 从端到端模型基础学习的角度来看,它是可解析的。NeuPAN的核心在于使用即插即用(PnP)邻近交替最小化网络(PAN)解决具有众多点级约束的端到端数学模型,其中包含神经元的循环。这使得NeuPAN能够生成实时且物理可解释的运动。它无缝地整合了数据和知识引擎,其网络参数可以通过反向传播进行微调。我们在地面移动机器人、轮腿机器人以及自动驾驶汽车上,在广泛的模拟和现实环境中评估了NeuPAN。结果显示,NeuPAN在准确度、效率、鲁棒性和泛化能力方面优于现有基准方法,适用于各种环境,包括杂乱的沙箱、办公室、走廊和停车场。我们展示了NeuPAN在未知且不结构化的环境中,能够处理任意形状的对象,将不可通行的路径转换为可通行路径。