arXiv:2502.14197v1 Announce Type: 跨域
摘要:图神经网络已经 emerged 作为一种强大的工具来学习空间-时间交互。然而,传统的做法往往依赖于预定义的图形,这可能会模糊所建模的精确关系。此外,现有的方法通常基于固定的空间位置定义节点,这种方法不适用于像海洋环境这样的动态环境。我们的方法引入了一种创新的图表示法,其中时间戳被建模为不同的节点,通过图边明确地捕捉时间依赖性。该设置扩展到构建一个多船只图,能够有效捕捉空间交互同时保持图的稀疏性。使用图卷积网络层来捕捉时空模式,并通过预测层进行特征预测,通过变分图自编码器进行重构,从而实现稳健的异常检测。
arXiv:2502.14191v1 交叉公告类型
摘要:奖励模型在通过评估输出质量来训练视觉-语言模型(VLMs)时起着至关重要的作用,从而能够与人类偏好对齐。尽管它们的重要性不言而喻,但研究社区缺乏全面的多模态奖励模型评估基准来评估VLMs中的多模态奖励模型。为了解决这一缺口,我们引入了Multimodal RewardBench,这是一个由专家注释的基准,涵盖了六个领域:一般正确性、偏好、知识、推理、安全和视觉问答。我们的数据集包括5,211个注释的(prompt, 选择的响应, 拒绝的响应)三元组,这些三元组来自多种VLMs。在评估一系列VLM判官时,我们发现即使是表现最好的模型Gemini 1.5 Pro和Claude 3.5 Sonnet也只能达到72%的整体准确性。值得注意的是,大多数模型在推理和安全领域表现不佳。这些发现表明,Multimodal RewardBench为跨多个领域推进奖励模型的发展提供了一个具有挑战性的测试平台。我们已在https://github.com/facebookresearch/multimodal_rewardbench发布了该基准。
arXiv:2502.14183v1 声称类型:交叉
摘要:管理1型糖尿病(T1D)要求个体不断警惕,努力调节血糖水平,以避免高血糖或低血糖的危险。尽管出现了先进的技术,如自动胰岛素输送(AID)系统,实现最佳血糖控制仍是一项艰巨的任务。AID系统整合了持续皮下胰岛素输注(CSII)和持续葡萄糖监测(CGM)的数据,提供了减少血糖波动和提高血糖控制时间的希望。然而,这些系统往往无法预防高血糖或低血糖,部分原因是预测算法缺乏精确性,无法避免异常的血糖事件。这一差距表明需要积极的行为调整。我们通过使用改进错误率的血糖水平指示模型GLIMMER(Glucose Level Indicator Model with Modified Error Rate)来应对这一需求,GLIMMER是一种用于预测血糖水平的机器学习方法。GLIMMER将血糖值划分为正常和异常范围,并设计了一个新的自定义损失函数,以在患者安全至关重要的异常血糖事件中优先保证准确性。为了评估GLIMMER在T1D管理中的潜力,我们既使用了公开可用的数据集,也收集了25名T1D患者的最新数据。在预测下一小时的血糖值时,GLIMMER实现了均方根误差(RMSE)为23.97(±3.77)和平均绝对误差(MAE)为15.83(±2.09)毫克/分升。这些结果反映了RMSE相比最优报告的误差率提高了23%,MAE提高了31%。
arXiv:2502.14176v1 类型: 交叉
摘要: 在分析了 Bonanno (《人工智能》, 2025) 的基础上,我们引入了一种包含三个模态运算符的简单模态逻辑:一模态信念运算符、二模态条件运算符和一模态全局运算符。对于每条 AGM 信念修订公理,我们提供了一条相应的模态公理。对应关系如下:每条 AGM 信念修订公理都可以通过分析 Bonanno (《人工智能》, 2025) 中考虑的 Kripke-Lewis 框架的某种性质来表征,并且该性质反过来表征我们提出的模态公理。
arXiv:2502.14174v1 宣告类型: 交叉
摘要: 我们通过流形上的梯度重排随机梯度下降解决了正则化加权低秩逼近问题。为了保证我们的随机梯度下降的收敛性,我们建立了一个针对受限梯度重排随机梯度下降算法在流形上的收敛定理。在Netflix Prize训练数据集的样本数据上,我们的算法优于现有在欧几里得空间上的随机梯度下降。我们还比较了该流形上的加速线搜索与现有欧几里得空间上的加速线搜索。
arXiv:2502.14160v1 逆向博弈论类型: 交叉
摘要: 在本文中,我们研究了逆向博弈论(即逆向多智能体学习),其目标是在预期行为(即采样行为)为博弈均衡的情况下找到博弈收益函数的参数。我们将这些问题表述为生成式对抗性(即最小-最大)优化问题,并为此开发了多项式时间算法来解决这些问题,前者依赖于精确的一阶黑盒,后者依赖于随机的一阶黑盒。我们将该方法扩展为在多项式时间和样本数量下解决逆向多智能体模拟学习问题。在这些问题中,我们寻求一个模拟器,即找到一组参数和相应的均衡,使其在期望下复制给定的观察结果。我们发现,基于时间序列数据,我们的方法在预测西班牙电力市场价格方面优于广泛使用的ARIMA方法。
arXiv:2502.14149v1 类型:跨境
摘要:视觉语言模型(VLMs)在视觉问答(VQA)中的应用为手术室内决策增强、促进直观互动和显著提升外科教育提供了独特机会。然而,由于数据集有限以及全微调预训练权重时过拟合并导致灾难性遗忘的风险,开发适用于手术VQA的VLM具有挑战性。尽管参数效率的方法如LoRA(低秩适应)和MoRA(矩阵低秩适应)解决了适应性挑战,但它们均一致的参数分布忽视了深度网络中的特征层次结构,即早期层学习一般特征所需参数多于后期层。本研究引入了扩展的PitVQA(PitVQA++)以及带有开放性PitVQA数据集和向量矩阵低秩适应(Vector-MoLoRA)的创新VLM微调方法,将GPT-2适应于垂体手术。开放性PitVQA包含来自25个手术视频约101,803帧,以及超过745,972个问题-答案句子对,涵盖了手术阶段和步骤识别、上下文理解、工具检测、定位以及交互识别等关键要素。Vector-MoLoRA结合了LoRA和MoRA的原则,开发了一种矩阵低秩适应策略,利用向量排名分配更多参数给早期层,逐渐减少后期层的参数。该方法在开放性PitVQA和EndoVis18-VQA数据集上的验证有效缓解了灾难性遗忘,显著增强了与最新基线相比的性能。此外,我们的风险覆盖分析突显了其处理不确定预测时的增强可靠性和可信度。我们的源代码和数据集可在https://github.com/HRL-Mike/PitVQA-Plus 获取。
arXiv:2502.14143v1 宣布类型:交叉
摘要:先进AI代理的快速发展以及这些代理实例即将的部署将催生前所未有的复杂多代理系统。这些系统提出了新的且尚未充分探索的风险。在本报告中,我们通过识别基于代理激励的三种关键故障模式(误协调、冲突和共谋)以及可能支撑这些模式的七个关键风险因素(信息不对称、网络效应、选择压力、不稳定的动态、承诺问题、新兴代理和多代理安全),提供了一种结构化的分类方法。我们强调了每种风险的几个重要实例,以及有望减轻这些风险的方向。通过将我们的分析扎根于一系列现实世界示例和实验证据,我们阐述了多代理系统所带来独特挑战及其对先进AI的安全性、治理和伦理的影响。
arXiv:2502.14132v1 Announce Type: cross
摘要:对抗社交媒体上虚假信息扩散的两种常见策略是(i)专业组织的核实检查和(ii)平台用户组织的社区监督。Twitter/X和更近的Meta的政策变化信号着从与事实检查组织的合作转向对社区注释的更大依赖。然而,事实检查与有帮助的社区注释之间的依赖关系的程度和性质仍然不清楚。为了回答这些问题,我们使用语言模型对Twitter/X社区注释进行标注,添加属性如主题、引用来源以及是否反驳与更广泛的虚假信息叙述相关的声明。我们的分析揭示了社区注释引用的事实检查来源是之前报告的五倍。对于与更广泛叙述相关的帖子的注释,事实检查尤为重要,这些注释引用事实检查来源的可能性是引用其他来源的两倍。总之,我们的结果表明,成功的社区监督严重依赖于专业事实检查。
arXiv:2502.14131v1 宣传类型: cross
摘要: 我们研究了估计动态离散选择(DDC)模型的问题,也被称为机器学习中的离线最大熵正则化逆强化学习(offline MaxEnt-IRL)。目标是从离线行为数据中恢复支配代理行为的奖励或$Q^*$函数。在本文中,我们提出了一种全局收敛的基于梯度的方法,用于解决这些问题,而无需将奖励线性参数化的限制假设。我们方法的创新之处在于引入了基于经验风险最小化(ERM)的IRL/DDC框架,该框架避免了贝尔曼方程中显式状态转移概率的估计需求。此外,该方法与非参数估计技术(如神经网络)兼容。因此,所提出的方法有可能扩展到高维、无限状态空间。我们方法的基本理论洞察是贝尔曼残差满足Polyak-Lojasiewicz(PL)条件——虽然这一性质比强凸性要弱,但它足以确保快速全局收敛的保证。通过一系列合成实验,我们展示了我们的方法在基准方法和最先进的替代方法中的一贯优越性。