arXiv 论文列表

作者: Qiming Wu, Zichen Chen, Will Corcoran, Misha Sra, Ambuj K. Singh

arXiv:2406.16176v2 通告类型: 重置摘要：大型语言模型（LLMs）在自然语言处理（NLP）中取得了显著的成功，展示了处理和理解文本数据的强大能力。然而，最近的研究发现LLMs在操作、编程和处理结构化数据，尤其是图形数据方面的能力存在局限性。我们引入了GraphEval36K，这是第一个全面的图形数据集，包含40个图形编码问题和36,900个测试案例，用于评估LLMs在图形问题解决方面的能力。我们的数据集分为八个主要类别和四个子类别，以确保在不同类型的图形上进行全面评估。我们基准测试了十种LLMs，发现私有模型优于开源模型，尽管差距在缩小。我们还分析了LLMs在有向图与无向图、不同类型的图概念以及网络模型方面的性能。此外，为了提高我们评估框架的可用性，我们提出了结构符号分解（SSD），这是一种基于指令的方法，旨在增强LLMs在复杂图形任务上的性能。结果显示，SSD分别将GPT-4、GPT-4o、Gemini-Pro和Claude-3-Sonnet的平均通过率提高了8.38%、6.78%、29.28%和25.28%。

发布时间: 2/18/2025

查看原文

安全的输入但不安全的输出：大型视觉语言模型跨模态安全对齐基准测试

作者: Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang

arXiv:2406.15279v2 安全类型：替换摘要：随着通用人工智能（AGI）越来越多地融入人类生活的各个方面，确保这些系统的安全性和道德一致性至关重要。以往的研究主要集中在单一模态威胁上，但在跨模态交互的集成和复杂性增加的情况下，这种做法可能不够充分。我们提出了一种新的安全对齐挑战，称为安全输入但不安全输出（SIUO），以评估跨模态安全对齐。具体来说，它考虑了单个模态独立安全的情况下，但在结合使用时可能会导致不安全或不道德的输出的情况。为了实证研究这个问题，我们开发了SIUO，这是一个跨模态基准，包含了9个关键的安全领域，如自残、非法活动和隐私侵犯。我们的研究结果揭示了闭源和开源LVLMs（如GPT-4V和LLaVA）中的重大安全漏洞，强调了当前模型在可靠地处理和响应复杂的真实世界场景方面的不足。

发布时间: 2/18/2025

查看原文

促进言语数据集在心理健康和神经障碍研究中的负责任开发

作者: Eleonora Mancini, Ana Tanevska, Andrea Galassi, Alessio Galatolo, Federico Ruggeri, Paolo Torroni

arXiv:2406.04116v2 通知类型: 更新摘要：当前在机器学习和人工智能领域的研究主要集中在模型构建和性能评估上，而对于数据收集的关注较少。然而，近期的研究表明，数据中的限制和偏差可能对可信度和可靠性产生负面影响。这些方面在心理健康和神经系统疾病等敏感领域尤为关键，因为语音数据被用于开发针对患者和医疗保健提供者的AI应用。在本文中，我们概述了可用于这一领域的可用语音数据集，以突出潜在的陷阱和改进的机会，并促进公平性和多样性。我们提供了一份全面的清单，列出了为心理健康和神经系统疾病构建语音数据集所需的关键要素，并将其提炼成一个侧重于伦理关切的可操作检查表，以促进更具责任感的研究。

发布时间: 2/18/2025

查看原文

加速供应链RL中策略模拟的速度

作者: Vivek Farias, Joren Gijsbrechts, Aryan Khojandi, Tianyi Peng, Andrew Zheng

arXiv:2406.01939v2 宣布类型: 替换摘要：在某些状态依赖策略下模拟动态系统的一条轨迹是策略优化(PO)算法的核心瓶颈。在单个模拟中必须执行的许多固有的串行策略评估构成了这一瓶颈的主要部分。在将PO应用于供应链优化(SCO)问题时，模拟与一个月的供应链相对应的单一样本路径可能需要几个小时。我们提出了一种加速策略模拟的迭代算法，称为皮卡德迭代。该方案仔细地将策略评估任务分配给独立的过程。在每次迭代中，任何给定的过程只在其分配的任务上评估策略，而对于其他任务则假设一种特定的“缓存”评估；迭代结束时更新缓存。在GPU上实施该方案，允许对单条轨迹上的策略进行批量评估。我们证明，许多SCO问题的结构允许在与时间范围无关的小数量的迭代中收敛。即使使用单个GPU，我们还在大规模SCO问题上实现了400倍的实际加速，并且还在其他RL环境中展示了其实用的有效性。

发布时间: 2/18/2025

查看原文

无限参数空间的功利主义算法配置

作者: Devon Graham, Kevin Leyton-Brown

arXiv:2405.18246v3 宣告类型: 替换摘要: 功利性算法配置是一种通用技术，用于自动在给定算法的参数空间中搜索，以优化其性能，通过给定的效用函数在给定输入集上的表现。最近引入的功利性配置程序在返回的参数化方面提供了关于最优性的保证，并在理论上能够适应底层问题的难度。然而，这些方法的应用受到严重限制，因为它们仅搜索有限且相对较小的参数集。它们无法有效搜索具有连续或不可数参数的算法的配置空间。本文我们提出了一种新的方法，称之为 COUP（连续的乐观功利性拖延）。COUP 设计为高效地搜索无限参数空间，以快速找到良好的配置。此外，当应用于有限参数空间时，COUP 维持了以前功利性配置程序的理论优势，但在理论上和实验上都显著更快。

发布时间: 2/18/2025

查看原文

大规模语言模型在数学建模中的应用：向着自然语言与数学语言之间鸿沟的 bridging 努力

作者: Xuhan Huang, Qingning Shen, Yan Hu, Anningzhe Gao, Benyou Wang

arXiv:2405.13144v3 宣告类型: 替换摘要：大规模语言模型（LLMs）在各种自然语言处理任务中表现出色，但在数学推理方面的能力仍然是一个重要挑战。弥合自然语言和数学语言之间的差距需要先进的推理能力，接近人工通用智能（AGI）的水平。然而，评价仍然是一个挑战，因为完美地反映现实是固有的难以实现的，传统的评估方法如手工或直接比较数学声明（Ramamonjison等人，2023）对于评估真实的建模能力是不足的。我们提出了一种过程导向的框架来评估LLMs构建数学模型的能力，使用求解器将输出与真实情况对比。引入了Mamo基准，包含1209个问题，涵盖常微分方程、线性规划和混合整数线性规划，使自动评估建模准确性成为可能。结果显示，现有的LLMs在复杂的数学建模任务中面临挑战，较大的模型表现出更好的性能，而开源模型在简单情况下仍然具有竞争力，但在更具挑战性的问题上仍逊于专有模型。

发布时间: 2/18/2025

查看原文

ShaRP: 一种新型特征重要性框架用于排序

作者: Venetia Pliatsika, Joao Fonseca, Kateryna Akhynko, Ivan Shevchenko, Julia Stoyanovich

arXiv:2401.16744v4 宣告类型: 替换摘要：在招聘、大学录取和贷款等关键领域，算法决策通常基于排名。由于这些决策对个人、组织和人口群体的影响，理解这些决策是至关重要的，以帮助个人提高其排名位置、设计更好的排名程序，以及确保遵守法律要求。在本文中，我们argue认为用于分类和回归的解释方法，如SHAP，对于排名任务来说是不足的，并提出了ShaRP-Shapley值用于排名和偏好的框架，该框架解释了特征对排名结果各个方面贡献的解释。 ShaRP 计算了各种排名特定的收益函数（例如排名和前k项）的特征贡献，并且还包含一种新颖的基于Shapley值的解释对等偏好结果的方法。我们提供了一个灵活的ShaRP 实现，能够在基于评分的排名和学习到排名任务中有效地且全面地解释表格数据上的排序和对等结果。最后，为了评估ShaRP 并将其与其他解释方法进行比较，我们定义了排名特定的解释度量标准，并进行了一项广泛的实验分析，展示了该框架的灵活性和效率。

发布时间: 2/18/2025

查看原文

高保真模拟开放世界中的新颖性容纳多Agent规划

作者: James Chao, Wiktor Piotrowski, Roni Stern, H\'ector Ortiz-Pe\~na, Mitch Manzanares, Shiwali Mohan, Douglas S. Lange

arXiv:2306.12654v2 宣布类型: 替换摘要：在现实世界环境中运行的自主代理经常依赖于自动规划器来确定达到期望目标的最佳行动或优化特定的目标函数。这些代理中包含一些常见的架构组件，如调度器，负责确定执行计划行动的时间，以及执行引擎，负责执行这些计划的行动，同时监控其结果。当环境内部出现意外现象，称为“新颖性”，这些现象改变了环境的基本特性、组成和动态时，就会出现一个重要的挑战。这种挑战存在于所有部署的现实世界应用程序中，并且可能会突然出现，而事先没有通知或解释。环境中的新颖性可以导致规划器内部模型中的不准确性，从而使之前生成的计划变得过时。最近的研究引入了旨在检测和适应这类新颖性的代理设计。然而，这些设计缺乏在连续时间空间中的行动调度、多代理间的并发行动协调以及基于记忆的新颖性适应的考虑。此外，该应用主要在低保真环境中进行了演示。在我们的研究中，我们提出了一种通用的AI代理框架，旨在检测、表征和适应高度嘈杂、复杂和随机环境中的新颖性，这些环境支持并发行动和外部调度。我们通过在现实军事场景的高保真模拟器中进行实验展示了我们代理的有效性。

发布时间: 2/18/2025

查看原文

理解用于学习启发式函数的经典规划采样生成策略

作者: R. V. Bettker, P. P. Minini, A. G. Pereira, M. Ritt

arXiv:2211.13316v4 宣告类型: 修改摘要: 我们研究了使用神经网络学习经典规划任务中的良好启发式函数的问题，这些启发式函数基于用状态及其到目标的成本估计表示的样本。启发式函数在一个受限样本集的状态空间和目标条件下进行学习，必须能够很好地泛化到状态空间中具有相同目标条件的所有状态。我们的主要目标是更好地理解生成样本集算法对由学习得到的启发式函数引导的贪婪最佳优先搜索（GBFS）性能的影响。在一系列受控实验中，我们发现两个主要因素决定了学习启发式函数的质量：用于生成样本集的算法以及样本估计与完美成本到目标之间的接近程度。这两个因素相互依赖：如果样本在状态空间中的分布不均，即使有完美的成本到目标估计也无济于事。我们还研究了其他效应，例如添加具有高价值估计的样本。基于我们的发现，我们提出了实用策略以提高学习启发式的质量：旨在生成更多代表性状态的三种策略和改善成本到目标估计的两种策略。我们的实用策略导致了在引导GBFS算法时，与基准学习启发式相比，平均覆盖度提高了超过30%的学习启发式。

发布时间: 2/18/2025

查看原文

没有分类器自由引导的扩散模型

作者: Zhicong Tang, Jianmin Bao, Dong Chen, Baining Guo

arXiv:2502.12154v1 宣告类型: cross 摘要：本文提出了一种新的扩散模型训练目标——Model-guidance (MG)，它解决了并消除了常用的Classifier-free guidance (CFG)。我们的创新方法超越了仅数据分布的标准建模，而是纳入了条件的后验概率。该提出的技巧源自CFG的想法，并且简单而有效，使其成为现有模型的即插即用模块。我们的方法在训练过程中显著加速了过程，将推理速度提高了两倍，并且在与采用CFG的并发扩散模型相比时达到了令人惊叹的质量。广泛的实验表明了其在不同模型和数据集上的有效性和效率。最终，我们在ImageNet 256基准上建立了最先进的性能，FID为1.34。我们的代码可在 https://github.com/tzco/Diffusion-wo-CFG 获得。

发布时间: 2/18/2025

查看原文