arXiv 论文列表

作者: Yuki Shirai, Tong Zhao, H. J. Terry Suh, Huaijiang Zhu, Xinpei Ni, Jiuguang Wang, Max Simchowitz, Tao Pang

arXiv:2411.06542v4 公告类型: replace-cross 摘要：设计涉及大量接触的规划器和控制器极其具有挑战性，因为接触违反了多数基于梯度的控制器合成工具假定的平滑性条件。接触平滑通过用平滑系统近似非平滑系统，允许使用这些合成工具更有效地进行控制器合成。然而，将经典控制合成方法应用于平滑化的接触动力学仍然相对未被充分探索。本文分析了基于接触平滑的微分模拟器进行线性控制器合成的有效性。我们引入了自然基线，利用接触平滑来计算(a) 对不确定条件和/或动态具有鲁棒性的开环计划，以及(b) 用于围绕开环计划进行稳定化的反馈增益。通过使用双臂全身机器人操作作为测试平台，我们在超过300个轨迹上进行了广泛的实证实验，并分析了为什么 LQR 对于稳定丰富的接触计划似乎不够。总结本文和硬件实验的视频可以在以下链接找到：https://youtu.be/HLaKi6qbwQg?si=_zCAmBBD6rGSitm9。

发布时间: 5/15/2025

查看原文

促使LLM崩坏的哪些提示特征？探究攻击背后的机制

作者: Nathalie Kirch, Constantin Weisser, Severin Field, Helen Yannakoudakis, Stephen Casper

arXiv:2411.03343v2 通知类型: replace-cross 摘要：间谍攻击一直是关于大规模语言模型（LLM）的安全性和可靠性研究中的核心关注点，然而这些攻击机制仍知之甚少。尽管以往的研究主要依赖线性方法来检测间谍攻击尝试和模型拒绝，我们采取了不同的方法，通过研究导致成功间谍攻击的提示的线性和非线性特征。首先，我们引入了一个新的数据集，包含10,800个间谍攻击尝试，覆盖了35种不同的攻击方法。利用这一数据集，我们训练探测器以区分成功和不成功的间谍攻击，这是通过相应的提示标记的潜在表示实现的。值得注意的是，我们发现，即使探测器在预测间谍攻击成功率方面取得了高准确性，它们的表现往往无法泛化到未见过的攻击方法上。这揭示了不同的间谍破解策略利用了不同的非线性和非普遍性特征。接下来，我们证明了非线性探测器提供了引导模型行为的强大工具。具体来说，我们使用这些探测器来指导目标潜在空间扰动，从而使我们能够有效地调节模型对间谍攻击的鲁棒性。总体而言，我们的研究结果挑战了仅通过线性或简单的通用提示特征来完全理解间谍攻击的假设，突显了对LLM脆弱性背后机制进行细致理解的重要性。

发布时间: 5/15/2025

查看原文

FAMMA：一个金融领域多语言多媒体问答基准数据集

作者: Siqiao Xue, Xiaojing Li, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei

arXiv:2410.04526v3 宣布类型: replace-cross 摘要：在本文中，我们介绍了FAMMA，一个开源基准，用于评估大语言模型（LLMs）在回答需要高级金融知识的复杂推理问题方面的能力。该基准有两个版本：FAMMA-Basic 包含1,945个问题，这些问题来源于大学教科书和考试，并附有人工标注的答案和推理过程；FAMMA-LivePro 包含103个由人类领域专家创建的新颖问题，这些问题的答案和推理过程未向公众公开，以保证评价的干净性。这些问题涵盖了金融8个主要子领域的高级知识（例如，公司金融、衍生品和投资组合管理）。其中一些问题是中文或法语的，而大多数问题则是英语的。每个问题还包含一些非文本数据，例如图表、图形或表格。我们的实验表明，FAMMA 对 LLMs，包括推理模型（如GPT-o1 和 DeepSeek-R1）构成重大挑战。此外，我们整理了 DeepSeek-R1 在 FAMMA-Basic 数据上的1,270条推理轨迹，并使用这些推理数据微调了一系列开源 Qwen 模型。我们发现，使用这些推理轨迹训练模型可以显著提高其在 FAMMA-LivePro 中的表现。我们在 https://famma-bench.github.io/famma/ 上发布了我们的排行榜、数据、代码和训练模型。

发布时间: 5/15/2025

查看原文

深度签名：大规模分子动力学表征

作者: Tiexin Qin, Mengxu Zhu, Chunyang Li, Terry Lyons, Hong Yan, Haoliang Li

arXiv:2410.02847v3 Announce Type: replace-cross 摘要：理解蛋白质动力学对于揭示蛋白质的功能机制和开发分子疗法至关重要。然而，生物学过程中复杂的高维动力学和原子间相互作用给现有的计算技术带来了重大挑战。在这篇论文中，我们首次通过引入深度签名（Deep Signature）这一新的计算可处理框架来解决这一问题，该框架基于它们的演化轨迹来表征复杂的动力学和原子间相互作用。具体来说，我们的方法结合了软谱聚类，该方法局部聚合协同动力学以减少系统的规模，以及签名变换，该方法收集迭代积分以提供非光滑交互动力学的全局表征。理论上分析表明，深度签名具有多种期望的性质，包括对平移的不变性、对旋转的近乎不变性、对原子坐标排列的协变性，以及对时间重参数化的不变性。此外，通过对三个生物学过程基准的实验结果表明，与基准方法相比，我们的方法能够实现更优的性能。

发布时间: 5/15/2025

查看原文

基于眶周特征的先进眶周距离预测与疾病分类

作者: George R. Nahass, Sasha Hubschman, Jeffrey C. Peterson, Ghasem Yazdanpanah, Nicholas Tomaras, Madison Cheung, Alex Palacios, Kevin Heinze, Chad A. Purnell, Pete Setabutr, Ann Q. Tran, Darvin Yi

arXiv:2409.18769v5 通知类型: replace-cross 摘要：眶周距离是诊断和监控一系列眼睑整形和颅颜条件的关键标志。然而，手动测量主观性强，容易受到不同评估者的变异影响。已经开发了自动化方法，但它们仍然受限于标准化成像要求、小数据集和仅关注个别测量的狭窄焦点。我们开发了一种在健康眼的领域特定数据集上训练的分割管道，并将其性能与Segment Anything Model (SAM) 和先前的基准PeriorbitAI 进行了比较。分割准确性在多个疾病类别和成像条件下进行了评估。此外，我们进一步调查了预测眶周距离作为特征在分布内（ID）和分布外（OOD）设置下进行疾病分类的可能性，比较了浅层分类器、CNN 和融合模型。我们的分割模型在所有数据集上都达到了最先进的准确率，误差率在不同评估者的变异范围内，并且相对于SAM和PeriorbitAI表现出更优的性能。在分类任务中，基于眶周距离训练的模型在ID数据上的性能与CNN相当（准确率为77%-78%），在OOD条件下则显著优于CNN（前者在63%-68%的准确率，后者为14%）。融合模型在ID上达到了最高的准确率（80%），但对OOD下的退化CNN特征非常敏感。分割得出的眶周距离提供了用于疾病分类的稳健且可解释的特征，并且在领域转移下比CNN图像分类器具有更好的泛化能力。这些结果确立了眶周距离预测的新基准，并突显了基于解剖结构的AI管道在眼睑整形和颅颜护理中的实际部署潜力。

发布时间: 5/15/2025

查看原文

基于高光谱成像的像素级材料分类的深度学习方法

作者: Savvas Sifnaios, George Arvanitakis, Fotios K. Konstantinidis, Georgios Tsimiklis, Angelos Amditis, Panayiotis Frangos

arXiv:2409.13498v2 通知类型: 替换-交叉摘要：近期计算机视觉领域的发展，特别是在检测、分割和分类方面的进步，已经显著影响了各个领域。然而，这些进展仍然局限于基于RGB的系统，这并不能满足废物分类、制药和国防等行业的需求，在这些行业中，需要进行超出形状或颜色的高级物体表征。高光谱（HS）成像通过捕捉光谱和空间信息，解决了这些限制，并在速度、成本和安全性方面优于传统的X射线荧光和拉曼光谱技术。本研究评估了将高光谱成像与深度学习结合用于物质表征的潜力。研究包括：i) 设计包含高光谱相机、传送带和受控照明的实验设置；ii) 生成包含各种塑料（HDPE、PET、PP、PS）的多对象数据集，并通过半自动掩码生成和拉曼光谱标注；iii) 开发一个基于高光谱图像训练的深度学习模型，用于像素级物质分类。该模型实现了99.94%的分类准确率，展示了在颜色、尺寸和形状不变性方面的稳健性，并有效地处理了物质重叠。此外，还讨论了如黑色物体的挑战。将计算机视觉从基于RGB扩展到高光谱成像证明是可行的，克服了传统方法的主要限制，并展示了在未来应用中具有强大的潜力。

发布时间: 5/15/2025

查看原文

分子优化的片段遮掩扩散

作者: Kun Li, Xiantao Cai, Jia Wu, Shirui Pan, Huiting Xu, Bo Du, Wenbin Hu

arXiv:2408.09106v3 宣告类型: 替换交叉摘要：分子优化是药物发现中的关键方面，旨在通过改进分子结构来提高药物疗效并减少副作用，从而加速整体药物开发过程。已经提出了许多分子优化方法，显著推动了药物发现的进步。这些方法主要关注了解特定药物靶标结构或它们在对抗疾病中的假设作用。然而，有限的可用靶标数量和难以捕捉清晰结构的挑战阻碍了创新药物的发展。相比之下，表型药物发现（PDD）不依赖于清晰的靶标结构，可以识别具有新颖和无偏多药理学特征的hit。因此，基于PDD的分子优化可以减少潜在的安全风险，同时优化表型活性，从而增加临床成功的机会。因此，我们提出了基于PDD的片段掩蔽分子优化方法（FMOP）。FMOP 使用无回归扩散模型对分子掩蔽区域进行条件优化，有效地生成具有相似骨架的新型分子。在大规模药物反应数据集GDSCv2中，我们在所有985个细胞系中对潜在分子进行了优化。整体实验结果表明，计算优化的成功率达到95.4%，平均功效增加7.5%。此外，我们进行了广泛的消融和可视化实验，证实FMOP 是一种有效且稳健的分子优化方法。代码可在以下网址获得：https://anonymous.4open.science/r/FMOP-98C2。

发布时间: 5/15/2025

查看原文

公共宪法性AI

作者: Gilad Abiri

arXiv:2406.16696v2 宣告类型: replace-cross 摘要：我们越来越受到AI权威的力量。随着AI决策变得不可避免，进入医疗保健、教育和法律等领域，我们必须面对一个至关重要的问题：我们如何确保AI系统具备有效治理所必需的合法性？本文认为，为了确保AI的合法性，我们需要方法来使公众参与设计和约束AI系统，确保这些技术反映社区共享的价值观。Anthropic提出的宪法AI代表了这一目标的一次迈进，提供了一个民主控制AI的模型。然而，尽管宪法AI致力于将明确原则硬编码到AI模型中以增强透明度和问责制，它在两个关键方面仍存在不足：解决单个AI决策的模糊性以及培养真正的民主合法性。为克服这些限制，本文提出“公共宪法AI”这一方法。这种方法设想了一个参与过程，让包括普通公民在内的多元利益相关者对指导AI发展的原则进行讨论。由此产生的“AI宪法”将拥有多数授权的合法性，使AI治理扎根于公众意志之中。此外，本文还提出了“AI法院”以发展“AI案例法”，为在AI训练中具体化宪法原则提供实例。这种宪法原则与案例法的不断演变组合旨在使AI治理更加回应公众价值观。通过将AI治理根植于协商式民主过程，公共宪法AI提供了一条赋予自动化权威以真正民主合法性的途径，同时解决日益强大的AI系统带来的独特挑战，确保其符合公众利益。

发布时间: 5/15/2025

查看原文

促进多智能体合作的认知洞察与稳定联盟匹配

作者: Jiaqi Shao, Tianjun Yuan, Tao Lin, Bing Luo

arXiv:2405.18044v2 通知类型: 替换-交叉摘要：认知能力，如心智理论（ToM），在促进人类社会互动中的合作方面发挥着重要作用。然而，我们的研究表明，具有较高ToM能力的代理并不一定比具有较低ToM能力的代理表现出更好的合作行为。为了应对这一挑战，我们提出了一种新颖的配对联盟机制，通过在形成联盟时明确考虑信念对齐和专门的能力，利用不同ToM水平代理的优点。我们提出的匹配算法旨在寻找稳定联盟，以最大化潜在的合作行为并确保长期可行性。通过将认知洞察融入多代理系统的设计，我们的研究展示了利用ToM创建更复杂、更类人的协调策略的潜力，这些策略有助于促进合作并提高整体系统性能。

发布时间: 5/15/2025

查看原文

DACAD：多变量时间序列异常检测的领域适应对比学习

作者: Zahra Zamanzadeh Darban, Yiyuan Yang, Geoffrey I. Webb, Charu C. Aggarwal, Qingsong Wen, Shirui Pan, Mahsa Salehi

arXiv:2404.11269v3 宣告类型: replace-cross 摘要：在时间序列异常检测（TSAD）中，标记数据的稀缺性给准确模型的发展带来了挑战。无监督领域适应（UDA）通过利用相关领域中的标记数据来检测目标领域中未标记数据的异常提供了一个解决方案。然而，现有的UDA方法假设各个领域中的异常类别是一致的。为了解决这一局限性，我们提出了一种结合UDA与对比学习的新颖领域适应对比学习模型（DACAD）用于多变量时间序列中的异常检测。DACAD采用了一种异常注入机制，以增强在未见过的异常类别上的泛化能力，提高适应性和稳健性。此外，我们的模型在源领域使用监督对比损失，在目标领域使用自我监督的对比三元组损失，确保了全面的特征表示学习和领域不变的特征提取。最后，有效的中心基熵分类器（CEC）在源领域准确地学习正常边界。在多个真实世界数据集和合成数据集上的广泛评估突显了DACAD在跨领域知识转移和减轻TSAD中受限标记数据的挑战方面的优异性能。

发布时间: 5/15/2025

查看原文