arXiv 论文列表

作者: Hannah Murray, Brian Hyeongseok Kim, Isabelle Lee, Jason Byun, Dani Yogatama, Evi Micha

arXiv:2504.03716v1 交叉型公告摘要：大语言模型（LLMs）正在变得无处不在，甚至在高风险场景中也承诺实现自动化。然而，现有的评估方法往往不尽如人意——基准测试达到饱和，准确性指标过于简单，而且许多本质上存在歧义的问题缺乏明确的地面真实值。鉴于这些限制，评估公平性变得复杂。为了解决这个问题，我们重新定义了公平性评估，利用选举理论中的Borda得分方法，将其作为一个复杂但可解释的公平性衡量指标。以器官分配为例，我们引入了两个任务：(1) 选择一个和 (2) 对所有进行排名。在“选择一个”任务中，LLMs 选择一个肾的单一候选者，并我们使用比例平等来评估不同人口统计数据的公平性。在“对所有进行排名”任务中，LLMs 对所有候选者进行排名，反映了实际的分配过程。由于传统的公平性指标不考虑排名，我们提出了一种将Borda得分应用于捕捉偏差的新型应用。我们的研究结果突显了基于选举的指标在为LLM公平性提供更丰富、更复杂的评估方面的潜力。

发布时间: 4/8/2025

查看原文

无结构和无限空间中的多目标质量多样性

作者: Hannah Janmohamed, Antoine Cully

arXiv:2504.03715v1 类型:交叉学科摘要：质量多样性算法是发现多样且高性能解决方案的强大工具。最近，多目标质量多样性（MOQD）将质量多样性扩展到涉及多个目标的问题上，同时保持解的多样性。在需要在竞争性目标之间（如能效和速度）寻找权衡的领域，如机器人学和材料科学中，MOQD 已展现出巨大潜力。然而，现有的 MOQD 方法依赖于将特征空间划分成网格结构，这限制了其在特征空间未知或必须学习的领域中的应用，例如复杂的生物系统或潜在探索任务。在本文中，我们引入了多目标非结构化代表集的质量多样性（MOUR-QD），这是一种为非结构化和无界特征空间设计的 MOQD 算法。我们对五个机器人任务评估了 MOUR-QD。重要的是，我们展示了我们的方法在特征必须学习的任务中表现出色，为将 MOQD 应用于无监督领域铺平了道路。此外，我们证明了 MOUR-QD 在具有无界特征空间的领域中具有优势，超过了现有的基于网格的方法。最后，我们展示了 MOUR-QD 在现有 MOQD 任务中与已建立的 MOQD 方法具有竞争力，并在某些环境中实现了双倍的 MOQD 分数。MOUR-QD 为 MOQD 在蛋白质设计和图像生成等领域提供了新的应用机会。

发布时间: 4/8/2025

查看原文

防护 breaches: 揭示大型语言模型的脆弱性

作者: Runpeng Dai, Run Yang, Fan Zhou, Hongtu Zhu

arXiv:2504.03714v1 宣布类型: cross 摘要：大型语言模型（LLMs）和视觉-语言模型（VLMs）已成为通用人工智能的重要组成部分，展示出在任务理解和问题解决方面的非凡能力。然而，这些模型在现实世界中的可靠性关键取决于它们的稳定性，而稳定性仍然是一个未充分探索的领域。尽管这些模型被广泛使用，但关于这些模型在各种扰动下稳定性的严格研究仍然不足。在本文中，我们通过提出一种受信息几何统计方法启发的新颖稳定性度量，来解决这一问题。这种度量具有可喜的不变性特性，使其适用于分析模型对参数和输入扰动的敏感性。为了评估我们方法的有效性，我们在从1.5B到13B参数的模型中进行了大量的实验。我们的结果表明，我们的度量在识别重要参数以及检测输入图像中的脆弱区域或词嵌入中的关键维度方面具有实用性。此外，利用我们的稳定性框架，在模型合并过程中增强模型的鲁棒性，从而提高了模型性能。

发布时间: 4/8/2025

查看原文

RLDBF：通过带有DataBase FeedBack的 reinforcement learning 提升LLMs

作者: Weichen Dai, Zijie Dai, Zhijie Huang, Yixuan Pan, Xinhe Li, Xi Li, Yi Zhou, Ji Qi, Wu Jiang

arXiv:2504.03713v1 类型: cross 摘要: 当前的大语言模型（LLMs）通过在大量无结构文本语料库上进行训练，展示了令人瞩目的语言能力，但它们在利用结构化的科学数据（例如数据库中的化学分子性质）方面仍然不够充分，这些数据蕴含了数个世纪积累的科学专长。这些结构化数据对于促进科学人工智能具有战略意义，但当前的方法仅将其作为无结构文本的辅助补充。这项研究开创性地探讨了在大语言模型中增强结构化科学数据的方法，以化学分子科学作为试验平台。我们研究了在大语言模型的不同训练阶段（包括持续性预训练、监督微调和强化学习）中融入分子属性数据的影响。值得注意的是，为了解决大型模型固有的数值灵敏度不足的问题，我们提出了一种名为“数据库反馈强化学习”（RLDBF）的创新方法。实验评估展示了所提出的这种方法的有效性，模型在未见过的数据和其他化学任务上表现出显著的泛化能力。结果证明了我们方法在大语言模型中促进结构化科学数据处理领域的潜在价值。

发布时间: 4/8/2025

查看原文

基于焦斑的可扩展聚光镜表面预测：从仿真到现实的逆向深度学习光 traced 转移

作者: Jan Lewen, Max Pargmann, Jenia Jitsev, Mehdi Cherti, Robert Pitz-Paal, Daniel Maldonado Quinto

arXiv:2504.03712v1 Announce Type: cross 摘要：集中太阳能动力（CSP）电站是向可持续能源过渡的关键技术。它们安全高效运行的关键因素是集中太阳能通量在接收器上的分布。然而，个体定日镜上的通量分布对表面缺陷非常敏感。在实际部署中，测量这些表面在多个定日镜上的分布仍然是不切实际的。因此，控制系统经常假设理想化的定日镜表面，导致性能不佳并存在潜在的安全风险。为了解决这一问题，逆深度学习光线追踪（iDLR）被引入作为一种从标准校准程序中记录的目标图像推断定日镜表面轮廓的新方法。在本文中，我们首次成功实现了iDLR从仿真到现实世界的转移，使其可以直接从实际目标图像中准确预测表面轮廓。我们在63个定日镜的实际运行条件下评估了该方法。iDLR表面预测的中位数绝对误差（MAE）为0.17毫米，在84%的情况下与散射测量的真实地面真值保持良好的一致。将其用于光线追踪仿真时，它能够相对于数据集中的散射测量实现90%的平均准确度的通量密度预测，并优于常用的理想定日镜表面假设26%。我们在一个涉及未见过的太阳位置和接收器投影的挑战性双外推场景中测试了这一方法，并发现iDLR保持了高的预测准确度，突显了其泛化能力。我们的结果表明，iDLR是一种可扩展、自动化且成本效益高的解决方案，可将现实的定日镜表面模型集成到数字孪生中。这为改善通量控制、更精确的性能建模，并最终提高CSP电站的效率和安全性打开了大门。

发布时间: 4/8/2025

查看原文

SAFE：自适应 federated 学习框架以实现遥感协作感知

作者: Xiaohe Li, Haohua Wu, Jiahao Li, Zide Fan, Kaixin Zhang, Xinming Li, Yunping Ge, Xinyu Zhao

arXiv:2504.03700v1 宣布类型:交叉摘要：遥感卫星数量的迅速增加导致出现了分布式空间观测系统。然而，现有的分布式遥感模型往往依赖于集中式训练，这导致了数据泄露、通信开销，并且由于各平台间数据分布不一致而降低了准确性。为了解决这些挑战，我们提出了一种名为“自我调整联邦学习”(Self-Adjustment Federated Learning, SAFE)的框架，该框架创新性地利用联邦学习来增强遥感场景中的协作感知。SAFE 引入了四个关键策略：(1) 类别校正优化，可以在未知的本地和全局分布下自主解决类别不平衡问题。 (2) 特征对齐更新，通过本地控制的指数移动平均 (EMA) 更新来缓解非IID数据问题。 (3) 双因素调制旋钮，可在训练过程中动态平衡优化效果。 (4) 适应性上下文增强，旨在通过动态细化前景区域来提高模型性能，并确保在分布式卫星间的计算效率同时提高准确率。在实际图像分类和对象分割数据集上的实验验证了SAFE框架在复杂遥感场景中的有效性和可靠性。

发布时间: 4/8/2025

查看原文

焦虑检测模型具有通用性吗？一项使用可穿戴设备进行跨活动和跨人群研究

作者: Nilesh Kumar Sahu, Snehil Gupta, Haroon R Lone

arXiv:2504.03695v1 类型: cross 摘要: 恐惧诱发的活动，如公共演讲，可能会在焦虑障碍患者中引发加剧的焦虑反应。近期研究提示，通过穿戴设备收集的心电图(ECG)和皮肤电活动(EDA)等生理信号，可以通过机器学习模型在这些情境下检测到焦虑。然而，在不同活动和广泛人群中这些焦虑预测模型的一致性仍较少被探究——这是评估模型偏差和在更广泛应用中培养用户信任的必要步骤。为应对这一空白，我们对111名参与者进行了三项恐惧诱发活动的研究。利用我们收集的数据集以及两个广泛可用的公开数据集，我们评估了参与者内部(同活动和跨活动场景)以及参与者之间(同活动和跨活动)焦虑检测模型的一致性。总共，我们训练和测试了超过3348个焦虑检测模型(使用六种分类器，31个特征集，和18种训练-测试配置)。我们的结果显示，三个关键指标-AUROC、焦虑状态的召回率和非焦虑状态的召回率——略高于基线分数0.5。最佳AUROC分数范围为0.62至0.73，焦虑类别召回率范围为35.19%至74.3%。有趣的是，模型性能(以AUROC衡量)在不同活动和参与者组之间保持相对稳定，尽管焦虑类别召回率显示了一些变化。

发布时间: 4/8/2025

查看原文

学习在非正交多址接入中进行干扰的联合源信道编码

作者: Selim F. Yilmaz, Can Karamanli, Deniz Gunduz

arXiv:2504.03690v1 宣传类型：交叉摘要：我们考虑多个发射器旨在通过多址信道（MAC）传输其源信号（例如，图像）。传统通信系统通过在用户之间正交分配资源（时间和/或带宽）来最小化干扰，这限制了其容量。我们介绍了一种借助机器学习（ML）的无线图像传输方法，该方法使用多视图自动编码器将压缩和信道编码结合起来，使发射器能够同时使用可用的所有信道资源，从而实现非正交多址接入（NOMA）方案。接收器必须从接收到的叠加信号中恢复所有图像，同时将每个图像与相应的发射器关联。传统的ML模型处理单独的样本，而我们的模型允许不同用户的信号相互干扰，以便在带宽和功率受限的情况下利用NOMA的优势。我们引入了一种渐进细化算法，在每次迭代中将用户数量翻倍，初始性能通过正交化用户特定的投影保持，然后通过细化步骤进行改进。令人Remarkably，与单用户模型相比，我们的方法可以扩展到16个用户甚至更多，训练参数数量仅增加0.6%，显著提高了恢复图像质量，并在广泛的图像集、指标和信道条件下优于现有的基于NOMA的方法。我们的方法为更高效和鲁棒的多用户通信系统铺平了道路，利用了创新的ML组件和策略。

发布时间: 4/8/2025

查看原文

CLCR：基于对比学习的约束重排序以实现高效的MILP求解

作者: Shuli Zeng, Mengjie Zhou, Sijia Zhang, Yixiang Hu, Feng Wu, Xiang-Yang Li

arXiv:2504.03688v1 类型: cross 摘要：约束排序在混合整数线性规划（MILP）求解器的效率中发挥了关键作用，特别是在大规模问题中，约束排序不良会导致增加的线性规划（LP）迭代次数和次优的搜索轨迹。本文提出了CLCR（基于对比学习的约束重排序），这是一种新框架，可以系统地优化约束排序以加速MILP求解。CLCR 首先根据约束的结构模式对其进行聚类，然后使用指针网络进行对比学习以优化约束的顺序，同时保持问题等价性并提高求解器效率。在基准测试上的实验表明，与平均情况相比，CLCR 将求解时间减少了 30%，LP 迭代次数减少了 25%，而不会牺牲解的准确性。这项工作展示了数据驱动的约束排序在增强优化模型方面的潜力，为数学规划与机器学习的结合提供了新的范式。

发布时间: 4/8/2025

查看原文

基于深度学习的传感器人体活动识别过程优化与部署

作者: Hanyu Liu, Ying Yu, Hang Xiao, Siyao Li, Xuze Li, Jiarui Li, Haotian Tang

arXiv:2504.03687v1 传感器类别：交叉学科摘要：基于传感器的人体活动识别是许多以人为中心的智能应用的关键技术。然而，这一研究仍处于起步阶段，面临着许多未解决的挑战。为了解决这些问题，我们提出了一种以多注意力交互为中心的全面优化过程方法。首先，我们利用无监督统计特征引导的扩散模型进行高度适应的数据增强，并引入了一种新型的网络架构——多分支时空交互网络，该网络利用不同层次的多分支特征有效地顺序进行时空交互，以增强挖掘高级潜在特征的能力。此外，在训练阶段，我们采用多损失函数融合策略，动态调整批次之间的融合权重，以优化训练结果。最后，我们还在嵌入式设备上进行了实际部署，广泛测试了提出方法在现有工作中应用的可行性。我们在三个公开数据集上进行了广泛的测试，包括消融研究、相关工作的比较以及嵌入式部署。

发布时间: 4/8/2025

查看原文