arXiv 论文列表

作者: Felix Leeb, Zhijing Jin, Bernhard Sch\"olkopf

arXiv:2502.05085v1 交叉类型：跨领域摘要：有效的可靠评估对于推动经验机器学习至关重要。然而，通用模型的日益普及以及向越来越复杂、高级的任务的进步使得系统的评估更加具有挑战性。基准测试受到各种偏见、伪影或泄漏的困扰，而模型可能由于未充分探索的故障模式而表现不可靠。任意的处理和对这些所谓的“怪物”的不一致表述可能导致重复劳动、对结果的信任缺失和支持不足的推论。在这篇立场文件中，我们认为因果关系提供了系统解决这些挑战的理想框架。通过使方法中的因果假设显式化，我们可以忠实建模现象，提出具有解释力的可测试假设，并利用成熟的分析工具。为了使因果模型设计更加易用，我们识别了因果图中的一些有用的常见抽象拓扑（CATs），这些拓扑有助于深入了解大型语言模型的推理能力。通过一系列案例研究，我们展示了精确且实用的因果语言如何阐明方法的优点和局限性，并激发新的方法以实现系统的进展。

发布时间: 2/10/2025

查看原文

ChallengeMe：一种 adversarial learning Enabled 文本摘要框架

作者: Xiaoyu Deng, Ye Zhang, Tianmin Guo, Yongzhe Zhang, Zhengjian Kang, Hang Yang

arXiv:2502.05084v1 标题类型: cross 摘要：大型语言模型（LLMs）在生产和服务生活中的惊人性能及其在协作任务中的显著成就，导致了它们在垂直领域任务中的广泛应用。然而，当前的大规模模型在内容生成方面面临着诸如虚构和缺乏具体性等挑战。受人类认知过程中对比和分类机制的启发，本文构建了一个基于对抗学习的提示框架，名为ChallengeMe，其中包括三层级的解决方案：生成提示、评估提示和反馈优化。在这个过程中，我们设计了七个核心优化维度，并设置了对抗学习的阈值。在文本总结任务的混合案例研究中，所提出的框架生成的文本总结比当前先进的主流LLMs更为准确和流畅。

发布时间: 2/10/2025

查看原文

带有偏好补偿政策的众包按需服务

作者: Georgina Nouli, Axel Parmentier, Maximilian Schiffer

arXiv:2502.05060v1 声明类型：交叉摘要：众包即需服务提供了诸如降低成本、加快服务履行时间、增强适应能力以及对按需配送情境下的可持续城市交通运输的贡献等优势。然而，利用众包的即需平台的成功与否取决于找到一种补偿政策，能够在吸引零工工人的工作提议和确保盈利能力之间找到平衡。在本文中，我们研究了一种即需平台的动态定价问题，在离散时间框架下，根据请求和工人的随机到达，为零工工人设定特定请求的补偿。操作员的目标是在时间框架内最大化总的期望奖励。我们的方法引入了明确考虑零工工人请求偏好的补偿策略。为了实现这一点，我们使用多项式logit模型来表示零工工人的接受概率，并因此推导出一种利用后决策状态的解析解。随后，我们将此解决方案整合到近似动态规划算法中。我们将我们的算法与基准算法进行了比较，包括基于公式的策略和由完整的线性规划解决方案提供的上界。我们的算法在各种情况下表现出一致的性能，在同质零工工人群体中至少提高了2.5-7.5%，在异质群体中提高了9%，基于完全合成数据。对于真实数据，在较弱的位置偏好情况下，我们的算法超过基准算法8%，在较强的偏好情况下，超过20%。

发布时间: 2/10/2025

查看原文

可微分移动显示光度 Stereo

作者: Gawoon Ban, Hyeongjun Kim, Seokjun Choi, Seungwoo Yoon, Seung-Hwan Baek

arXiv:2502.05055v1 类别: cross 摘要: 显示光电立体利用显示器作为可编程光源，以不同的照明条件照亮场景。最近，可学习显示器光电立体 (DDPS) 通过使用学习到的显示器模式展示了提高法线重建精度的进步。然而，DDPS 在实用性方面面临限制，需要使用偏振相机和桌面规模显示器的固定桌面成像设置。在本文中，我们提出了一种更实用的基于物理的光电立体方法——可移动显示器光电立体 (DMDPS)，这种方法利用的是一种结合了显示器和摄像头的移动设备。我们通过开发一个可同时显示模式并捕捉高质量高动态范围 (HDR) 图像的移动应用程序和方法，克服了使用移动设备的局限性。使用此技术，我们捕捉到了现实世界的 3D 打印对象，并通过可学习过程学习了显示器模式。我们展示了 DMDPS 在 3D 打印数据集和首个凋落叶子数据集上的有效性。该凋落叶子数据集包含凋落叶子的重建表面法线和反射率，这可能有助于未来超越计算机图形学和视觉的研究。我们认为，DMDPS 为实用的基于物理的光电立体迈出了一步。

发布时间: 2/10/2025

查看原文

联邦学习在能源消耗数据异常检测中的应用：评估对抗攻击的脆弱性

作者: Yohannis Kifle Telila, Damitha Senevirathne, Dumindu Tissera, Apurva Narayan, Miriam A. M. Capretz, Katarina Grolinger

arXiv:2502.05041v1 宣传类型：交叉摘要：在能源领域，异常检测至关重要，它能够识别出表示设备故障、窃电或其他问题的不规则模式。机器学习技术在异常检测方面取得了巨大成功，但通常涉及将本地数据共享到中央服务器，这引发了隐私和安全方面的担忧。联邦学习（FL）因其能够进行分布式学习而不共享本地数据而日益受欢迎。然而，FL依赖于神经网络，而神经网络容易受到操纵数据的对抗性攻击，导致模型产生错误预测。虽然对抗性攻击已在图像领域得到研究，但在时间序列问题中，尤其是在能源领域，它们仍未得到充分研究。此外，对抗性攻击在联邦学习设置中的影响也知之甚少。本文评估了在能源数据中基于联邦学习的异常检测对对抗性攻击的易感性。具体地，使用了两种最先进的模型，长短期记忆网络（LSTM）和变换器，以检测联邦学习环境中的异常；还采用两种白盒攻击方法，快速梯度符号方法（FGSM）和投影梯度下降（PGD），扰动数据。结果显示，与FGSM攻击相比，FL对PGD攻击更敏感，归因于PGD的迭代性质，即使在使用简单的较弱攻击时，准确率仍会下降超过10%。此外，FL比集中式学习更容易受到这些攻击的影响，突显出在联邦学习中需要防御机制的重要性。

发布时间: 2/10/2025

查看原文

算法桥接投票与审议：来自vTaiwan和Kultur Komitee的实地 Insights

作者: Joshua C. Yang, Fynn Bachmann

arXiv:2502.05017v1 宣布类型: 交叉学科摘要：民主过程越来越多地旨在将大规模投票与面对面讨论相结合，以应对个体偏好与集体决策之间的协调挑战。本文介绍了新的方法，利用算法和计算工具在在线投票与面对面讨论之间架起桥梁，并在两个实际场景中进行了测试：Kultur Komitee 2024（KK24）和vTaiwan。这些案例研究突显了所提方法的实际应用和影响。我们提出三项主要贡献：（1）基于偏好局部聚类，通过计算具有平衡和可调节组大小的同质和异质群体组成，既可以进行深入又可以进行广泛的讨论；（2）带有即时数字反馈的人机协作MES方法，这是一种实用的方法，通过将公平份额法（MES）算法与实时数字反馈相结合来增强算法信任。这通过参与者完全控制决策权，使得参与者可以选择将多少决策权委托给投票聚合算法，而不是委托给讨论；以及（3）ReadTheRoom 辩论方法，该方法利用意见空间映射来识别意见的一致性和差异，并利用基于光谱的偏好可视化来跟踪讨论过程中的意见变化。这种方法通过澄清集体情感从而增强透明度，并通过鼓励参与者以建设性的方式对待不同观点来促进合作。通过引入这些可操作的框架，本研究扩展了现场讨论中的可扩展数字方法，以应对参与式进程中现代决策复杂性的问题。

发布时间: 2/10/2025

查看原文

一种新的调整学习索引的范式：基于强化学习的增强方法

作者: Taiyi Wang, Liang Liang, Guang Yang, Thomas Heinis, Eiko Yoneki

arXiv:2502.05001v1 类别: cross 摘要: 学习索引结构（LIS）通过利用机器学习模型来优化数据索引，显著推动了数据管理的进步。然而，设计这些结构常常需要在关键的权衡中进行权衡，这使得设计师和最终用户难以找到适合特定工作负载和场景的最佳平衡。虽然一些索引提供可调参数，需要进行繁琐的手动调优，而其他索引则依赖于基于启发式自调优器或专家知识的固定配置，这可能不能始终提供最佳性能。本文介绍了LITune，一个用于学习索引结构端到端自动调优的新框架。LITune采用了自适应训练管道，并配备了量身定制的深度强化学习（DRL）方法，以确保稳定和高效的调优。为适应在线调优中出现的长期动态，我们进一步增强了LITune，引入了一个称为O2系统的即用即调机制。这些创新使LITune能够有效地捕捉在线调优场景中的状态转换，并根据数据分布和工作负载的变化动态调整，这在其他调优方法上取得了显著改进。我们实验结果表明，与给定选定的学习索引实例的默认参数设置相比，LITune将其运行时间降低了最多98%，吞吐量提高了17倍。这些发现突显了LITune的有效性及其在实际应用中促进LIS更广泛采用的潜力。

发布时间: 2/10/2025

查看原文

无先验的基于扩散结构净化的 robust 图学习对抗 adversarial 规避攻击

作者: Jiayi Luo, Qingyun Sun, Haonan Yuan, Xingcheng Fu, Jianxin Li

arXiv:2502.05000v1 交叉类型: 摘要：对抗性规避攻击对图学习构成了重大威胁，尽管有研究提高了图神经网络（GNNs）的鲁棒性，但现有工作往往依赖于对干净图或攻击策略的先验知识，这些先验知识往往是启发式的且不一致的。为了在不同类型的操作规避攻击和多样化的数据集上实现鲁棒的图学习，我们从无先验结构净化的角度对此问题进行了研究。具体来说，我们提出了一种新型的基于扩散的结构净化框架，称为DiffSP，它创造性地结合了图扩散模型，以学习干净图的固有分布，并在捕捉到的预测模式的指导下消除攻击者，而无需依赖先验知识。DiffSP分为前向扩散过程和后向去噪过程，在此过程中实现了结构净化。为了在前向过程中避免有价值的有用信息的损失，我们提出了一种基于LID的非各向同性扩散机制，以选择性地在各向异性地注入噪声。为了在后向过程生成的干净图和净化图之间促进语义对齐，我们通过提出的图转移熵引导去噪机制减少了生成的不确定性。广泛的实验表明，DiffSP在对抗规避攻击中的鲁棒性优于现有的方法。

发布时间: 2/10/2025

查看原文

使黑盒语言模型与人类判断对齐

作者: Gerrit J. J. van den Burg, Gen Suzuki, Wei Liu, Murat Sensoy

arXiv:2502.04997v1 交叉公告类型：交叉摘要：大型语言模型（LLMs）越来越多地被用作自动化裁判，评估推荐系统、搜索引擎和其他主观任务，而依靠人类评估者进行评估可能会很昂贵、耗时且不具扩展性。LLMs 提供了一种有效的连续自动化评估解决方案。然而，由于使用这些判断构建和改进的系统最终是为人使用的，因此确保LLMs的判断与人类评估者紧密对齐至关重要，以确保此类系统保持以人类为中心。另一方面，由于人类判断在个体差异和偏差方面的差异性，对齐LLMs的判断与人类评估者具有挑战性。我们提出了一种简单而有效的框架，用于在无需重新训练或微调LLMs的情况下，将LLMs的判断对齐到个别的人类评估者或他们的综合判断。我们的方法在LLMs的输出与人类判断之间学习线性映射，仅使用少量校准示例进行训练，在29个任务中实现了超过142%的平均一致性改进。值得注意的是，我们的方法在零样本和少量样本设置中有效，在六个任务中的四个任务上超过了人类之间的共识，并使较小的LLMs能够达到与较大模型相当的性能。

发布时间: 2/10/2025

查看原文

快速自适应抗干扰信道访问通过深度Q学习和粗粒度频谱预测

作者: Jianshu Zhang, Xiaofu Wu, Junquan Hu

arXiv:2502.04963v1 交叉类型：跨学科摘要：本文研究了在复杂且未知干扰环境中避免干扰的信道访问问题，其中干扰源可以动态调整其策略来针对不同的信道。传统使用固定模式的信道跳频抗干扰方法对这种动态干扰攻击无效。尽管基于深度强化学习（DRL）的动态信道访问方法能够在快速变化的干扰攻击下达到纳什均衡，但它需要大量的训练周期。为了解决这一问题，我们提出了一种基于“比干扰源学得更快”的直觉的快速自适应抗干扰信道访问方法，其中同步更新的粗粒度频谱预测作为基于深度Q学习（DQN）的抗干扰模型的辅助任务。这有助于模型相比标准DRL识别出更优秀的Q函数，并显著减少了训练周期的数量。数值结果表明，所提出的方法显著加快了模型训练的收敛速度，与标准DRL相比，所需的训练周期可减少多达70%。此外，它还能通过有效使用粗粒度频谱预测实现吞吐量10%的提升，优于NE策略。

发布时间: 2/10/2025

查看原文