LLM2D

arXiv 论文列表

作者: H\'eber H. Arcolezi, Mina Alishahi, Adda-Akram Bendoukha, Nesrine Kaaniche
arXiv:2505.07985v1 Announce 类型: cross 摘要:机器学习(ML)算法高度依赖训练数据的可用性,而这些数据在不同领域中通常包含数据提供者的敏感信息。这引发了严重的隐私问题。隐私保护技术已经作为一种实用解决方案出现,通过泛化特征或抑制数据使得准确识别个体更难。虽然最近的研究表明,隐私增强技术可以影响不同子群体的ML预测,从而影响公平决策,但匿名化技术,如$k$-匿名性、$\ell$-多样性以及$t$-接近性对ML公平性的影响仍然很大程度上未被探索。在这项工作中,我们系统地审计了匿名化技术对ML公平性的影响,评估了个体公平性和群体公平性。我们的量化研究揭示了匿名化可以将群体公平性指标大幅降低至四个数量级。相反,基于相似性的个体公平性指标在更强的匿名化下通常会有所提高,这主要是由于输入数据的同质性增加。通过对多样化的隐私设置和数据分布下的匿名化程度进行分析,这项研究提供了关于隐私、公平性和效用之间权衡的关键见解,并为负责任的人工智能开发提供可操作的指南。我们的代码可在以下链接公开获取:https://github.com/hharcolezi/anonymity-impact-fairness。
发布时间: 5/14/2025
查看原文
作者: Isabella Cama, Michele Piana, Cristina Campi, Sara Garbarino
arXiv:2505.07973v1 类型:交叉 摘要:纵向成像分析通过时间跟踪疾病进展和治疗反应,提供有关治疗疗效和疾病演变的动态洞见。从医疗影像中提取的放射组学特征可以支持疾病进展的研究,促进纵向预测临床结果。本研究提出了一种纵向反应预测的概率模型,将基线特征与中间随访结果整合在一起。该概率模型的性质自然地使其能够处理疾病进展的纵向预测中的固有不确定性。我们分别在合成场景和使用脑癌数据集的情况下,将所提出的方法与最先进的疾病进展模型进行评估。结果表明,该方法在与现有方法竞争的同时,能够独特地处理不确定性并控制问题维度的增长,从而消除对中间随访数据的需求。
发布时间: 5/14/2025
查看原文
作者: Qi Xu, Junyang Zhu, Dongdong Zhou, Hao Chen, Yang Liu, Jiangrong Shen, Qiang Zhang
arXiv:2505.07921v1 类型: cross 摘要:深度神经网络(DNNs)在计算机视觉任务中表现出色,特别是在少样本学习(FSL)任务中,这越来越重要,对于从有限的示例中泛化而言。然而,DNNs 在实际应用中计算成本高且存在可扩展性问题。事件驱动型神经网络(SNNs)由于其事件驱动的特性和低能耗,特别适合处理稀疏和动态数据,尽管它们仍然难以捕捉复杂的时空特征并进行准确的跨类别比较。为了进一步提高SNNs在少样本学习中的性能和效率,我们提出了一种基于SNNs的少样本学习框架,该框架结合了自我特征提取模块和跨特征对比模块,以优化特征表示并降低能耗。我们利用时间高效训练损失和InfoNCE损失的结合来优化尖峰波形的时间动态并增强区分能力。实验结果显示,所提出的FSL-SNN在神经形态数据集N-Omniglot上的分类性能显著提升,并且在静态数据集CUB和miniImageNet上实现了与ANNs相当的性能,同时能耗较低。
发布时间: 5/14/2025
查看原文
作者: Daoze Zhang, Zhijian Bao, Sihang Du, Zhiyi Zhao, Kuangling Zhang, Dezheng Bao, Yang Yang
arXiv:2505.07920v1 宣布类型: cross 摘要:同行评审是人工智能等领域的科学进步的关键组成部分,但提交量的快速增加已经对评审系统造成了压力,不可避免地导致评审人员短缺和评审质量下降。除了研究 popularity 的增长之外,导致这种负担的另一个关键因素是提交低质量手稿的重复提交,很大程度上是由于作者在提交前缺乏有效的自我评估工具。大规模语言模型(LLMs)在协助作者和评审人员方面显示出巨大的潜力,其性能从根本上受限于同行评审数据的质量。然而,现有的同行评审数据集面临三个主要限制:(1)数据多样性的限制,(2)由于使用修订版而非初始提交而导致的一致性差和数据质量低,以及(3)对涉及反驳和评审者-作者互动的任务支持不足。为了应对这些挑战,我们引入了一个最大的一致性保障的同行评审和反驳数据集,名为 Re^2,该数据集包含来自 OpenReview 上 24 个会议和 21 个工作坊的 19,926 个初始提交、70,668 条评审评论和 53,818 条反驳。此外,反驳和讨论阶段被重新构想为多轮对话范式,以支持传统的静态评审任务和动态互动的 LLM 辅助程序,从而为作者提供更实际的指导以完善他们的手稿,并帮助缓解日益增加的评审负担。我们的数据和代码可在 https://anonymous.4open.science/r/ReviewBench_anon/ 获取。
发布时间: 5/14/2025
查看原文
作者: Linus Stuhlmann, Michael Alexander Saxer, Jonathan F\"urst
arXiv:2505.07917v1 交叉类型公告 摘要:生物医学问答(QA)系统需要有效的检索和生成组件,以确保准确性、效率和扩展性。本研究系统地检查了生物医学QA的检索增强生成(RAG)系统,评估了检索策略和响应时间的权衡。我们首先评估了最先进的检索方法,包括BM25、BioBERT、MedCPT以及混合方法,以及常见的数据存储解决方案,如Elasticsearch、MongoDB和FAISS,使用PubMed的约10%子集(240万文档),以衡量整体检索效率、检索延迟和端到端RAG系统的检索器性能。基于这些见解,我们在完整的2400万PubMed语料库上部署了最终的RAG系统,比较了不同检索器对整体性能的影响。检索深度评估显示,在使用MedCPT重新排序之前,通过BM25检索50篇文档可以最佳地平衡准确度(0.90)、召回率(0.90)和响应时间(1.91秒)。BM25检索时间保持稳定(82毫秒),而MedCPT则承担主要的计算成本。这些结果突显了生物医学QA中检索深度、效率和扩展性之前的之前不为人知的权衡。通过开源代码,该系统可以完全重现和扩展。
发布时间: 5/14/2025
查看原文
作者: Chengmin Zhou, Ville Kyrki, Pasi Fr\"anti, Laura Ruotsalainen
arXiv:2505.07911v1 宣告类型: cross 摘要:与常规的数据驱动黑盒神经网络相比,贝叶斯推理在代理(例如,机器人/模拟代理)的决策制定中具有许多优势:数据效率、泛化能力、可解释性和安全性,这些优势直接或间接地受益于贝叶斯推理的不确定性量化。然而,很少有综合评论总结贝叶斯推理在强化学习(RL)中的进步,以便为研究人员提供系统的理解。本文专注于将贝叶斯推理与RL结合,而RL如今是代理决策制定的重要方法。具体而言,本文讨论了以下五个主题:1)具有潜在应用的贝叶斯方法。首先讨论基本的贝叶斯方法和模型(贝叶斯规则、贝叶斯学习和贝叶斯共轭模型),随后讨论变分推断、贝叶斯优化、贝叶斯深度学习、贝叶斯主动学习、贝叶斯生成模型、贝叶斯元学习和终身贝叶斯学习。2)贝叶斯方法与基于模型的RL(包括近似方法)、无模型的RL和逆向RL的经典结合。3)与RL最新结合的潜在贝叶斯方法。4)就数据效率、泛化能力、可解释性和安全性对结合贝叶斯方法与RL的方 法进行分析比较。5)深入研究六种复杂的RL问题变体,包括未知奖励、部分观测、多智能体、多任务、非线性非高斯和层次化RL问题,并总结贝叶斯方法在RL的数据收集、数据处理和策略学习阶段的工作方式,以为更好的代理决策制定策略铺平道路。
发布时间: 5/14/2025
查看原文
作者: Alexander Hinterleitner, Thomas Bartz-Beielstein
arXiv:2505.07910v1 交叉类型:公告 摘要:尽管可解释人工智能(XAI)的兴趣日益增长,但在超参数调整或神经网络架构优化过程中,可解释性很少被考虑,而这些过程的关注点主要依然是最小化预测损失。在这项工作中,我们提出了XAI一致性这一新型概念,定义为不同特征归因方法之间的一致性,并提出新的度量标准来量化这一概念。这是第一次将XAI一致性直接集成到超参数调整的目标中,从而创建了一个多目标优化框架,该框架平衡了预测性能与解释稳健性。在Sequential Parameter Optimization Toolbox(SPOT)中实施我们的方法时,我们采用加权聚合和基于可接受性的策略来指导模型选择。通过我们提出的方法和配套工具,我们探索了将XAI一致性引入优化过程的影响。这使我们能够区分架构配置空间中的不同区域:一个性能较差但可解释性相对较低的区域,另一个具有强大预测性能但由于XAI一致性较低而导致解释性较弱的区域,以及一个平衡了两个目标的折衷区域,该区域提供了高可解释性的同时保持了竞争力的性能。除了介绍这一创新方法外,我们的研究还为未来的研究提供了基础,即探讨是否在性能损失和XAI一致性之间取得平衡的模型能够通过避免对训练性能的过度拟合而更具有鲁棒性,从而在分布外数据上产生更可靠的预测。
发布时间: 5/14/2025
查看原文
作者: Karahan Sar{\i}ta\c{s}, \c{C}a\u{g}atay Y{\i}ld{\i}z
arXiv:2505.07908v1 类别: cross 摘要: 在这项再现性研究中,我们重新审视了最近关于自注意力机制实现了核主成分分析 (KPCA) 的断言 (Teo et al., 2024),提出 (i) 价值向量 \(V\) 捕捉了键的格拉姆矩阵的特征向量,以及 (ii) 自注意力将查询投影到键矩阵 \(K\) 的特征空间中的主成分轴上。我们的分析揭示了三个关键不一致之处:(1) 学习得到的自注意力价值向量与 KPCA 视角中提出的没有对齐,平均相似度指标(最优余弦相似度 \(\leq 0.32\),线性 CKA(中心化核对齐精度)\(\leq 0.11\),核 CKA \(\leq 0.32\))表明几乎没有对应关系;(2) 报告的重构损失 \(J_{\text{proj}}\) 的下降,可能被认为是自注意力机制最小化 KPCA 投影误差的证据,实际上被误读了,因为涉及的数量级相差悬殊(约 \(\sim10^3\));(3) 为证明 \(V\) 捕捉了格拉姆矩阵的特征向量而引入的格拉姆矩阵特征值统计,在没有无记录的实现特定调整的情况下无法重现。在 10 种不同的 Transformer 架构中,我们得出结论,自注意力机制的 KPCA 解释缺乏实证支持。
发布时间: 5/14/2025
查看原文
作者: Zeyang Sha, Shiwen Cui, Weiqiang Wang
arXiv:2505.07903v1 类型: cross 摘要: 近期大型语言模型(LLMs)的进展不仅展示了它们在推理方面的能力,还展示了它们在调用外部工具,特别是搜索引擎方面的潜力。然而,教会模型判断何时调用搜索引擎何时依赖其内部知识仍然是一项重大挑战。现有的强化学习方法往往会导致冗余的搜索行为,从而导致低效和成本过高。在本文中,我们提出了一种名为SEM的新型后训练强化学习框架,以明确训练LLMs优化搜索使用。通过构建结合MuSiQue和MMLU的数据集,我们创建了情境,使模型必须学会区分可以直接回答的问题和需要外部检索的问题。我们设计了一个结构化的推理模板,并使用组相对策略优化(GRPO)来后训练模型的搜索行为。我们的奖励函数鼓励在不需要时避免不必要的搜索,并在需要时促进有效的检索。实验结果表明,我们的方法显著减少了冗余的搜索操作,同时在多个具有挑战性的基准测试中保持或提高了回答准确性。此框架提高了模型的推理效率,并使其能够谨慎利用外部知识。
发布时间: 5/14/2025
查看原文
作者: Ruikun Hou, Babette B\"uhler, Tim F\"utterer, Efe Bozkir, Peter Gerjets, Ulrich Trautwein, Enkelejda Kasneci
arXiv:2505.07902v1 交叉公告类型 摘要:课堂教学是教学与学习进行的关键载体。评估不同话语实践的特征,并将其与学生的学习成就联系起来,可以增强对教学质量的理解。传统的评估方法依赖于对课堂观察协议的手动编码,这既耗时又昂贵。尽管许多研究利用AI技术在句级上分析课堂话语,但对整个课堂段落中话语实践的评估仍然缺乏研究。为了弥补这一空白,我们的研究提出了一种基于文本的多模态融合架构,用于评估基于全球教学洞察(GTI)观察协议的地三话语组成部分的质量:话语的性质、提问和解释。首先,我们使用注意力机制来捕获来自转录、音频和视频流的跨模态和同一模态的互作。其次,采用多任务学习方法共同预测这三个组成部分的质量得分。第三,我们将任务形式化为序数分类问题,以考虑评分等级的顺序。通过在包含92节录音数学课的GTI德国数据集上进行的消融研究,展示了这些设计元素的有效性。我们的结果显示,文本模态在接近这一任务时起到了主导作用。结合声学特征增强了模型与人类评分的一致性,整体二次加权κ值得分为0.384,与人类评分者间可靠性(0.326)相当。我们的研究为未来开发自动话语质量评估提供了基础,以支持通过及时反馈多维度话语实践为教师专业发展提供支持。
发布时间: 5/14/2025
查看原文