LLM2D

arXiv 论文列表

作者: Gaetano Signorelli, Michele Lombardi
arXiv:2504.08415v1 Announce Type: cross 摘要:确保机器学习模型输出满足约束条件是在许多应用中至关重要的一环,尤其是在安全性要求极高的领域。现代方法主要依赖于训练时的惩罚方法,但这些方法并不能保证完全避免约束违反;或者依赖于特定的约束模型架构(例如,用于单调性);或者依赖于输出投影,这需要解决一个可能计算成本高昂的优化问题。我们提出了一种新的方法——超球面约束表示法,该方法可以通过一种不同的表示系统在凸且有界的可行区域(一般化到星型域)中强制约束。该方法将欧几里得坐标转换为与受限区域相关的超球面坐标,这些坐标只能表示可行点。在合成数据集和真实世界数据集上的实验表明,我们的方法在预测性能上与其它方法相当,可以保证100%的约束满足,并且在推理时计算成本最低。
发布时间: 4/14/2025
查看原文
作者: Dawei Zhou, Suzhi Gang, Decheng Liu, Tongliang Liu, Nannan Wang, Xinbo Gao
arXiv:2504.08411v1 类型: cross 摘要:视觉操纵的恶意应用已经对许多领域的用户的安全和声誉造成了严重的威胁。为了解决这些问题,在过去几年中,对抗噪声基于的防御方法受到了热烈的研究。然而,“仅数据”方法倾向于在低级特征空间而非高级语义空间中扭曲假样本,这导致其在抵御恶意操纵方面的局限性。前沿研究表明,将深度学习中的知识结合起来可以产生可靠且可泛化的解决方案。受此启发,我们提出了一种知识引导的对抗防御(KGAD)方法,以积极促使恶意操纵模型输出语义模糊的样本。具体来说,在生成对抗噪声的过程中,我们专注于在领域特定知识层面上构建重要的语义混淆,并利用与视觉感知密切相关的度量来替代一般的像素级度量。生成的对抗噪声可以通过触发知识引导和感知相关的干扰来积极地干扰恶意操纵模型的假样本。为了验证所提出方法的有效性,我们在人类感知和视觉质量评估的定性和定量实验中进行了验证。两个不同任务的结果都显示,我们的防御方法提供了比最先进的方法更好的保护,并且具有出色的泛化能力。
发布时间: 4/14/2025
查看原文
arXiv:2504.08399v1 交叉公告类型: 摘要:对大型语言模型(LLMs)的人格特质进行评估的兴趣正在增长。然而,基于自我报告问卷的传统人格评估可能会因固有的偏见和元知识污染而无法准确捕捉到它们的真实行为细微差别。本文介绍了一种新颖的多观察者框架,该框架借鉴了心理学中的信息员报告方法。与仅依赖自我评估不同,我们的方法采用多个观察者代理,并配置了特定的关系背景(例如,家庭、朋友或工作场所),以模拟与目标LLM的互动情景。这些观察者与目标LLM进行对话,并随后对五大人格维度进行评分。我们的实验表明,LLMs在自我报告的人格评级中存在系统性偏差。此外,汇总观察者的评分有效地减少了非系统性偏差,并且使用5-7个观察者可以实现最优可靠性。研究结果突显了关系背景对人格感知的重大影响,并证明多观察者范式能更稳健且情境敏感地评估LLM的人格特质。
发布时间: 4/14/2025
查看原文
作者: Pepita Barnard, Maria J Galvez Trigo, Dominic Price, Sue Cobb, Gisela Reyes-Cruz, Gustavo Berumen, David Branson III, Mojtaba A. Khanesar, Mercedes Torres Torres, Michel Valstar
arXiv:2504.08395v1 交互类型:横跨 摘要:人类之间的互动(HHI)中的心理模型和期望对人形机器人(HRI)与家用机器人的互动提供了指导。为了通过改进家用机器人的对话和行为来简化合作家务任务,我们设计了一个研究来理解人们在失败发生时是如何沟通的。为了识别自然交流的模式,特别是对机器人失败的响应,参与者使用自然语言和手势指示Laundrobot将洗衣物放入篮子。Laundrobot要么无误运行,要么在两种错误模式中的一种运行。参与者没有被告知Laundrobot会充当人类角色,也没有提供关于错误模式的信息。对42名参与者的视频分析发现,交流模式包括笑声、口头表达和填充词,如“哦”和“好”等,还包括一系列的身体动作,如触碰自己的脸,使用静态手指指向,以及惊讶的表情。当错误发生时,采用的常见策略包括纠正和教学、承担责任以及表现出挫败感。对错误的反应强度随着暴露程度的增加而减弱,这可能表明接受了或接受了现状。一些参与者使用与与智能助手等其他技术交流相似的策略。拟人化的机器人可能并不适合这种任务。Laundrobot的外观、形态、声音、能力和恢复策略可能对其认知产生了影响。一些参与者表示,Laundrobot的实际技能与预期不符,这使得难以预测和了解Laundrobot的理解程度。然而,专家知识、个性和文化差异可能会影响反应,但这些并未进行评估。
发布时间: 4/14/2025
查看原文
作者: Junliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian
arXiv:2504.08388v1 Announce Type: cross 摘要:世界建模是使智能代理能够有效与人类交互并在动态环境中操作的关键任务。在这项工作中,我们提出了MineWorld,这是一个基于 Minecraft 的实时交互式世界模型,Minecraft 是一个开放Ended 沙盒游戏,常被用作世界建模的通用测试平台。MineWorld 由一个视觉动作自回归变换器驱动,该变换器接受配对的游戏场景和相应动作作为输入,并根据这些动作生成后续的新场景。具体来说,通过将视觉游戏场景和动作分别用图像标记器和动作标记器转换为离散 token ID,我们将两种 ID 的连接体作为模型输入组成。然后,通过下一步 token 预测对模型进行训练,使其同时学习游戏状态以及状态和动作之间的条件的丰富表示。在推理过程中,我们开发了一种新颖的并行解码算法,该算法可以同时预测每一帧中的空间冗余 token,让不同规模的模型每秒生成 4 到 7 帧,从而使得与游戏玩家的实时互动成为可能。在评估过程中,我们提出了新的指标来评估生成新场景的视觉质量和动作跟随能力,这对于世界模型来说是至关重要的。我们全面的评估结果显示,MineWorld 的效果优于显著领先于目前最先进的开源扩散型世界模型。代码和模型已经发布。
发布时间: 4/14/2025
查看原文
作者: Arman Khaledian, Amirreza Ghadiridehkordi, Nariman Khaledian
arXiv:2504.08386v1 宣告类型: cross 摘要:检索增强生成(RAG)作为一种将大型语言模型与外部知识源对接的强大范式,已经取得成果,提高了代理响应的精确度。然而,高维度的语言模型嵌入,通常在数百到数千维度之间,会带来存储和延迟方面的可扩展性挑战,尤其是在处理大规模金融文本语料库时更是如此。本文探讨了使用主成分分析(PCA)来减少嵌入维度的方法,从而在不牺牲大量准确性的情况下缓解计算瓶颈。我们使用一个真实世界的数据集,并在全维度嵌入和PCA压缩嵌入下比较了不同的相似性和距离度量。结果显示,将向量从3072维减少到110维,检索操作的速度可提高高达60倍,索引尺寸减少了约28.6倍,相对人工标注的相似性得分,相关性度量仅略有下降。这些发现证明了PCA压缩对于平衡检索准确性和资源效率提供了可行的解决方案,对于Zanista AI的《Newswitch》平台等实时系统尤为重要。最终,我们的研究强调了通过利用经典降维技术来扩展RAG架构在金融和交易等知识密集型应用中的可行性,以优化速度、内存效率和准确性。
发布时间: 4/14/2025
查看原文
作者: Markus Flicke, Glenn Angrabeit, Madhav Iyengar, Vitalii Protsenko, Illia Shakun, Jovan Cicvaric, Bora Kargi, Haoyu He, Lukas Schuler, Lewin Scholz, Kavyanjali Agnihotri, Yong Cao, Andreas Geiger
arXiv:2504.08385v1 交叉类型: 摘要:Scholar Inbox 是一个新推出的开放获取平台,旨在解决研究人员因科学文献大量增加而难以保持更新的挑战。我们提供了个性化推荐、来自开放存取档案(arXiv、bioRxiv 等)的持续更新、视觉论文摘要、语义搜索以及一系列工具,以简化研究工作流并促进开放研究访问。该平台的个性化推荐系统是基于用户评分进行训练的,确保推荐内容符合个体研究人员的兴趣。为了进一步提升用户体验,Scholar Inbox 还提供了科学地图,可以全面概述跨领域的研究,使用户能够轻松探索特定主题。我们使用该地图来解决推荐系统中常见的冷启动问题,以及采用一种逐步提示用户对选定论文进行评分的积极学习策略,使系统能够快速了解用户偏好。我们在一个包含80万用户评分的新型数据集上评估了推荐系统的质量,并将其公开发布,同时通过广泛的用户研究进行了评估。https://www.scholar-inbox.com/
发布时间: 4/14/2025
查看原文
arXiv:2504.08371v1 交叉公告类型:cross 摘要:被动水下声学领域的信号分离很大程度上依赖于深度学习技术来隔离船舶辐射噪声。然而,该领域常用的分离网络通常来源于语音分离应用,可能未能充分考虑水下声学的独特方面,例如不同传播介质的影响、信号频率和调制特性。这种忽略突显了需要针对水下声波传播的特定特征进行定制的方法的需求。本研究提出了一种新的时域网络,通过采用双路径模型和特征解耦方法来分离船舶辐射噪声。混叠信号的特征被转换到一个空间中,在这里它们表现出更大的独立性,并且每个维度的重要性被解耦。随后,在分离层中采用了局部和全局注意力机制的融合。广泛的比较显示,与其它流行的网络模型相比,该方法在 ShipsEar 和 DeepShip 数据集上的性能更加有效。
发布时间: 4/14/2025
查看原文
arXiv:2504.08359v1 类别:交叉 摘要:许多研究通过使用代理指标,如内存使用量、FLOPs 和推理延迟来估算能耗,假定减少这些指标会降低神经网络的能耗。然而,本文采取了不同的方法,通过引入一种直接关注识别能耗最小化但保持可接受准确性的架构的高效神经架构搜索(NAS)方法来挑战这一假设。不同于以往主要针对视觉和语言任务的方法,这里提出的方法特别针对表格数据集。值得注意的是,这种方法建议的最佳架构与传统 NAS 推荐的架构相比,能耗最多可降低 92%。
发布时间: 4/14/2025
查看原文
arXiv:2504.08335v1 Announce Type: cross 摘要:利用信息论中的熵不等式,我们提供了条件高斯分布与具有可逆协方差矩阵的高斯分布之间的总变差和2- Wasserstein距离的新界。我们应用我们的结果来量化在初始化为高斯分布且内部层的大小趋于无穷大时,随机初始化的全连接神经网络及其在有限数量输入处的导数(评估结果)收敛到高斯分布的速度。我们的结果对激活函数的假设较为温和,并允许在多种距离中恢复最优的收敛速率,从而改进并扩展了Basteri和Trevisan(2023)、Favaro等人(2023)、Trevisan(2024)和Apollonio等人(2024)的研究成果。我们主要工具之一是Hanin(2024)建立的量化 cumulant 估计。作为示例,我们将我们的结果应用于神经网络及其导数(在有限数量输入处评估结果)的后验贝叶斯后验律与相应高斯极限的后验律之间的总变差距离的界。这提供了Hron等人(2022)提出的后验中心极限定理的量化版本,并将Trevisan(2024)的多项估计扩展到总变差度量中。
发布时间: 4/14/2025
查看原文