arXiv 论文列表

作者: Rajat Keshri, Arun George Zachariah, Michael Boone

arXiv:2502.00611v1 类型: cross 摘要：确保代码准确反映研究论文中描述的算法和方法对于维护人工智能研究的信誉并培养对其的信任至关重要。本文介绍了一个新颖的系统，旨在验证代码实现与相应的研究论文中概述的算法和方法的一致性。该系统利用检索增强生成从研究论文和代码库中提取相关细节，并通过大型语言模型进行结构化比较。这种方法提高了代码实现验证的准确性和全面性，同时促进了人工智能研究的透明性、可解释性和可重复性。通过自动化验证过程，该系统减少了人力投入，提升了研究的可信度，并最终推动了代码验证领域的技术进展。

发布时间: 2/4/2025

查看原文

物理导向神经网络中的梯度对齐：一个二次优化视角

作者: Sifan Wang, Ananyae Kumar Bhartari, Bowen Li, Paris Perdikaris

arXiv:2502.00604v1 交叉公告类型摘要：通过复合损失函数进行多任务学习是现代深度学习的基础，然而优化相互竞争的目标依然极具挑战性。我们提出了处理损失项之间方向性冲突的新理论和实践方法，并展示了其在物理知情神经网络（PINNs）中的有效性，尤其是在PINNs中，这些冲突特别难以解决。通过理论分析，我们展示了这些冲突如何限制一阶方法，并表明二阶优化通过隐式梯度对齐自然地解决了它们。我们证明了一种最近提出的拟牛顿方法SOAP高效地近似了海森堡预条件矩阵，这在PINNs中实现了突破性的性能：在10个具有挑战性的PDE基准测试上的最优结果，包括首次成功应用于雷诺数高达10,000的湍流流动，其准确性的提升超过现有方法的2-10倍。我们还引入了一种新颖的梯度对齐分数，该分数将余弦相似性推广到多个梯度上，提供了一种分析优化动力学的实用工具。我们的发现为理解和解决梯度冲突建立了框架，并在超越科学计算的优化领域具有广泛的含义。

发布时间: 2/4/2025

查看原文

RPGBENCH：评估大型语言模型作为角色扮演游戏引擎

作者: Pengfei Yu, Dongming Shen, Silin Meng, Jaewon Lee, Weisu Yin, Andrea Yaoyun Cui, Zhenlin Xu, Yi Zhu, Xingjian Shi, Mu Li, Alex Smola

arXiv:2502.00595v1 通知类型: 交叉摘要: 我们介绍了RPGBench，这是第一个旨在评估大型语言模型（LLMs）作为文本角色扮演游戏（RPG）引擎的基准测试。RPGBench 包含两个核心任务：游戏创作（GC）和游戏模拟（GS）。在GC任务中，LLM必须使用结构化的事件状态表示来构建一个有效且可玩的RPG世界，并确保逻辑连贯性和适当的终止条件。在GS任务中，LLM必须在多轮互动游戏过程中一致地更新状态并遵循游戏规则。为了全面评估性能，RPGBench 结合了客观和主观的评估方法。客观指标验证了事件机制的一致性，并检查变量更新，不需要人工干预。主观评估指标，如内容趣味性、行动质量以及角色扮演能力，则通过一种LLM评判框架进行评估，在这种框架中，强大的LLM对每个候选的输出进行评分。实验证明，最先进的LLM能够产生引人入胜的故事，但在实现一致的、可验证的游戏机制方面经常遇到困难，尤其是在长篇或多场景的情况下。通过将结构化、基于规则的评估与LLM评判相结合，RPGBench 为评估LLM在文本RPG中平衡创造力、连贯性和复杂性提供了新的标准，这为更沉浸式和可控的交互性叙事打开了新的途径。

发布时间: 2/4/2025

查看原文

快速视觉蟒蛇：池化空间维度以加速处理

作者: Saarthak Kapse, Robin Betz, Srinivasan Sivanandan

arXiv:2502.00594v1 Announce Type: cross 摘要：具有选择性扫描（Mamba）的隐状态模型（SSMs）已被改编为高效的视觉模型。与视觉变换器不同，Mamba 通过递归隐藏状态过程实现了标记间交互的一线性复杂性。该顺序处理通过并行扫描算法得到增强，将递归步骤的计算时间从输入标记数（L）的L个顺序步骤减少到$ \log(L) $个并行步骤。在本文中，我们提出了一种进一步减少了视觉Mamba模型中SSM块的计算时间的Fast Vision Mamba（FastVim），同时仍然保持模型性能。通过在Mamba块之间交替沿图像维度聚合标记，我们获得了SSM块中并行步骤数量2$\times$的减少。与基准视觉Mamba模型相比，我们的模型在2048$\times$2048高分辨率图像上的推断速度提高了高达72.5%。我们的实验展示了在图像分类、细胞扰动预测、分割和对象检测等多种任务中，具有显著提升的吞吐量的最先进的性能。代码可在 https://github.com/insitro/FastVim 获取。

发布时间: 2/4/2025

查看原文

联邦学习中鲁棒的知识蒸馏：对抗后门攻击

作者: Ebtisaam Alharbi, Leandro Soriano Marcolino, Qiang Ni, Antonios Gouglidis

arXiv:2502.00587v1 Announce Type: cross 摘要：联邦学习（FL）可以在保护数据隐私的同时，在多个设备之间进行协作模型训练。然而，它仍然容易受到后门攻击的影响，恶意参与者可以破坏全局模型。现有的防御方法受限于对数据异质性（非独立同分布数据）和恶意客户端比例的严格假设，这降低了它们的实际适用性和有效性。为克服这些局限性，我们提出了稳健的知识蒸馏（RKD），这是一种创新的防御机制，可以在不依赖严格假设的情况下增强模型的完整性。RKD 结合了聚类技术和模型选择方法，以识别并过滤掉恶意更新，形成一个可靠的模型组合。然后，它使用知识蒸馏将这些组合的洞察力传递给全局模型。广泛的评估表明，RKD 在有效缓解后门威胁的同时保持了高模型性能，在多种场景中优于当前最先进的防御方法。

发布时间: 2/4/2025

查看原文

对抗黑暗提示：通过提示评估缓解最佳-of-N 暴狱术

作者: Stuart Armstrong, Matija Franklin, Connor Stevens, Rebecca Gorman

arXiv:2502.00580v1 交叉领域类型: cross 摘要: 最近的工作表明，使用重复的随机增强（如大写、标点符号等）进行最佳的N次（BoN）监狱破解对所有的主要大规模语言模型（LLMs）都是有效的。我们发现，BoN论文中成功的全部监狱破解（置信区间为\[99.65\%, 100.00\%\]），以及我们在复制实验中成功的99.8%的监狱破解（置信区间为\[99.28\%, 99.98\%\]），都被我们的“防御黑暗提示”（DATDP）方法阻止了。DATDP算法通过反复利用评估LLM来评估提示是否具有危险或操控行为——不同于其他一些方法，DATDP还明确地寻找监狱破解的尝试——直到生成一个稳健的安全评级。即使在使用较小的LLM（如Claude和LLaMa-3-8B-instruct）来驱动评估时，这一成功仍然持续存在。这些结果表明，尽管语言模型对输入的看似无害的改变非常敏感，它们似乎也能够成功地评估这些输入的危险性。因此，可以廉价地将DATDP的变体添加到生成式AI系统中，以立即显著提高安全性。

发布时间: 2/4/2025

查看原文

从癌症组织病理学生成跨模态基因表达以提高多模态AI预测

作者: Samiran Dey, Christopher R. S. Banerji, Partha Basuchowdhuri, Sanjoy K. Saha, Deepak Parashar, Tapabrata Chakraborti

arXiv:2502.00568v1 宣告类型: cross 摘要: 新兴研究突显了基于人工智能的数字病理学和转录组特征跨模态融合在提高癌症诊断（分级/亚型）和预后（生存风险）预测方面的潜力。然而，在实际的临床环境中，组织病理学仍然是诊断的金标准，而转录组试验在公共卫生医疗系统中很少被请求。借助我们全新的基于扩散的跨模态生成AI模型PathoGen，我们展示了从数字组织病理学合成的基因表达可以高精度（达到最先进的性能）、高确定性（通过符合性覆盖保证）和可解释性（通过分布式注意力图）联合预测癌症分级和患者生存风险。PathoGen的代码可以通过GitHub（https://github.com/Samiran-Dey/PathoGen）供研究社区免费使用。

发布时间: 2/4/2025

查看原文

来自工作场所人类-GenAI增强研究的生成AI素养教训

作者: Aditya Johri, Johannes Schleiss, Nupoor Ranade

arXiv:2502.00567v1 交叉类型: cross 摘要：生成式人工智能（GenAI）正越来越多地成为技术行业工作实践的一部分，并被各行各业所采用。这已经迫切需要更好地了解专业人士如何在实际工作中使用GenAI，以便更好地为学生准备劳动力市场。对GenAI使用情况的改进理解可以帮助提供有关GenAI素养的努力的设计指导，包括如何将其整合到课程和课程体系中，教什么关于GenAI的内容，甚至如何教。本文介绍了一项实地研究，该研究比较了产品开发、软件工程和数字内容创作这三个不同功能领域的GenAI使用情况，以确定GenAI在行业中的当前使用情况。该研究采取了增强人类的方法，重点关注人类认知，并针对三个研究问题展开：GenAI如何增强工作实践；哪些知识是重要的，工人是如何学习的；这对培训未来劳动力有何影响。研究发现GenAI的使用情况存在广泛差异，用户的计算知识水平也参差不齐。在某些行业中，GenAI以高度技术化的方式使用，实现了跨领域的微调模型部署。而在其他行业中，仅使用现成的应用程序生成内容。这意味着关于GenAI需要知道的内容各不相同，所需的背景知识也不同。从教学和学习的角度来看，我们的发现表明，不同水平的GenAI理解需要整合到课程中。从教职员工的角度来看，这项工作对培训教职员工具有重要影响，使他们意识到进展，而且作为早期采用者的学生可能已经在使用GenAI来增强他们的学习实践。

发布时间: 2/4/2025

查看原文

Milmer：一种基于多实例学习的多模态情绪识别框架

作者: Zaitian Wang, Jian He, Yu Liang, Xiyuan Hu, Tianhao Peng, Kaixin Wang, Jiakai Wang, Chenlong Zhang, Weili Zhang, Shuang Niu, Xiaoyang Xie

arXiv:2502.00547v1 交叉公告类型摘要：情绪在人类行为和决策中发挥着至关重要的作用，使情绪识别成为人机交互（HCI）的关键研究领域。本研究通过将面部表情分析与脑电图（EEG）信号相结合，引入了一种新颖的多模态框架-Milmer，以应对情绪识别的挑战。所提出的框架采用基于Transformer的融合方法，有效地将视觉和生理模态整合在一起。该框架由EEG预处理模块、面部特征提取和平衡模块以及跨模态融合模块组成。为了增强视觉特征提取，我们在预训练的Swin Transformer上对情绪相关的数据集进行了微调。此外，引入了跨注意力机制，以确保各模态中的令牌表示平衡，从而实现有效的特征融合。本研究的一个关键创新点是采用了多实例学习（MIL）方法，该方法可以从时间上提取多张面部表情图像中的有意义信息，捕捉到以前研究中经常忽视的关键时间动态。对DEAP数据集进行的广泛实验表明，所提出的框架在四类情绪识别任务中的分类准确率达到96.72%，进一步的消融研究验证了每个模块的贡献，突显了高级特征提取和融合策略在提高情绪识别性能中的重要性。我们的代码可在https://github.com/liangyubuaa/Milmer获取。

发布时间: 2/4/2025

查看原文

将频率指导集成到多源领域泛化中进行轴承故障诊断

作者: Xiaotong Tu, Chenyu Ma, Qingyao Wu, Yinhao Liu, Hongyang Zhang

arXiv:2502.00545v1 类别: cross 摘要: 近期泛化的故障诊断研究有效应对了未见工作条件下的分布偏移。它们大多数主要侧重于通过特征级方法学习域不变表示。然而，未见域的不断增加可能导致域不变特征包含实例级的虚假相关性，这会影响之前模型的泛化能力。为解决这些限制，我们提出了基于傅里叶变换的增强重建网络，即FARNet。该方法受到观察的启发，即傅里叶相位分量和幅度分量保留了信号的不同语义信息，这些信息可以应用于域增强技术。该网络包括一个幅度频谱子网络和一个相位频谱子网络，依次减少了源域和目标域之间的差异。为了构建更有鲁棒性的泛化模型，我们在频域中采用了一种多源域数据增强策略。具体而言，引入了一个频域-空间相互作用模块（FSIM）来处理全局信息和局部空间特征，促进两个子网络之间的表示学习。为了与传统的三重损失相比细化我们模型输出的决策边界，我们提出了流形三重损失以增强泛化能力。通过在CWRU和SJTU数据集上的广泛实验，FARNet展示了有效的性能，并在基准测试中取得了优于当前跨域方法的结果。

发布时间: 2/4/2025

查看原文