LLM2D

arXiv 论文列表

作者: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
arXiv:2502.07445v1 交叉类型: cross 摘要: 大型语言模型(LLMs)通常在公开基准测试中表现出色,但这些高分可能掩盖了模型对数据集特定表面特征的过度依赖,而不是真正的语言理解能力。我们引入了叉尾benchmark过拟合检测器(C-BOD),这是一种元评估框架,通过参数变换系统地扭曲基准提示,并检测LLMs的过拟合。通过保留输入的语义内容和标签同时重新表述输入,C-BOD揭示了模型性能是否由记忆化的模式驱动。在使用26个领先的LLM对MMLU基准进行评估时,我们的方法在适度的扰动下揭示了平均2.15%的性能下降,其中20个模型在统计学上表现出显著差异。值得注意的是,基线准确率较高的模型在扰动下的性能差异更大,而较大的LLMs通常对重新表述更为敏感,这表明这两种情况可能过度依赖于固定的提示模式。相比之下,Llama家族及基线准确率较低的模型在扰动下的表现下降不显著,这表明其对外在线索的依赖减少。此外,C-BOD的基准数据和模型无关设计使其可以轻松集成到训练管道中,促进更稳健的语言理解。我们的发现挑战了该领域的研究者不仅要关注排行榜上的得分,还应优先考虑LLM评估中的弹性和泛化能力。
发布时间: 2/12/2025
查看原文
作者: Ko Watanabe, Nico F\"orster, Shoya Ishimaru
arXiv:2502.07441v1 交叉学科类型 摘要:个人空间,也称为周围空间,对人体的社会互动至关重要,影响舒适度、沟通和社交压力。估算和尊重个人空间对于提升人机交互(HCI)和智能环境是必不可少的。由于个体特征、文化背景和情境因素,个人空间偏好各不相同。先进的多模态传感技术,包括眼动追踪和腕带传感器,提供了开发能够动态适应用户舒适水平的适应性系统的机遇。整合生理和行为数据能够更深入地理解空间互动。本研究开发了一种基于传感器的模型来估算舒适的个人空间,并识别影响空间偏好的关键特征。我们的研究结果表明,多模态传感器,尤其是眼动追踪和生理腕带数据,能够有效预测个人空间偏好,其中眼动追踪数据的作用更为显著。一项涉及受控人类互动的实验研究表明,基于Transformer的模型在估计个人空间方面实现最高的预测准确性(F1分数:0.87),眼动追踪特征,如注视点和瞳孔直径,是最显著的预测因子,而腕带传感器的生理信号则贡献较少。这些结果突显了在适应性环境中通过人工智能驱动的个人化社交空间的潜力,表明多模态传感可以利用来开发优化工作场所、教育机构和公共场所空间布局的智能系统。未来的工作应探索更大规模的数据集、现实世界的应用以及额外的生理标记,以提高模型的稳健性。
发布时间: 2/12/2025
查看原文
作者: Alan Saji (Nilekani Centre at AI4Bharat), Jaavid Aktar Husain (Singapore University of Technology and Design), Thanmay Jayakumar (Nilekani Centre at AI4Bharat, Indian Institute of Technology Madras, India), Raj Dabre (Nilekani Centre at AI4Bharat, Indian Institute of Technology Bombay, India), Anoop Kunchukuttan (Nilekani Centre at AI4Bharat, Microsoft, India), Mitesh M. Khapra (Nilekani Centre at AI4Bharat, Indian Institute of Technology Madras, India), Ratish Puduppully (IT University of Copenhagen)
arXiv:2502.07424v1 类别: 交叉学科 摘要: 尽管大型语言模型(LLMs)主要是在以英语为中心的语料库上进行训练,但它们在多种语言通用上表现出令人瞩目的能力。一个基本问题由此产生:LLMs 是如何实现如此强大的多语言能力的?对于非拉丁字母体系的语言,我们研究了罗马化的作用——即使用拉丁字符表示非拉丁字母体系——作为多语言处理中的桥梁。通过机制可解释性技术,我们分析了下一个标记生成过程,发现中间层经常以罗马化形式表示目标词,然后转变为本地书写体系,我们称这种现象为潜在罗马化。此外,通过激活补丁实验,我们证明LLMs在本地书写体系和罗马化书写体系中以类似方式编码语义概念,这表明存在共享的潜在表示。此外,在翻译到非拉丁语言时,我们的发现揭示了当目标语言以罗马化形式呈现时,其表示在模型的层中比本地书写体系出现得更早。这些见解加深了对LLMs中多语言表示的理解,并指出罗马化在促进语言迁移方面隐含的作用。我们的工作为改进多语言语言建模和可解释性提供了新的方向。
发布时间: 2/12/2025
查看原文
arXiv:2502.07408v1 宣告类型:交叉 摘要:只需翻转深度神经网络(DNNs)中少量参数的符号位,即可导致其灾难性破坏。我们提出了一种数据免费、轻量级的方法 Deep Neural Lesion(DNL),这种方法能够定位这些关键参数并触发巨大的准确率下降。我们在多种计算机视觉模型和数据集上验证了其有效性。该方法不需要任何训练数据或优化,并可以通过基于软件、固件或硬件的常见攻击向量来实现。一种增强版本通过单次前向和反向传播进一步扩大了DNL零次方法的破坏程度。在ImageNet上翻转ResNet50中仅仅两个符号位,准确率会降低99.8%。我们还展示了有选择性地保护一小部分易受攻击的符号位可以为这类攻击提供实际的防御手段。
发布时间: 2/12/2025
查看原文
作者: Sahana Yadnakudige Subramanya, Ko Watanabe, Andreas Dengel, Shoya Ishimaru
arXiv:2502.07404v1 宣布类型: cross 摘要:人工介入循环(HITL)框架越来越多地被认为可以通过结合机器预测与人类专长来提高情绪估计系统中的注释准确性。本研究重点在于将一款高性能的基于图像的情绪模型整合到HITL注释框架中,评估人机互动的协作潜力,并识别成功合作的关键心理和实际因素。具体而言,我们研究了不同模型可靠性和认知框架如何影响人在HITL系统中的信任、认知负荷和注释行为。我们证明了模型可靠性和心理框架显著影响注释者的信任、参与度和一致性,提供了优化HITL框架的见解。通过三项实验场景(基础模型可靠性S1、伪造错误S2和由负面框架引入的认知偏见S3)并涉及29名参与者,我们分析了行为和定性数据。可靠的预测在S1中产生了高度信任和注释一致性,而在S2中不可靠的输出则导致了更高的批判性评价,但也增加了挫败感和响应的变化性。在S3中,负面框架揭示了认知偏见如何影响参与者把模型视为更具相关性和准确性的感知,即使关于其可靠性的信息是不准确的。这些发现强调了可靠的人工智能输出和心理因素在塑造有效的人机协作中的重要性。通过利用人类监督和自动化系统的长处,本研究建立了一个可扩展的HITL框架用于情绪标注,并为进一步应用于自适应学习和人机交互奠定基础。
发布时间: 2/12/2025
查看原文
arXiv:2502.07401v1 Announce Type: 横向 摘要:本文通过设计和发展一门本科课程的多模态聊天机器人,探讨了生成式AI(GenAI)在高等教育领域的机遇。借助ChatGPT API进行细腻的文字交互,并利用Google Bard进行高级图像分析和图表到代码的转换,展示了GenAI在解决广泛教育查询方面的潜力。此外,该聊天机器人还提供了一个基于文件的分析器,供教师使用,通过情感和情绪分析提供深入的学生反馈洞察,并使用关键指标总结课程评估。这些组合突显了多模态对话AI在提高教学和学习过程中的关键作用,有望在教育适应性、参与度和反馈分析方面取得重大进展。通过展示一个实用的网络应用,本研究强调了将GenAI技术整合到教育环境中以促进更动态和响应性强的教育环境的重要性,最终有助于提高教育成果和教学策略。
发布时间: 2/12/2025
查看原文
作者: Daisuke Kimura, Naoko Tajima, Toshiya Okazaki, Shun Muroga
arXiv:2502.07400v1 宣布类型: 交叉 摘要: 在这项研究中,我们提出了可解释的多模态机器学习(EMML),该方法结合了因子分析用于特征提取的多种数据分析方法与可解释AI(XAI),以探讨从水分散液制备的碳纳米管(CNT)纤维材料属性的机制。这种方法是揭示涉及多阶段制造条件和多尺度结构的材料属性机制的强大手段。因此,对于我们的案例,这种做法有助于我们理解不同加工步骤和各种尺度结构如何影响CNT纤维的最终属性。分析聚焦于从纳米尺度到宏观尺度的结构,包括CNT分散液的聚集大小分布以及CNT的有效长度。此外,由于某些类型的数据难以使用标准方法进行解释,复杂数据分布被通过负矩阵分解(NMF)分析以提取关键特征来确定结果。使用SHapley Additive exPlanations (SHAP)的贡献分析表明,小而均匀分布的聚集物对于提高断裂强度至关重要,而具有长有效长度的CNT是增强电导率的重要因素。该分析还确定了这些关键因素的阈值和趋势,以帮助定义优化CNT纤维属性所需的具体条件。EMML不仅限于CNT纤维,还可以应用于从纳米材料衍生的其他材料的设计,使其成为开发多种先进材料的有效工具。该方法为推进数据驱动的材料研究提供了基础。
发布时间: 2/12/2025
查看原文
作者: Rundong Liu, Andre Frade, Amal Vaidya, Maxime Labonne, Marcus Kaiser, Bismayan Chakrabarti, Jonathan Budd, Sean Moran
arXiv:2502.07399v1 交叉公告类型 摘要:本文介绍了CodeQUEST,这是一个新颖的框架,利用大型语言模型(LLMs)在多个维度上逐步评估和提高代码质量,包括可读性、可维护性、效率和安全性。该框架分为两个主要组成部分:评估器(Evaluator),它在十个维度上评估代码质量,提供定量评分和定性总结,以及优化器(Optimizer),基于评估器的反馈逐步改进代码。我们的研究显示,CodeQUEST能够有效地和稳健地评估代码质量,其评估结果与现有的代码质量指标高度一致。通过使用精选的Python和JavaScript示例数据集进行一系列实验,CodeQUEST在代码质量上取得了显著提升,达到了52.6%的平均相对百分比改进。框架的评估结果与一组代理度量标准(包含Pylint评分、Radon可维护性索引和Bandit输出日志)进行了验证,显示了显著的相关性。这突显了LLMs在自动化代码质量评估和改进过程中的潜力,代表了提高软件开发实践的重大进展。框架的代码实现可以在以下链接找到:https://github.com/jpmorganchase/CodeQuest。
发布时间: 2/12/2025
查看原文
作者: Ai Chen, Yuxu Lu, Dong Yang, Junlin Zhou, Yan Fu, Duanbing Chen
arXiv:2502.07351v1 交叉类型: cross 摘要:显著目标检测(SOD)在视觉驱动的测量系统(VMS)中发挥着关键作用,有助于图像中原关键视觉元素的检测和分割。然而,如白天的雾霾、低光照以及夜间雾霾等不良成像条件严重地降低了图像质量,并且加剧了SOD的过程。为了解决这些挑战,我们提出了一种面向多任务的夜间雾霾成像增强器(MToIE),它整合了三项任务:白天去雾霾、低光照增强和夜间去雾霾。MToIE 包含了两个关键的创新组件:首先,网络采用面向任务的节点学习机制来处理三种特定的降解类型:白天雾霾、低光照和夜间雾霾条件,并嵌入了自我注意模块以在夜间成像中提升其性能。其次,多感受野增强模块通过三个具有不同扩张率的并行深度可分离卷积分支高效地提取多尺度特征,捕获全面的空间信息,同时最小化计算开销。为了确保最佳的图像重建质量和视觉特性,我们建议使用混合损失函数。不同天气/成像条件下的广泛实验表明,MToIE 超越了现有方法,在各种成像场景中显著提高了视觉系统的准确性和可靠性。代码可在 https://github.com/Ai-Chen-Lab/MToIE 获取。
发布时间: 2/12/2025
查看原文
作者: Alfonso Gij\'on, Simone Eiraudo, Antonio Manjavacas, Daniele Salvatore Schiera, Miguel Molina-Solana, Juan G\'omez-Romero
arXiv:2502.07344v1 宣布类型: cross 摘要:风能部门的迅速发展凸显了优化涡轮机操作和通过早期故障检测系统确保有效维护的迫切需求。尽管传统的经验和基于物理的模型可以根据风速提供发电量的大致预测,但它们往往未能捕捉到其他输入变量与最终发电量之间复杂的非线性关系。基于数据的机器学习方法为通过利用大量数据改进风力涡轮机建模提供了颇有前景的途径,可以提高预测准确性,但往往以降低可解释性为代价。在这项研究中,我们提出了一种混合半参数模型,结合了两种方法的优点,并应用于一个配备有四台涡轮机的风电场的数据集。该模型将一个基于物理的子模型与一个非参数子模型相结合,提供了一个合理的发电量近似值,而这个非参数子模型则以更广泛的变量为基础进行训练,以涵盖基于物理部分未能捕捉到的现象。该混合模型在预测准确性上比基于物理的模型提高了37%。为了提高可解释性,我们使用SHAP值来分析输入特征对非参数子模型输出的影响。此外,使用形式化分位数回归方法量化了预测不确定性。这些技术的结合,加上基于物理的参数子模型的基础,提供了一个灵活、准确且可靠的框架。最终,这项研究为评估未建模变量对风力涡轮机发电量的影响打开了大门,为进一步优化提供了依据。
发布时间: 2/12/2025
查看原文