arXiv 论文列表

作者: Mohammadmahdi Honarmand, Onur Cezmi Mutlu, Parnian Azizian, Saimourya Surabhi, Dennis P. Wall

arXiv:2503.23257v1 Announce Type: cross 摘要：在不受约束的、"野外"环境中进行鲁棒面部表情识别仍然具有挑战性，因为训练和测试分布之间存在显著的变化。测试时适应（TTA）通过在推理期间适应预训练模型而不需要标记的测试数据，提供了一种有前景的解决方案。然而，现有的TTA方法通常依赖于手动选择要更新的参数，这可能导致适应效果不佳和高昂的计算成本。本文提出了一种新的费舍尔驱动的选择性适应框架，该框架能够动态地识别并仅更新基于费歇尔信息量化的重要性最高的模型参数。通过将这种原则性的参数选择方法与时空一致性约束相结合，我们的方法能够在视频基础上的面部表情识别中实现高效且有效的适应。在具有挑战性的AffWild2基准测试上进行的实验表明，我们的方法显著超越了现有的TTA方法，在仅调整22,000个参数的情况下，F1分数提高了7.7%，这比可比方法少得多。进一步的消融研究还表明，可以通过最少的数据有效地估计参数的重要性，仅采样1-3帧即可获得显著的性能提升。所提出的方法不仅提高了识别精度，还大大减少了计算开销，使得测试时适应更适用于实际的有情感计算应用。

发布时间: 4/1/2025

查看原文

加密提示：防止未经授权操作的LLM应用程序安全

作者: Shih-Han Chan

arXiv:2503.23250v1 安全威胁类型: 横向摘要: 像提示注入攻击这样的安全威胁对集成大型语言模型（LLMs）的应用程序构成了重大风险，可能导致未经授权的操作，例如API滥用。与以往那些以尽力检测这些攻击的方法不同，本文介绍了一种新颖的方法，在每个用户提示后面附加加密提示，并嵌入当前权限。在执行任何由LLM生成的操作（如API调用）之前，验证这些权限。如果权限不足，LLM的操作将不会被执行，确保了安全性。这种方法保证了只有在当前LLM权限范围内才能进行的操作才能继续进行。在对抗性提示被引入以误导LLM的情况下，此方法通过在加密提示中验证权限来确保不会执行任何未经授权的LLM操作，从而有效地缓解了提示注入攻击等引发LLM生成有害操作的威胁。

发布时间: 4/1/2025

查看原文

非普通意识的模拟

作者: Khalid M. Saqr

arXiv:2503.23245v1 声明类型：交叉摘要：非普通意识的符号架构在认知科学和人工智能中仍然很大程度上未被探索。虽然传统的模型更侧重于理性的连贯性，但精神病药物所引起的改变状态则揭示了独特的符号制度，这些制度特征包括递归类比、自我瓦解和语义不稳定。我们介绍了一种称为Glyph的生成性符号界面，旨在模拟类似迷幻蘑菇的认知符号模式。Glyph并不建模感知或情态，而是通过递归重新进入、比喻调节和熵尺度不稳定来实施符号变换——这些操作被形式化于张量语言框架之中。与基准GPT-4o的实验性比较表明，无论是在何种符号提示类别下，Glyph都一致生成高熵的、类比饱和的和自我瓦解的语言。这些结果验证了非普通认知模式的出现，并支持通过语言模拟改变意识的新范式。Glyph为符号认知建模、探索比喻理论以及编码递归改变的语义空间中的知识提供了新的途径。

发布时间: 4/1/2025

查看原文

评估LLM注解如何代表有争议话题的多样观点

作者: Megan A. Brown, Shubham Atreja, Libby Hemphill, Patrick Y. Wu

arXiv:2503.23243v1 标签类型: 交叉学科摘要：研究人员提出了使用生成型大语言模型（LLMs）来标记数据，适用于研究和实际应用两种场合。这些文献强调了LLMs相对于其他自然语言模型的优越性能，指出LLMs通常在标准指标（如准确率、精确率、召回率和F1分数）上表现更好。然而，先前的研究也指出了语言模型中存在的偏见，特别是在潜在有毒内容等领域存在争议的议题上。这种偏见可能导致LLMs应用的标签过度偏向于主流群体，而与更广泛的观点集不一致。在本文中，我们评估了LLMs在这些争议任务上如何表示多元观点。在四个数据集上的四个标注任务中，我们展示了LLMs在基于人口统计学的分歧上并未表现出显著的分歧。相反，模型、提示以及人类标注者在标注任务上的分歧，对LLMs的一致性预测更为重要。我们的研究结果表明，在使用LLMs注释数据时，对某些群体观点的代表性不足并不是一个重大问题。我们最后讨论了这些研究结果对未来研究人员和实践者的意义。

发布时间: 4/1/2025

查看原文

超越猜测：测量LLM生成文本在多语言虚假信息中的日益增多的存在

作者: Dominik Macko, Aashish Anantha Ramakrishnan, Jason Samuel Lucas, Robert Moro, Ivan Srba, Adaku Uchendu, Dongwon Lee

arXiv:2503.23242v1 交叉公告类型: cross 摘要：大型语言模型（LLMs）日趋复杂以及生成的多语言文本质量提高，引发了人们对潜在信息误导滥用的担忧。尽管人类难以区分LLM生成的内容与人类撰写的文本，但关于其影响的学术讨论仍然分歧严重。一些人认为由于自然生态系统限制，过分担心的影响被夸大了，而另一些人则认为特定的“长尾”情境面临被忽视的风险。我们的研究通过提供LLM在最新现实世界信息误导数据集中的首个实证证据，记录了ChatGPT发布后机器生成内容的增加，并揭示了跨语言、平台和时间段的关键模式。

发布时间: 4/1/2025

查看原文

基于上下文信息的复杂数据传输任务代码补全：使用大规模语言模型

作者: Hangzhan Jin, Mohammad Hamdaqa

arXiv:2503.23231v1 Announce Type: cross 摘要：与代码生成不同，代码补全专注于将新的代码行或代码块集成到现有的代码库中。这个过程需要深入了解周围的上下文，例如变量作用域、对象模型、API 调用和数据库关系，以产生准确的结果。这些复杂的上下文依赖关系使代码补全成为一个特别具有挑战性的问题。当前的模型和方法往往无法有效地整合这些上下文，导致准确性较低（约为30%）的代码补全结果。对于数据转移这类高度依赖特定关系和数据结构的任务，接受率甚至会更低。这项研究引入了CCCI，一种专门针对数据转移任务生成上下文感知代码补全的新方法。通过将数据库表关系、对象模型和库细节等上下文信息整合到大型语言模型（LLMs）中，CCCI 提高了代码补全的准确性。我们使用了来自819个工业环境操作脚本的289个Java片段进行评估。结果表明，CCCI 达到了49.1%的构建通过率和41.0%的CodeBLEU分数，与那些在复杂任务完成方面经常出现问题的先进方法相当。

发布时间: 4/1/2025

查看原文

合成艺术生成与DeepFake检测： jamsini roy 风格数据集研究

作者: Kushal Agrawal, Romi Banerjee

arXiv:2503.23226v1 类别: 交叉学科摘要：生成式人工智能与艺术的交集是一个充满魅力的研究领域，既带来了激动人心的机会，也带来了显著的挑战，尤其是在识别合成艺术品方面。这项研究采用了一个独特的方法，通过研究基于扩散的生成模型在印度艺术中的应用，特别是专注于詹明尼·罗伊的独特风格。为了探索这一领域，我们对Stable Diffusion 3进行了微调，并使用了ControlNet和IPAdapter等技术来生成逼真的图像。这使得我们能够创建一个新的数据集，包括真实的和AI生成的艺术品，这对于详细分析这些模型能够生成的内容至关重要。我们采用了各种定性和定量方法，如频域评估和自相关度量，来揭示合成图像与真迹之间的微妙差异。最近的研究得出的关键结论之一是，现有的检测深度伪造的方法面临重大挑战，特别是当深度伪造艺术品质量高且针对特定文化背景定制时。这突显了当前检测技术的重要空白，尤其是考虑到上述挑战，高质量且具有文化特异性的深度伪造难以检测。这项工作不仅揭示了生成模型不断增加的复杂性，还为未来旨在有效检测合成艺术的研究奠定了关键基础。

发布时间: 4/1/2025

查看原文

Aurelia：音频-视觉LLM的测试时推理蒸馏

作者: Sanjoy Chowdhury, Hanan Gani, Nishit Anand, Sayan Nag, Ruohan Gao, Mohamed Elhoseiny, Salman Khan, Dinesh Manocha

arXiv:2503.23219v1 类型: cross 摘要：最近在推理优化方面的进步极大地增强了大型语言模型（LLMs）的性能。然而，现有工作未能解决音频-视觉场景的复杂性，突显了进一步研究的必要性。在本文中，我们引入了AURELIA，一个新的基于演员-评论家的音频-视觉（AV）推理框架，在测试时将结构化的、逐步的推理提炼到AVLLMs中，从而提高它们处理复杂多模态输入的能力，而无需额外的训练或微调。为了进一步提高AVLLM的推理技能，我们提出了AVReasonBench，这是一个具有挑战性的基准，包含4500个音频-视觉问题，每个问题都配有详细的逐步推理。我们的基准涵盖了六项不同的任务，包括AV-GeoIQ，该任务评估结合地理和文化知识的AV推理。在AVReasonBench上评估18个AVLLM揭示了它们在多模态推理能力方面的重大局限性。使用AURELIA，我们达到了高达100%的相对改进，证明了其有效性。这一性能提升突显了推理增强数据生成在推动实际应用中的AVLLMs方面的潜力。我们的代码和数据将在此公开发布：https://github.com/schowdhury671/aurelia。

发布时间: 4/1/2025

查看原文

在实际生活辅助生活环境中的人体动作识别

作者: Vincent Gbouna Zakka, Zhuangzhuang Dai, Luis J. Manso

arXiv:2503.23214v1 交叉公告类型摘要：随着老龄人口的增加以及他们倾向于保持独立，居住在自己家中以维持这种独立的需求也日益增长。这需要采取积极的策略来确保安全并提供支持。辅助生活技术（AAL）已经出现，旨在通过在家庭环境中提供连续监测和支持，使人们能够在家中安度晚年。在AAL技术中，动作识别在解释人类活动和检测跌倒、行动能力下降或异常行为等方面起着关键作用，这些行为可能预示着健康状况的恶化。然而，在实际的AAL应用中进行动作识别面临挑战，包括遮挡、噪声数据以及对实时性能的需求。尽管在准确性、抗噪声性和计算效率方面取得了进展，但在这三者之间找到一个平衡仍然是一个挑战。为了解决这一挑战，本文介绍了Robust and Efficient Temporal Convolution网络(RE-TCN)，该网络包括三个方面的主要元素：自适应时间加权（ATW）、深度可分离卷积（DSC）以及数据增强技术。这些元素旨在增强模型的准确性，提高其对噪声和遮挡的鲁棒性，并在现实世界中的AAL上下文内提升计算效率。在准确性、抗噪声性和遮挡鲁棒性方面，RE-TCN优于现有模型，并已在四个基准数据集中进行了验证：NTU RGB+D 60、Northwestern-UCLA、SHREC'17 和 DHG-14/28。代码已在以下地址公开：https://github.com/Gbouna/RE-TCN

发布时间: 4/1/2025

查看原文

RECALL-MM：一种用于风险分析的多模态消费者产品召回数据集，结合计算方法和大型语言模型

作者: Diana Bolanos, Mohammadmehdi Ataei, Daniele Grandi, Kosa Goucher-Lambert

arXiv:2503.23213v1交叉公告类型摘要：产品召回提供了有关工程设计过程中潜在风险和危害的重要见解，但其全部潜力尚未充分开发利用。在这项研究中，我们从美国消费品安全委员会（CPSC）召回数据库中收集数据，开发了一个多模态数据集RECALL-MM，该数据集利用历史信息进行数据驱动的风险评估，并利用生成方法对其进行扩充。数据集中揭示的模式凸显了在特定领域加强安全措施可能产生重大影响的具体领域。我们通过展示基于召回描述和产品名称而嵌入到共享潜在空间中的交互式聚类图，扩展了我们的分析。借助这些数据驱动的工具，我们探索了三个案例研究，展示了数据集在识别产品风险和引导更安全设计决策方面的实用性。前两个案例研究展示了设计师如何可视化召回产品的模式，并将新产品创意置于更广泛的召回景观中，从而前瞻性地预见危险。在第三个案例研究中，我们通过运用大型语言模型（LLM）仅根据产品图像预测潜在的危险，扩展了我们的方法。这展示了模型利用视觉上下文识别风险因素的能力，揭示了其与许多危害类别中的历史召回数据强一致性的现象。然而，分析也指出了在危险预测方面仍然充满挑战的领域，强调了在整个设计过程中风险意识的重要性。总体而言，这项工作旨在弥合历史召回数据与未来产品安全之间的差距，提出了一个可扩展的数据驱动方法，以实现更安全的工程设计。

发布时间: 4/1/2025

查看原文