arXiv 论文列表

作者: Juli Bakagianni, Kanella Pouli, Maria Gavriilidou, John Pavlopoulos

arXiv:2407.09861v3 宣布类型: replace-cross 摘要：自然语言处理（NLP）研究传统上主要集中在英语上，这主要是由于资源的可用性、研究社区的规模以及市场需求的驱动。最近，NLP领域开始注意到多语言的重要性，认识到在多种语言和文化中实现包容性和有效性的重要性。单一语言的调查有可能补充NLP领域多语言的趋势，通过提供基础见解和资源，有助于有效应对全球沟通中的语言多样性。然而，在文献中，单一语言的NLP调查极为罕见。本研究介绍了创建系统性和全面的单一语言NLP调查的一般可迁移方法，旨在优化此类调查的构建过程，并全面解决一种语言的NLP支持问题。我们的方法整合了一种结构化的搜索协议，以避免选择偏差并确保可重复性，一种NLP任务分类法，用于有条理地组织调查材料，并使用语言资源分类法（LRs）来识别潜在的基准，并突出改善资源可用性（如通过更好的维护或许可）的机会。我们通过此方法对希腊NLP（2012-2023）进行了应用，提供了其当前状态及其挑战的全面概述。我们讨论了希腊NLP的进步，并列出了被分类为可用性和可用性的希腊语言资源，评估了每项NLP任务的语言支持情况。呈示的系统文献综述为希腊NLP提供了一个应用，展示了单一语言NLP调查在更广泛范围内的优势。类似的应用可以考虑应用于NLP进展落后于支持良好语言的无数其他语言。

发布时间: 2/3/2025

查看原文

LlavaGuard: 一个基于开放VLM的框架，用于保护视觉数据集和模型安全

作者: Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski

arXiv:2406.05113v2 安全类型: 交叉替换摘要：本文介绍了LlavaGuard，这是一个基于VLM的视觉安全套件，旨在应对大规模数据和模型时代可靠护栏的迫切需求。为此，我们建立了一个新的开放框架，描述了可定制的安全分类、数据预处理、增强和训练设置。为了在安全方面教授VLM安全套件，我们进一步创建了一个高质量的人类专家注解的多模态安全数据集，其中每张图像都标记了安全评分、类别和解释。我们还采用了先进的增强方法以支持上下文特定的评估。LlavaGuard模型从0.5B到7B不等，为评估视觉内容对灵活政策的安全合规性提供了多功能工具。在全面的实验中，LlavaGuard在准确性和灵活处理不同政策方面均优于最先进的安全套件和VLM。此外，我们展示了LlavaGuard在两个实际应用场景中的性能：大规模数据集注释和文本到图像模型的审查。我们使整个框架对公众开放，包括数据集和模型权重。

发布时间: 2/3/2025

查看原文

学习人类对齐的表示：对比学习与生成相似性方法

作者: Raja Marjieh, Sreejan Kumar, Declan Campbell, Liyi Zhang, Gianluca Bencomo, Jake Snell, Thomas L. Griffiths

arXiv:2405.19420v3 宣告类型: replace-cross 摘要：人类依赖有效的表示方式从少量的例子中学习，并从感官数据中提取有用的信息。在机器学习模型中诱导这样的表示方式已被证明能够在诸如少样本学习和鲁棒性等各种基准测试中提高它们的性能。然而，找到有效的训练程序以实现这一目标可能颇具挑战性，因为富含心理特征的训练数据，如人类相似性判断，难以大规模应用，而人类归纳偏好的贝叶斯模型在复杂的真实场景中往往难以处理。在这里，我们通过利用一种生成相似性的贝叶斯概念来应对这一挑战，即如果两个数据点很可能来自相同的分布，则它们被视为相似。该度量可以应用于复杂的生成过程，包括概率程序。我们将生成相似性纳入对比学习目标中，以使模型能够学习表述人类认知表示的嵌入。我们通过表明该方法可以用于捕捉形状规律性、抽象欧几里得几何概念以及自然图像的语义层次结构等人类类似表示，来展示我们方法的实用性。

发布时间: 2/3/2025

查看原文

风险敏感分布强化学习的策略梯度方法及其可证明收敛性

作者: Minheng Xiao, Xian Yu, Lei Ying

arXiv:2405.14749v2 宣告类型: 替换-交叉摘要：风险敏感强化学习（RL）对于在高风险应用场景中保持可靠性能至关重要。尽管传统的RL方法旨在学习随机累积成本的点估计，分布性RL（DRL）寻求估计其整个分布，从而为处理不同的风险度量提供了一个统一框架。然而，为风险敏感的DRL开发策略梯度方法本质上更加复杂，因为它涉及找到概率测度的梯度。本文介绍了一种新的风险敏感DRL的策略梯度方法，适用于广义一致风险度量，其中我们为任何分布提供了概率测度梯度的解析形式。为了实际应用，我们设计了一个分类分布策略梯度算法（CDPG），通过一些固定点支持的分类家族来近似任何分布。我们进一步提供了在渐近政策评估和梯度估计不准确的情况下有限支撑最优性保证和有限迭代收敛保证。通过在随机悬崖行走和CartPole环境中的实验，我们说明了在DRL中考虑风险敏感设置的好处。

发布时间: 2/3/2025

查看原文

通过基于代理的不确定性估计提高语言模型的指令跟随能力

作者: JoonHo Lee, Jae Oh Woo, Juree Seok, Parisa Hassanzadeh, Wooseok Jang, JuYoun Son, Sima Didari, Baruch Gutow, Heng Hao, Hankyu Moon, Wenjun Hu, Yeong-Dae Kwon, Taehee Lee, Seungjai Min

arXiv:2405.06424v3 宣告类型: replace-cross 摘要：评估语言模型对指令的响应质量至关重要但极具挑战性，因为不同语境下的人类语言复杂性极高。这种复杂性常常导致歧义或不一致的解释，使得准确评估变得困难。为了解决这一问题，我们提出了一种新颖的不确定性感知奖励模型（URM），它基于贝叶斯近似引入了对配对响应质量的稳健不确定性估计。通过偏好数据集训练，我们这个启用不确定性的代理不仅可以对响应评分，还能评估它们的固有不确定性。实验证明，在语言模型训练中引入提出的代理具有显著优势。我们的方法通过细化训练数据的编撰和改善策略优化目标来提升语言模型遵循指令的能力，从而在如Vicuna和MT-bench等基准测试上大大超越现有方法。这些发现突显了我们提出的这种方法在语言模型训练中显著推动的进步，并开创了一种利用语言模型内不确定性的新途径。

发布时间: 2/3/2025

查看原文

学习交易表示以在银行中进行信息管理：掌握局部、全局和外部知识

作者: Alexandra Bazarova, Maria Kovaleva, Ilya Kuleshov, Evgenia Romanenkova, Alexander Stepikin, Alexandr Yugay, Dzhambulat Mollaev, Ivan Kireev, Andrey Savchenko, Alexey Zaytsev

arXiv:2404.02047v2 宣告类型: replace-cross 摘要：当今世界，银行利用人工智能优化各种业务流程，旨在改善客户体验。大多数与客户相关的任务可以分为两类：1) 局部任务，专注于客户的当前状态，如交易预测，以及2) 全局任务，考虑客户的普遍行为，例如预测成功的贷款偿还。不幸的是，为每个任务维护独立模型的成本很高。因此，为了更好地促进信息管理，我们在11项任务上比较了八种最新的无监督方法，寻找一种适用于所有情况的解决方案。对比自监督学习方法在全局问题上表现出色，而生成技术在局部任务上更为优胜。我们还介绍了一种新的方法，通过整合从其他客户收集的外部信息来丰富客户表示。我们的方法在经典模型中表现出色，准确率提高了高达20%。

发布时间: 2/3/2025

查看原文

IsolateGPT：基于LLM的代理系统执行隔离架构

作者: Yuhao Wu, Franziska Roesner, Tadayoshi Kohno, Ning Zhang, Umar Iqbal

arXiv:2403.04960v2 宣布类型：替换交叉引用摘要：扩展为系统的大型语言模型（LLMs），如ChatGPT，已经开始支持第三方应用程序。这些LLM应用程序利用了LLMs实际上基于自然语言的自动化执行范式：即，应用程序及其交互以自然语言定义，具有访问用户数据的权限，并允许与其他应用程序和系统自由交互。这些LLM应用程序生态系统类似于早期计算平台的环境，在这些平台上，应用程序与系统之间的隔离不足。由于第三方应用程序可能不可信，并且受自然语言界面不精确的影响，当前的设计对用户构成了安全和隐私风险。在本文中，我们评估是否可以通过执行隔离来解决这些问题，以及在基于LLM的系统中，执行隔离可能是什么样子，这些系统存在任意的基于自然语言的组件交互、LLM和应用程序之间的交互，以及应用程序之间的交互。为此，我们提出了IsolateGPT的设计架构，证明了执行隔离的可行性，并为在基于LLM的系统中实现隔离提供了蓝图。我们对IsolateGPT进行了多种攻击评估，并证明它能够在不牺牲功能的情况下保护非隔离的基于LLM的系统中存在许多安全、隐私和安全问题。IsolateGPT提高安全性所带来的性能开销在测试的查询中超过四分之三的情况下不到30%。

发布时间: 2/3/2025

查看原文

探索大型语言模型在提高数字取证调查效率方面的潜力

作者: Akila Wickramasekara, Frank Breitinger, Mark Scanlon

arXiv:2402.19366v3 通知类型: 替换-交叉摘要：随着数字法医实验室的工作负担不断增加，执法机构及时开展与网络相关的和非网络相关的调查的能力引发了担忧。因此，本文探讨了将大型语言模型（LLMs）集成到数字法医调查中以解决偏见、可解释性、审查、资源密集型基础设施以及伦理和法律考虑等问题的潜力和实用性。进行了全面的文献综述，涵盖了现有的数字法医模型、工具、LLMs、深度学习技术以及LLMs在调查中的应用。综述识别了现有数字法医流程中的现有挑战，并探讨了集成LLMs所面临的障碍和可能性。结论指出，在适当限制条件下采用LLMs，有潜力提高调查效率、改善可追溯性，并缓解执法机构面临的技术和司法障碍。

发布时间: 2/3/2025

查看原文

重新思考模型评估：缩小社会与技术差距

作者: Q. Vera Liao, Ziang Xiao

arXiv:2306.03100v4 公告类型：替换-交叉摘要：生成大型语言模型（LLMs）的 recent 发展对模型评估提出了新的挑战，这些挑战使得研究界和产业界一直在努力应对。尽管这些模型的多功能性引发了极大的兴趣，但它们不可避免地朝着同质化方向发展：通过一个单一的，通常被称为“通用目的”的模型来驱动各种各样的应用。在本文中，我们认为必须采取批判性的任务来应对这种同质化所带来的挑战和责任：为现有模型（即，社会-技术差距）在多样化的下游应用案例中是否和到何种程度能够满足人类需求提供有效的评估。通过借鉴社会科学研究、人机交互（HCI）以及可解释人工智能（XAI）跨学科领域的关于提高研究现实性的经验教训，我们敦促社区基于真实世界的背景和人类的需求来开发评估方法，并承认在进行评估时现实性和实用成本之间的权衡。通过映射人机交互和当前的自然语言生成评估方法，我们识别出评估方法在LLMs中缩小社会-技术差距的机会，并提出了开放性问题。

发布时间: 2/3/2025

查看原文

Loss 塑形增强 Eventprop 在神经突触神经网络中的精确梯度学习

作者: Thomas Nowotny, James P. Turner, James C. Knight

arXiv:2212.01232v3 公告类型: 交叉替换摘要：基于事件的机器学习有望在未来的神经形态硬件上实现更高效的AI。在这里，我们研究了最近发现的Eventprop算法，该算法用于精确梯度在脉冲神经网络中的梯度下降，探讨如何将其扩展到具有挑战性的关键词识别基准测试。我们使用GPU增强的神经网络框架实现Eventprop，并将其用于在Spiking Heidelberg Digits和Spiking Speech Commands数据集上训练递归脉冲神经网络。我们发现学习主要依赖于损失函数，并扩展了Eventprop以适用于更广泛的损失函数，以实现有效的训练。随后，我们测试了大量数据增强和技术以及不同的网络结构；并探索了异构和可训练的时间尺度。我们发现，在与两种特定的数据增强、合适的正则化和延迟线输入结合使用时，具有一个递归层的Eventprop网络在Spiking Heidelberg Digits上达到了最先进的性能，并在Spiking Speech Commands上获得了良好的准确度。与当前最领先的替代梯度方法相比，我们的GeNN Eventprop实现速度快3倍，内存使用量少4倍。这项工作是朝着低功耗神经形态替代当前机器学习范式的重大步骤。

发布时间: 2/3/2025

查看原文