arXiv 论文列表

Krutrim LLM：为超过十亿人构建的多语言基础模型

作者: Aditya Kallappa, Palash Kamble, Abhinav Ravi, Akshat Patidar, Vinayak Dhruv, Deepak Kumar, Raghav Awasthi, Arveti Manjunath, Shubham Agarwal, Kumar Ashish, Gautam Bhargava, Chandra Khatri

arXiv:2502.09642v1 Announce Type: cross 摘要：印度是一个多元化社会，在发展人工智能系统方面面临着独特的挑战，包括语言多样性、口头传统、数据可获取性和可扩展性。现有的基础模型主要是在英语上进行训练，这限制了它们对印度人口的有效性。印度语文本仅占Common Crawl语料库的1%，尽管印度占全球人口的18%，导致语言偏差。成千上万种地方语言、方言和代码混合创造了大量的表示挑战，因为训练数据稀疏。我们引入了Krutrim LLM，这是一种针对印度语言景观设计的2兆亿词多语言模型。它包含了已知最大的印度语数据集，缓解了数据稀缺性，并确保在方言方面实现平衡性能。Krutrim在印度基准测试中表现优于或等于最先进的模型，同时保持竞争力的英语性能。尽管训练FLOPS显著较小，但Krutrim LLM在16个任务中的10个上与LLAMA-2相当，平均得分为0.57对0.55。这表明Krutrim在不同的语言环境中具有灵活的多语言流利性。 Krutrim集成了实时搜索以提高对话AI应用的事实准确性。这使得超过10亿的用户能够更方便地使用。通过针对数据不平衡的故意设计选择，Krutrim LLM代表着在构建伦理和全球代表性的人工智能模型方面的实质性进展。

发布时间: 2/17/2025

查看原文

西班牙语社交媒体文本中的在线社会支持检测

作者: Moein Shahiki Tash, Luis Ramos, Zahra Ahani, Raul Monroy, Olga kolesnikova, Hiram Calvo, Grigori Sidorov

arXiv:2502.09640v1 宣告类型: cross 摘要：社交媒体的出现已经转变了人们的沟通方式，使个人能够分享他们的经历、寻求支持并参与到多种多样的讨论中。虽然已有大量研究聚焦于识别有害内容如仇恨言论，但在识别和支持积极和友好互动方面的工作仍然相对较少。本研究提出了一种创新的方法，用于检测西班牙语社交媒体文本中的在线社会支持。我们引入了首个专门为这一任务创建的注释数据集，包含3,189条YouTube评论，分类为支持性或非支持性评论。为了应对数据不平衡的问题，我们采用了GPT-4o生成同义评论并创建了一个平衡的数据集。然后，我们使用传统机器学习模型、深度学习架构以及基于变压器的模型（包括GPT-4o）对不平衡数据集进行了社会支持分类评估。随后，我们使用变压器模型比较了平衡和不平衡数据集之间的性能。研究结果表明，平衡数据集在任务2（个体和小组）和任务3（国家、其他、LGBTQ社群、黑人社区、女性、宗教）中表现更好，而GPT-4o在任务1（社会支持和非支持）中表现最佳。本研究强调了培养支持性在线环境的重要性，并为进一步自动化的社会支持检测研究奠定了基础。

发布时间: 2/17/2025

查看原文

打破束缚以实现更广泛的适应性

作者: Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang

arXiv:2502.09638v1 通知类型: 交叉摘要: 对大型语言模型（LLMs）的拒绝训练可以防止有害输出，但这种防御措施仍然容易受到自动和人工构造的囚徒突破的影响。我们提出了一种新颖的LLM作为红队成员的方法，在这种方法中，人类会突破一个拒绝训练的LLM，使其愿意自我突破或其他LLM的突破。我们将突破后的LLM称为$J_2$攻击者，它们可以使用各种红队策略系统地评估目标模型，并通过从先前的失败中进行上下文学习来提高其性能。我们的实验表明，Sonnet 3.5和Gemini 1.5作为$J_2$表现出色，分别在Harmbench上对GPT-4o（及其他能力相当的LLM）的攻击成功率（ASR）达到了93.0%和91.0%。我们的工作不仅引入了一种可扩展的红队策略方法，借鉴了人类红队成员的做法，而且还强调了牢笼突破到自我突破是安全防护中的一个未被重视的失败模式。具体而言，一个LLM可以通过使用一个愿意进一步帮助突破的自身突破版本来绕过自身的安全防护。为了防止任何直接滥用$J_2$，同时推动AI安全研究的进步，我们公开分享了我们的方法论，但保留了具体的提示细节。

发布时间: 2/17/2025

查看原文

元文化能力：攀上文化意识的正确山坡

作者: Sougata Saha, Saurabh Kumar Pandey, Monojit Choudhury

arXiv:2502.09637v1 交叉领域类型: cross 摘要: 许多最近的研究表明，大规模语言模型（LLMs）倾向于西方和盎格鲁中心的世界观，这在非西方文化背景下限制了它们的实用性。然而，“文化”是一个复杂、多面的主题，且其在LLMs及其基于LLM的应用中的意识、表现和建模可以通过多种方式进行定义和衡量。在本文中，我们提出一个问题：什么是LLM所拥有的“文化意识”？并通过扩展Bender和Koller（2020年）提出的“深海章鱼测试”这一思想实验，我们 argue 说，一个使得LLM及其基于LLM的人工智能系统在各种不同文化背景下（包括完全未曾见过的文化）具有实用性的要求不仅在于文化意识或知识，而是元文化的胜任力。我们阐述了元文化的胜任力人工智能系统的原则，并讨论了如何衡量和建模这些原则。

发布时间: 2/17/2025

查看原文

窥视字里行间：LLM能识别跨文化沟通差距吗？

作者: Sougata Saha, Saurabh Kumar Pandey, Harshit Gupta, Monojit Choudhury

arXiv:2502.09636v1 文章类型：交叉学科摘要：在一个快速全球化和数字化的世界中，来自不同文化的人员创作的书籍和产品评论被世界各地的其他人阅读和消费。本文探讨了由于可能存在某些文化特定的项目和元素而导致书籍评论理解性差距的程度和模式，这些项目和元素可能对来自其他文化的用户来说是陌生的。我们对来自Goodreads的57份书籍评论进行的用户研究发现，83%的评论中至少包含一个文化特定的难以理解的元素。我们还评估了GPT-4o在不同读者的文化背景下的识别能力；结果参差不齐，这表明有很大的改进空间。我们的数据集可在以下链接获取：https://github.com/sougata-ub/reading_between_lines

发布时间: 2/17/2025

查看原文

正确的：带有背景信息和参考增强的推理和提示生成用于事实核查

作者: Delvin Ce Zhang, Dongwon Lee

arXiv:2502.09635v1 Announce Type: cross 摘要：核实断言的真实性通常需要对多个证据句进行推理。很多时候，证据句可能并不总是自我包含的，可能需要从其他地方获取额外的上下文和引用以理解核心语义、缩写以及报告发现的范围。例如，来自学术论文的证据句可能需要论文中的上下文句子和引用论文中的描述来确定研究发现的范围。然而，大多数事实核查模型主要集中在证据句内的推理，而忽略了辅助上下文和引用。为了解决这一问题，我们提出了一种新的方法——上下文和引用增强的推理与提示。对于证据推理，我们构建了一个三层证据图，包括证据层、上下文层和引用层。我们设计了跨层和层内推理，将三个图层统一为一个统一的证据嵌入。对于裁决预测，我们设计了一种证据条件下的提示编码器，为每个断言生成独特的提示嵌入。这些证据条件下的提示嵌入和断言被统一起来进行事实核查。实验验证了我们模型的强度。

发布时间: 2/17/2025

查看原文

人工与自然计算中的表示与解释

作者: Luis A. Pineda

arXiv:2502.10383v1 Announce Type: 新摘要：人工计算机器通过客观的过程转换表示，这些表示需要人类主观地解释，因此机器和解释者是不同的实体，但在假定的自然计算中，两个过程都由同一个代理执行。对表示进行转换的方法在此称为“计算模式”。数字计算机使用的计算模式是算法型的，但还有其他模式，例如量子计算机和各种非传统计算形式，还有可用于人工和自然计算的无限集合的表示格式和模式。基于不同于图灵计算概念的一种计算观念的模式可能能够完成图灵机无法完成的壮举，但这些模式不属于同一类别，也无法进行比较。为了使一种计算模式比算法型模式更强大，它必须能够计算没有有效算法的函数，而丘奇论题将不成立。在此提出了一个包括使用假设模式的计算恶魔的思考实验。如果有自然计算，那么可能存在一种自然计算模式，其属性可能是因果性的，影响现象性的体验。发现这种模式将伴随着解决意识的困难问题；但如果发现这种模式不存在，那么就不存在自然计算，而心灵并非计算过程。

发布时间: 2/17/2025

查看原文

基于LLM的组合分配中偏好 elicitation 助手

作者: Ermis Soumalias, Yanchen Jiang, Kehang Zhu, Michael Curry, Sven Seuken, David C. Parkes

arXiv:2502.10308v1 宣告类型: 新摘要: 我们研究了大型语言模型（LLMs）作为人类代理，在组合分配中简化偏好获取（PE）的潜力。传统的方法依赖于迭代查询来捕捉偏好，而LLMs提供了一种减少人力成本的单次解决方案。我们提出了一种LLM代理框架，该框架可以与最先进的基于机器学习的偏好获取方案协同工作。该框架处理了LLMs引入的新型挑战，例如响应的变化性和增加的计算成本。我们通过在已研究良好的课程分配领域中将LLM代理与人力查询的效率进行实验性评估，并调查了成功所需的模型能力。我们发现，我们的方法将分配效率提高了多达20%，并且这些结果在不同的LLM以及报告质量和准确性差异方面具有鲁棒性。

发布时间: 2/17/2025

查看原文

基于策略和 Arcade 她游戏中的强化学习：Google DeepMind 创新综述

作者: Abdelrhman Shaheen, Anas Badr, Ali Abohendy, Hatem Alsaadawy, Nadine Alsayad

arXiv:2502.10303v1 宣告类型: 新摘要: 强化学习（RL）已在许多应用中得到广泛应用，特别是在游戏领域，这为AI模型提供了卓越的训练平台。谷歌DeepMind在这一领域进行了创新，采用了包括模型导向、模型无关以及深度Q网络在内的强化学习算法，创建了如AlphaGo、AlphaGo Zero和MuZero等先进的AI模型。最初的AlphaGo结合了监督学习和强化学习，掌握了围棋，超越了职业人类选手。AlphaGo Zero改进了这种方法，不再依赖人类游戏数据，而是通过自我对弈提高学习效率。MuZero进一步扩展了这些进步，无需明确定义的游戏规则知识来学习游戏环境的基本动力学，实现了跨各种游戏（包括复杂的Atari游戏）的适应性。本文回顾了强化学习在Atari和策略游戏中的应用意义，分析了这三种模型的关键创新、训练过程、遇到的挑战以及改进措施。此外，我们还讨论了游戏领域的进展，包括MiniZero和多智能体模型，强调了未来的方向和来自谷歌DeepMind的新兴AI模型。

发布时间: 2/17/2025

查看原文

大型语言模型像我们一样进行因果推理？甚至更好？

作者: Hanna M. Dettki, Brenden M. Lake, Charley M. Wu, Bob Rehder

arXiv:2502.10215v1 宣告类型: 新摘要: 因果推理是智能的核心组成部分。大规模语言模型（LLMs）展示了生成类人类文本的令人印象深刻的能力，这引发了关于它们的回应是反映真正的理解还是统计模式的问题。我们使用基于碰撞图的任务比较了人类和四个人工智能语言模型的因果推理能力，根据其他变量的证据评估一个查询变量发生的可能性。我们发现，人工智能语言模型在从类人类到规范性推理的谱系上进行因果推理，其对齐会根据模型、上下文和任务有所不同。总体而言，GPT-4o 和 Claude 行为最符合规范性，包括“解释掉”，而 Gemini-Pro 和 GPT-3.5 未能做到这一点。尽管所有代理都偏离了因果因素的预期独立性——Claude 偏离最少——但在评估结果发生的可能性时，它们仍然展示了强烈的相关推理和预测性推理。这些发现强调了在人工智能日益协助人类决策过程中评估其偏见的重要性。

发布时间: 2/17/2025

查看原文