arXiv:2407.13535v3 宣告类型: replace-cross
摘要:导航由大脑中至少两个部分可分离的、同时发展的系统控制。认知地图向有机体提供其位置和方向的信息,并通过基于距离的预测和前庭整合进行更新。另一方面,反应基系统直接从即时感觉评估运动决策。在这里,我们展示了在通常被认为需要认知地图的经典开放领域导航任务中,仅基于视觉的反应决策的充分性。三个不同的策略稳健地导航到隐藏的目标,每个策略都带来了环境权衡,并与啮齿动物、昆虫、鱼类和精子细胞的行为观察结果相一致。我们建议从自下而上的角度重新构建导航,无需假设在线访问计算上昂贵的自上而下的表示,以便在能量或注意力限制下更好地解释行为。
arXiv:2407.12690v2 社会成本类型:替换交叉
摘要:本文探讨了缺乏人工智慧监管所导致的社会成本,并提出了一种结合创新与监管的框架。在过去五十多年的AI研究中,由于计算成本下降和数据普及等推动因素,AI已进入主流,承诺带来巨大的经济利益。然而,这种快速采用也带来了风险,包括偏见放大、劳动力中断以及自主系统带来的 existential 威胁。讨论在这两种极端观点之间分裂:加速主义倡导无阻碍的技术进步,而末日论者则呼吁减速以避免乌托邦式的不良后果。本文提倡一条中间道路,利用技术创新和明智的监管来最大限度地发挥人工智能的益处,同时降低其风险,提供一种务实的人工智能技术负责任进步的方法。超越目前最具能力的基础模型的技术发明是必要的,以防止灾难性风险。监管是必要的,既要激励这种研究,又要处理当前的问题。
arXiv:2407.12101v2 宣布类型:替换-交叉
摘要:扩展大型语言模型(LLMs)的常用方法是检索增强生成(RAG),它通过将从更大记忆中检索到的文字插入到LLM的上下文窗口中来实现。然而,上下文窗口通常限于数千个标记,这限制了能够用于指导模型响应的检索段落数量。因此,通过确保检索到的段落之间具有一定的多样性来避免占用上下文窗口的空间是非常重要的。同时,这些信息也应该与当前任务相关。大多数鼓励检索结果多样性的方法,如最大边际相关性(MMR),都是通过引入一个明确权衡多样性和相关性的目标来实现的。我们提出了一种基于相关信息增益的新颖简单的优化指标,这是一种适用于一组检索结果的查询相关总信息量的概率度量。通过优化这一指标,多样性自然地从我们的系统中涌现出来。当作为RAG系统的检索组件的即插即用替换时,该方法在检索增强生成基准(RGB)的质量问答任务上取得了最佳性能,超过了直接优化多样性和相关性的现有指标。
arXiv:2407.10853v3 公布类型: replace-cross
摘要:大规模语言模型(LLMs)可能会以多种方式表现出偏差。这些偏差可以为受到保护属性内某些组不公平结果的创造或加剧,包括但不仅限于性别、种族、性取向或年龄。在本文中,我们提出了一种决策框架,使从业者能够确定特定LLM应用场景中应使用哪些偏见和公平性指标。为了建立该框架,我们为LLMs定义了偏见和公平性风险,将这些风险映射到LLM应用场景分类,然后定义了各种指标来评估每种风险类型。我们不仅关注模型本身,还通过在LLM应用场景层面上定义评估,考虑到特定于提示和特定于模型的风险,LLM应用场景由一个模型和一组提示定义。由于所有评估指标都是仅使用LLM输出计算得出的,因此我们提出的框架对于从业者来说非常实用且易于操作。为了简化实施,框架中包括的所有评估指标在本文的配套Python工具包LangFair中提供。最后,我们的实验表明,应用场景之间的偏见和公平性存在巨大差异,强调了应用场景层面评估的重要性。
arXiv:2407.08441v2 公布类型: 替换-交叉
摘要:大规模语言模型(LLMs)已经彻底改变了人工智能领域,展示了非凡的计算能力和语言能力。然而,这些模型在本质上容易受到其训练数据带来的各种偏见的影响。这些偏见包括选择偏见、语言偏见和确认偏见,以及与性别、种族、性取向、宗教、社会经济地位、残疾和年龄相关的常见刻板印象。本研究探讨了这些偏见在最新LLMs回应中的存在情况,分析了它们对公平性和可靠性的影响。我们还调查了已知的提示工程技术如何被利用以有效揭示LLMs隐藏的偏见,并测试了它们在对抗精心设计的偏见引发提示时的稳健性。使用不同规模的最广泛使用的LLMs进行了广泛的实验,证实尽管LLMs具有先进的能力和复杂的对齐过程,它们仍然可以被操纵以产生有偏见或不适当的回答。我们的发现强调了加强缓解技术的重要性,以解决这些安全问题,朝着一个更可持续和包容的人工智能方向发展。
arXiv:2407.06447v2 宣告类型: replace-cross
摘要:在安全社区中,生成符合地理位置和时间约束的人工人类运动模式是一项重要问题,特别是在这种生成能够帮助研究检测这类模式的问题的同时,还能保持隐私性。我们将这个问题重新定义为由新的简约函数(表示为注释逻辑程序的综合真值)引导的 abduction 问题。这种方法的好处之一是可以为分析师用户提供可解释性。通过证明程序的任何子集都可以提供这种简约要求的下界,我们可以通过有信息指导的(即A*)搜索有效地推导出运动轨迹。我们描述了如何通过应用多种技术来增强我们的实现,使其能够扩展并与基于云的软件栈集成,包括自底向上的规则学习、地理定位的知识图谱检索/管理,以及与政府系统接口的独立政府运行测试,我们还提供了实验结果。我们还报告了我们自己的实验结果,表明我们不仅提供精确的结果,还能够处理非常大规模的场景,并提供能够逃避机器学习异常检测器检测的真实代理轨迹。
arXiv:2406.09624v2 公告类型:替换-交叉
摘要:我们介绍了DrivAerNet++,这是迄今为止涵盖汽车气动设计的最全面的多模态数据集。DrivAerNet++包含8,000个高保真计算流体力学(CFD)模拟下的 diverse 汽车设计。数据集包括多种汽车配置,如快背式、船尾式和厢式车,以及不同的车底和轮毂设计,以代表内燃机汽车和电动汽车。数据集中每个条目的特点是详细的3D网格、参数模型、气动系数、广泛的流场和表面场数据,以及用于汽车分类的分割部分和点云数据。该数据集支持包括数据驱动的设计优化、生成建模、代理模型训练、CFD 模拟加速和几何分类在内的广泛机器学习应用。凭借超过39 TB的公开可用工程数据,DrivAerNet++填补了可用资源中的一个重大空白,提供了高质量、多样的数据以增强模型训练,促进泛化,并加速汽车设计过程。除了严格的数据集验证外,我们还提供了在气动阻力预测任务上的ML基准测试结果,展示了我们数据集支持的应用范围。该数据集将通过促进创新和提高气动评估的准确度,在汽车设计和更广泛的工程学科中产生重大影响。数据集和代码可在以下链接获取:https://github.com/Mohamedelrefaie/DrivAerNet。
arXiv:2406.06773v2 宣告类型: replace-cross
摘要:本研究评估了在长上下文情况下零-shot 压缩技术对大型语言模型(LLMs)的有效性。我们发现,在使用某些压缩方法时,随着上下文长度的增加,计算错误有增加的趋势。我们提出了一种假设来解释不同 LLM 压缩技术的多样化行为,并探索减轻某些技术在长上下文下性能下降的补救措施。这是普林斯顿大学李恺教授的 COS 598D 机器学习与系统课程的课程报告。由于计算资源有限,我们的实验仅在 LLaMA-2-7B-32K 上进行。
arXiv:2406.06736v2 宣告类型: replace-cross
摘要:机器学习系统在日常生活中的普遍集成,特别是在高风险领域,引发了对公平性影响的担忧。虽然先前的研究已经探讨了静态公平性指标,但最近的研究表明,自动化决策有长期的影响,并且现成的公平性方法可能无法实现长期公平的目标。此外,反馈循环的存在以及模型与环境之间的相互作用引入了额外的复杂性,这可能会偏离初始公平性的目标。在本文综述中,我们从不同角度回顾了现有的长期公平性文献,并提出了一种长期公平性研究的分类体系。我们强调了关键挑战,并考虑了未来的研究方向,分析了当前存在的问题以及潜在的进一步探索。
arXiv:2406.05925v2 宣告类型:替换
摘要:随着大型语言模型(LLMs)的发展,开放域对话系统取得了显著的进步。然而,现有的大多数对话系统主要关注短暂的单会话交互,忽视了长期伴侣和个性化交互的实际需求。解决这一实际需求的关键在于事件总结和人设管理,这使得长期对话生成更为合理。LLMs表现出的人类认知和推理能力的最新进展表明,基于LLM的代理能够显著提升自动感知、决策和问题解决的能力。为了应对这一潜力,我们提出了一种模型无关的框架,即长期对话代理(LD-Agent),该框架包含三个独立可调模块,分别专注于事件感知、人设提取和响应生成。对于事件记忆模块,使用了长短期记忆库,分别关注历史会话和正在进行的会话,同时引入了基于主题的检索机制,以提高记忆检索的准确性。此外,人设模块进行了用户和代理的动态人设建模。随后,提取的记忆和人设被输入到生成器中,以生成合适的响应。LD-Agent的有效性、通用性和跨域能力通过各种示例基准、模型和任务得到了实证展示。源代码发布在 https://github.com/leolee99/LD-Agent。