arXiv:2502.13259v1 Announce Type: cross
摘要:LLM生成的语言应该使其看起来像人类吗?类人类的语言可以改进用户体验,但也可能导致过度依赖和刻板印象。评估这些潜在影响需要一种系统性的方法来衡量LLM输出中的人类化语气。我们引入了HumT和SocioT,这两种基于LLM相对概率的文本数据中人类化语气和社会感知的其他维度的度量方法。通过在偏好和使用数据集中测量HumT,我们发现用户更倾向于LLM不太人类化的输出。HumT还揭示了拟人化的影响:类人类的LLM输出与温暖、社会亲近感、女性化和低地位高度相关,这些都与上述危害密切相关。我们引入了DumT,这是一种使用HumT系统性地控制和减少人类化语气程度但保持模型性能的方法。DumT提供了一种缓解与拟人化语言生成相关风险的实际方法。
arXiv:2502.13256v1 Announce Type: 横跨领域
摘要:在我们日益互联互通的世界中,嵌入式计算系统(Cyber-Physical Systems, CPS)在医疗、运输和制造业等行业中扮演着至关重要的角色,通过将物理过程与计算能力相结合。然而,这些系统面临着许多挑战,特别是在安全性和系统故障方面。CPS中的异常可能预示着从传感器故障到网络攻击的各种未预料的问题,并且必须检测以防止可能导致人员伤害或服务中断的故障。本文概述了研究人员在CPS中应对异常检测的不同方法。我们将这些方法分为机器学习、深度学习、数学模型、不变性方法和混合技术,并进行比较分析。我们的目标是帮助读者了解这些方法的优点和局限性,以及如何利用这些方法来创建更安全、更可靠的CPS。通过识别当前解决方案的不足,我们旨在激发未来研究,使CPS在未来越来越自动化的世界中更加安全和适应性。
arXiv:2502.13251v1 Announce Type: cross
摘要:我们提出了一种名为神经注意力搜索(NAtS)的框架,该框架能够自动评估序列中每个令牌的重要性,并确定在经过若干步之后,相应的令牌是否可以被丢弃。这种方法可以有效地减少基于Transformer的模型在推理过程中所需的KV缓存大小,从而降低推理成本。在本文中,我们设计了一个包含三种类型的令牌的空间:(i)全局令牌将被所有后续令牌保留并查询。(ii)局部令牌存活到下一个全局令牌出现为止。(iii)滑动窗口令牌对固定大小的后续令牌的推理产生影响。类似于One-Shot神经架构搜索方法,这些令牌类型的信息可以通过可学习的注意力掩码与架构权重联合学习。在从头训练一个新Transformer和微调现有的大型语言模型的实验中都表明,NAtS可以有效地减少模型所需的KV缓存大小,同时保持模型的性能。
arXiv:2502.13248v1 宣告类型: cross
摘要:自适应交通信号控制(ATSC)已成为智能交通系统中的一个热门研究话题。使用多代理深度强化学习(MADRL)技术的区域交通信号控制(RTSC)已成为ATSC的一种有前途的方法,因为它能够在可扩展性和最优化之间取得最优权衡。大多数现有的RTSC方法将交通网络划分为几个不相交的区域,然后在每个区域中应用集中式强化学习技术。然而,RTSC代理之间的合作仍然存在开放的问题,也没有对RTSC代理的通信策略进行研究。在本文中,我们提出了一种通信策略,以捕获车道间微观交通状态的相关性和路口间宏观交通状态的相关性。我们首先通过一个存储转发队列系统证明了RTSC过程的演化方程是马尔可夫的。接下来,基于演化方程,我们提出了两种GAT聚合(GA2)通信模块——GA2-Naive和GA2-Aug,以提取宏观和微观交通状态在区域内和区域间的相关性。虽然GA2-Naive只考虑了每个路口的车辆移动,GA2-Aug还考虑了车辆的变道行为。然后,提出的两种通信模块被合并到两个现有创新的RTSC框架中——RegionLight和Regional-DRL。实验结果表明,在实际和合成场景下,GA2-Naive和GA2-Aug都能够有效提高现有RTSC框架的性能。超参数测试还揭示了在大规模交通网络中,我们提出的通信模块的稳健性和潜力。
arXiv:2502.13234v1 交叉公告类型: cross
摘要: 文本到视频(T2V)扩散模型在从输入文本提示合成逼真视频方面显示出有前途的能力。然而,仅凭输入文本描述无法对精确物体运动和相机构图提供有限的控制。在这项工作中,我们解决了运动自定义问题,其中提供了一个参考视频作为运动指导。虽然大多数现有方法选择微调预训练的扩散模型以重建参考视频的帧差异,但我们观察到这种策略会从参考视频中泄露内容,并且无法准确捕捉复杂的运动。为此,我们提出了一种名为MotionMatcher的运动自定义框架,该框架在特征级别微调预训练的T2V扩散模型。与使用像素级目标相反,MotionMatcher通过比较高级的空间-时间运动特征来微调扩散模型,以确保精确的运动学习。为了提高内存效率和可访问性,我们利用了一个包含大量关于视频运动先验知识的预训练T2V扩散模型来计算这些运动特征。在我们的实验中,我们展示了最先进的运动自定义性能,验证了我们框架的设计。
arXiv:2502.13233v1 交叉公告类型
摘要:大型语言模型(LLMs)在通用领域显示出了非凡的能力,但在需要专门知识的任务上却往往能力不足。传统的检索增强生成(RAG)技术通常从静态知识库中检索外部信息,这些知识库可能过时或信息不全,无法提供准确医疗问答所需的细粒度临床细节。在这项工作中,我们提出了SearchRAG,这是一种通过利用实时搜索引擎来克服这些限制的新型框架。我们的方法使用合成查询生成将复杂的医疗问题转换为搜索引擎友好的查询,并利用基于不确定性的知识选择来过滤和整合最相关的、最具有信息量的医疗知识进入LLM的输入。实验结果表明,我们的方法在医疗问答任务中显著提高了响应准确性,特别是在需要详细和最新知识的复杂问题上。
arXiv:2502.13228v1 宣布类型: cross
摘要: 随着基于机器学习的预测系统在越来越重要的情况下被使用,理解这些预测模型在部署后的表现变得至关重要。分布自由不确定性量化技术,如构形预测,能够在模型细节被隐藏的情况下提供关于黑箱模型将要遭受的损失的保证。然而,这些方法基于频率概率,这不当地限制了它们的应用范围。我们从贝叶斯视角重新审视构形预测的核心方面,从而阐明了频率概率保证的不足之处。我们提出了一种基于贝叶斯 quadrature 的实用替代方案,该方案提供了可解释的保证,并提供了一种对测试时可能观察到的损失范围的更丰富的表示。
arXiv:2502.13221v1 类型: cross
摘要: 在能力不断增强的基础模型时代,求职者开始利用生成式AI工具来增强他们的申请材料。然而,生成式AI工具的获取不平等以及对这些工具的了解不足会损害雇主和求职者的利益,从而降低招聘决策的准确性,并给某些求职者带来不公平的优势。为应对这些挑战,我们介绍了一种新的战略性分类框架的变体,该框架针对使用大型语言模型进行的操纵进行了定制,以适应不同层次的操纵和随机结果。我们提出了一个“双票”方案,在该方案中,招聘算法对每个提交的简历应用额外的操纵,并将这个操纵后的版本与原始提交的简历一起考虑。我们为该方案建立了理论保证,显示了在最大化真正阳性率并受无假阳性约束的情况下,该方案对于招聘决策的公平性和准确性都有改进作用。我们进一步将该方法推广到“n”票方案,并证明招聘结果收敛到一个固定的、组别无关的决策,从而消除了因不同的LLM访问而产生的差异。最后,我们利用一个开源简历筛选工具对实际简历进行了实证验证,验证了我们框架和双票方案的性能。
arXiv:2502.13207v1 Announce Type: 交叉
摘要:尽管大型语言模型在创意任务中的应用日益增多,但它们的输出往往缺乏多样性。常见的解决方案,如在较高的温度下采样,可能会牺牲结果的质量。基于信息理论,我们提出了一种基于上下文的分数来定量评估价值和原创性。该分数激励准确性并遵守请求,同时促进与学习分布的偏差。我们提议在强化学习框架中使用我们的分数作为奖励,以微调大型语言模型以实现最佳性能。通过在诗歌生成和数学问题解决中的实验,验证了我们的策略,表明它提高了生成解决方案的价值和原创性。
arXiv:2502.13200v1 类别: cross
摘要: 自主人工代理必须能够在没有人类设计任务和奖励的情况下,在复杂环境中学习行为。为每个环境设计这些函数是不可行的,因此推动了开发内在奖励函数的发展。在本文中,我们提出利用长期以来被忽视的一些认知元素来构建具有内在动机代理的内部世界模型。我们的代理能够与环境进行满意的迭代,无需预先设计的奖励函数即可学习复杂的行为。我们使用了18个Atari游戏来评估在要求反应性和深思熟虑行为的游戏中的认知技能。结果显示,在许多密集奖励和稀疏奖励的测试案例中,我们的方法具有优越的性能。