LLM2D

arXiv 论文列表

作者: Jenny T. Liang, Aayush Kumar, Yasharth Bajpai, Sumit Gulwani, Vu Le, Chris Parnin, Arjun Radhakrishna, Ashish Tiwari, Emerson Murphy-Hill, Guastavo Soares
arXiv:2502.09787v1 宣告类型: cross 摘要: 尽管在劳动力中极为普遍,但电子表格编程仍然具有挑战性,因为程序员需要具备电子表格特定的知识(例如,编写公式的API)和解决问题的能力才能创建复杂的电子表格。大型语言模型(LLMs)可以帮助自动化这一过程,而最近在规划和推理方面的进步使得语言代理能够动态规划、使用工具并采取迭代行动来完成复杂的任务。这些代理观察、规划和行动,使它们非常适合通过遵循专家过程来辅助电子表格编程。 我们提出了 TableTalk,一个帮助程序员通过对话方式构建电子表格的语言代理。其设计体现了三个设计原则——支架辅助、灵活性和增量性,这些都是从对七名程序员和62个Excel模板的两项研究中提炼出来的。TableTalk 通过生成逐步计划并建议用户可以从中选择的下一步骤来结构化电子表格开发过程。它还集成了促进增量式电子表格构建的工具。一项涉及20名程序员的用户研究显示,与基准代理相比,TableTalk 更有可能生成被用户更偏好的电子表格,同时减少12.6%的认知负荷和关于电子表格操作的推理时间。TableTalk 的方法对人类-代理协作具有重要意义。这包括提供持久的直接操纵界面以停止或撤销代理操作,同时确保接受代理操作的界面可以被禁用。
发布时间: 2/17/2025
查看原文
作者: Jin Hyun Park, Seyyed Ali Ayati, Yichen Cai
arXiv:2502.09782v1 交叉公告类型 摘要:随着日常设备中麦克风的普及和对在线服务的日益依赖,针对键盘的声学侧信道攻击(ASCAs)的风险也相应增加。本研究探讨了深度学习技术,特别是视觉变换器(VTs)和大型语言模型(LLMs),以增强此类攻击的有效性和适用性。我们在此前研究的基础上取得了显著改进,CoAtNet模型达到了最先进的性能。CoAtNet模型在通过智能手机(Phone)录制的按键记录中提升了5.0%,在通过Zoom录制的按键记录中提升了5.9%,优于之前的基准性能。我们还评估了变压器架构和语言模型,其中表现最佳的VT模型与CoAtNet模型的性能相当。一个关键进展是引入了针对实际应用场景的噪声缓解方法。通过使用LLMs进行上下文理解,我们在嘈杂环境中检测并纠正错误的按键记录,从而提升ASCAs的效果。此外,通过Low-Rank Adaptation(LoRA)微调的轻量级语言模型,其性能与具有67倍更多参数的重型模型相当。这种VTs和LLMs的结合提高了ASCAs缓解的实际适用性,这标志着首次使用这些技术来解决实际场景中的ASCAs和纠错问题。
发布时间: 2/17/2025
查看原文
arXiv:2502.09780v1 Announce Type: cross 摘要:多智能体强化学习(MARL)涉及一组智能体在共享的未知环境中交互的应用程序的核心。研究MARL的一个主要框架是马尔可夫游戏,其目标是以样本效率的方式找到各种均衡概念,例如纳什均衡(NE)和粗略相关均衡(CCE)。然而,现有的样本高效方法要么需要在函数近似下进行定制化的不确定性估计,要么需要仔细协调参与者的策略。在本文中,我们提出了一种名为VMG的新模型启发式算法,通过偏置模型参数的实证估计,使其偏向于固定其他智能体策略时所有智能体的最佳响应值较高的参数,从而激励智能体偏离其当前的均衡状态以进行更多探索。VMG 对不同形式的函数近似是盲目的,并允许所有智能体的策略同时且解耦地更新。理论上,我们还证明,在线环境中,VMG 在线性函数近似的情况下,能够实现对两智能体零和马尔可夫游戏纳什均衡和多智能体非零和马尔可夫游戏粗略相关均衡的近最优后悔,几乎与具有高级不确定性量化的方法相当。
发布时间: 2/17/2025
查看原文
作者: Alkmini Sgouritsa, Minas Marios Sotiriou
arXiv:2502.09777v1 宣告类型: cross 摘要: 我们研究了一种“公平”分割不可分割物品的问题,这些物品由几个具有物品集合估值函数的代理进行估值。作为公平的标准,我们考虑的是“ envy-free up to any good (EFX) ”的分配,即没有任何代理会嫉妒其他代理所分配的任何物品的任何子集。是否存在或不存在 EFX 分配是公平分割领域的重大开放问题,目前只有针对特殊案例的积极结果。 [George Christodoulou, Amos Fiat, Elias Koutsoupias, Alkmini Sgouritsa 2023] 根据图结构对代理的估值进行了限制:顶点对应于代理,边对应于物品,每个顶点/代理对不相邻的边/物品具有零边际价值(换句话说,他们对此是无所谓的)。对于具有通用单调估值的简单图,[George Christodoulou, Amos Fiat, Elias Koutsoupias, Alkmini Sgouritsa 2023] 已证明存在 EFX 分配,并且对于具有限制性加性估值的多重图,[Alireza Kaviani, Masoud Seddighin, Amir Mohammad Shahrezaei 2024] 也证明了这一点。 在这项工作中,我们进一步推进了现有技术水平,并证明了在多重图和普遍单调估值条件下,如果满足以下三个条件之一,则始终存在 EFX 分配:(a)多重图是二部图,或(b)每个代理的邻居数不超过 $\lceil \frac{n}{4} \rceil -1$,其中 $n$ 是代理的总数,或(c)最短的非平行边组成的环的长度至少为 6。
发布时间: 2/17/2025
查看原文
作者: Yangtian Zhang, Sizhuang He, Daniel Levine, Lawrence Zhao, David Zhang, Syed A Rizvi, Emanuele Zappala, Rex Ying, David van Dijk
arXiv:2502.09767v1 通告类型: cross 摘要: 离散扩散模型已出现为结构化序列建模的灵活可控范式,但它们在表达能力上仍然落后于因果语言模型。为在两种范式之间搭建桥梁,我们引入了CaDDi,这是一种因果离散扩散模型,在非马尔可夫扩散框架内统一了序列建模和时间建模。与传统的按步骤进行且无法访问先前状态的扩散模型不同,CaDDi 整合了时间轨迹,使生成更具表达性和可控性。我们的方法还将因果语言模型作为特殊情况处理,允许无缝地使用预训练的大规模语言模型(LLMs)进行离散扩散,无需进行架构修改。实验结果显示,CaDDi 在自然语言和生物序列任务中均优于最新的离散扩散模型,缩小了基于扩散的方法与大规模自回归变换器之间的差距。
发布时间: 2/17/2025
查看原文
作者: Bucher Sahyouni, Matthew Vowels, Liqun Chen, Simon Hadfield
arXiv:2502.09765v1 公布类型: cross 摘要:公平且无偏见的机器学习模型的开发仍然是人工智能领域研究人员的一个持续目标。我们提出了差异调整公平性(Differential Adjusted Parity, DAP)损失函数,以生成无偏见的信息表示。它利用了调整公平性度量的可微变体,创建了一个统一的目标函数。通过结合下游任务分类精度及其在敏感特征域中的不一致性,它提供了一个单一工具来提高性能并减少偏见。这种方法的关键要素是使用软平衡精度。与之前的非对抗性方法不同,DAP 不会出现因为所有敏感特征域表现同样糟糕来满足度量标准的情况。在我们的分析中,DAP 在下游任务准确性和公平性方面均优于几种对抗性模型。特别是,当与这些度量标准上表现最好的对抗性方法进行比较时,DAP 分别在人口统计学公平性、平等机会和敏感特征的准确性上提高了 22.5%、44.1% 和 40.1%。总体而言,DAP 损失及其相关度量可以在创建更公平的机器学习模型中发挥重要作用。
发布时间: 2/17/2025
查看原文
作者: Yang Li, Junfan Chen, Feng Xue, Jiabin Qiu, Wenbin Li, Qingrui Zhang, Ying Wen, Wei Pan
arXiv:2502.09762v1 宣告类型:交叉 摘要:自适应团队协作,即在无需事先协调的情况下与未见过的队友合作的能力,在多机器人协作中仍是一个未充分探索的挑战。本文关注多无人机协同追踪中的自适应团队协作,这是一个具有实际应用的任务,如边境监控、搜寻救援和反恐行动。我们首先定义并形式化了多无人机追踪中的自适应团队协作(AT-MDP)问题,并引入了AT-MDP框架,这是一个全面的框架,集成了仿真、算法训练和实际部署。AT-MDP框架提供了一个灵活的仿真实验配置器和接口,一个分布式的训练框架,其中包括一个广泛的算法动物园(包括两种新提出的基线方法)和一个未见过的无人机动物园,用于评估自适应团队协作,以及一个利用边缘计算和Crazyflie无人机的实际部署系统。据我们所知,AT-MDP框架是第一个用于复杂实际无人机任务的连续动作决策的自适应框架,使多个无人机能够有效地与未见过的队友协调。在四个逐渐增加难度的多无人机追踪环境中进行的大量实验证实了AT-MDP框架的有效性,而实际部署进一步验证了其在物理系统中的可行性。视频和代码可在 https://sites.google.com/view/at-mdp 获取。
发布时间: 2/17/2025
查看原文
作者: Bereket A. Yilma, Chan Mi Kim, Geke Ludden, Thomas van Rompay, Luis A. Leiva
arXiv:2502.09757v1 交叉公告类型 摘要:重症监护后综合征(PICS)是一种由长时间在重症监护病房(ICU)住院引发的多方面状况。虽然预防ICU患者的PICS变得越来越重要,但干预措施仍然有限。基于艺术接触在解决PICS的心理方面效果的证据,我们提出了一种新型的人机合作艺术疗法解决方案,通过使用最先进的视觉艺术推荐系统增强个性化治疗干预。我们开发了两种人机协作(HITL)个性化方法,并通过大规模用户研究(N=150)评估了它们的影响。我们的研究发现,这种人机合作不仅提高了艺术疗法的个性化和有效性,还通过简化了工作流程支持了治疗师。尽管我们的研究集中在PICS干预上,但结果表明,人机合作的艺术疗法有可能在其他需要情感支持的关键领域,如焦虑和抑郁病例中受益。
发布时间: 2/17/2025
查看原文
arXiv:2502.09749v1 Announce Type: cross 摘要:将大型语言模型(LLMs)集成到闭环机器人任务规划中,在具有体现的人工智能领域变得越来越流行。以往的努力主要集中在利用LLMs的强大推理能力来增强任务规划性能,但往往由于频繁查询LLMs而忽视了任务规划的效率和可执行性。本文探讨了LLMs和任务规划系统之间的协同作用,旨在减少冗余同时增强规划效果。具体而言,在Prog-Prompt和高级概念Tree-Planner的基础上,我们提出了一种名为Vote-Tree-Planner的策略。这种采样策略利用投票来指导决策过程中的计划遍历。我们的方法受到一个简单的观察的启发:在决策过程中为代理分配权重,可以在执行前评估关键路径。借助这种简单的投票树构建方法,我们的方法进一步提高了成功率并减少了对LLMs的查询次数。实验结果表明,与以前的基线方法相比,我们的Vote-Tree-Planner在未见过的数据集上表现出更高的稳定性和更高的平均成功率和目标条件召回率。这些发现强调了Vote-Tree-Planner在LLM基于的规划系统中增强规划准确度、可靠性和效率的潜力。
发布时间: 2/17/2025
查看原文
作者: Md. Zahid Hasan, Abdullah Tamim, D. M. Asadujjaman, Md. Mahfujur Rahman, Md. Abu Ahnaf Mollick, Nosin Anjum Dristi, Abdullah-Al-Noman
arXiv:2502.09731v1 交叉公告类型 摘要:脑肿瘤需要进行评估,以确保及时诊断和有效的患者治疗。形态学因素如大小、位置、纹理以及外观的变异性使肿瘤检查变得复杂。医学成像存在挑战,包括噪声和不完整图像。本文研究了处理磁共振成像(MRI)数据的方法,包括图像分类和去噪技术。有效的MRI图像使用有助于医疗专业人员检测脑部疾病,包括肿瘤。本研究旨在通过分析所提供的MRI数据,对健康脑组织和脑肿瘤进行分类。与如计算机断层摄影(CT)等替代方法相比,MRI技术提供了更详细的人体内部解剖结构的表示,使它成为研究与脑肿瘤相关数据的良好选择。首先对MRI图像进行了去噪处理,使用了各向异性扩散滤波器。用于模型创建的数据集是公开可用且经过验证的脑肿瘤分类(MRI)数据库,包含3,264份脑MRI扫描。采用SMOTE进行数据增强和数据集平衡。对于分类过程,使用了卷积神经网络(CNN),如ResNet152V2、VGG、ViT和EfficientNet。EfficientNet达到了98%的最高准确率。
发布时间: 2/17/2025
查看原文