LLM2D

arXiv 论文列表

作者: Ahmed R. Sadik, Muhammad Ashfaq, Niko M\"akitalo, Tommi Mikkonen
arXiv:2505.00368v1 宣布类型: 新 摘要:城市空中交通(UAM)是一个正在发展的系统体系(SoS),它在系统架构、规划、任务管理和执行方面面临着挑战。传统的体系结构方法在应对动态和复杂环境中可扩展性、适应性和无缝资源集成方面的表现不尽如人意。本文提出了一种智能类层架构,该架构结合了大型语言模型(LLM)以应对UAM的复杂性。类层在半自主状态下运作,允许空中出租车、地面运输和垂直机场之间的实时协调。大型语言模型处理自然语言输入,生成适应性计划,并管理天气变化或 airspace 关闭等干扰。通过对多模式交通案例研究,使用电动滑板车和空中出租车,我们展示了这种架构如何实现动态资源分配、实时再规划和在没有集中控制的情况下自主适应,从而创建更具有弹性和效率的城市交通网络。通过推进分散控制和人工智能驱动的适应性,这项工作为具有弹性和以人为中心的UAM生态系统奠定了基础,未来的研究将侧重于混合人工智能集成和现实世界验证。
发布时间: 5/2/2025
查看原文
作者: Rukma Talwadker, Surajit Chakrabarty, Aditya Pareek, Tridib Mukherjee, Deepak Saini
arXiv:2505.00325v1 官方类型: 新 摘要:游戏是实现自我价值和放松的一种最安全的方式之一。在线游戏平台通常会收到大量的数据,例如游戏内的动作、玩家移动、点击流、交易等。有趣的是,即使是关于游戏动作的数据也可以基于玩家在游戏中的冲动反应和对情况的应对,帮助创建玩家当时的心理印记。挖掘这些知识可以:(a) 立即更好地解释观察到和预测的玩家行为;以及 (b) 从而深入理解玩家的体验、成长和保护。为此,我们专注于发现“游戏行为”,即由连续游戏序列形成的微观模式,以及玩家的“玩法风格”,即这些序列的序列在在线技能型纸牌游戏平台上的聚合。我们提出了一种两阶段深度神经网络,CognitionNet。第一阶段专注于在潜在空间中挖掘游戏行为作为聚类表示,而第二阶段则通过监督分类目标聚集这些微观模式来发现玩家的玩法风格。双重目标使CognitionNet能够揭示多种受到玩家心理启发的决策和策略。据我们所知,这是第一次并且是独一无二的研究,完全自动化了从遥测数据中发现:(i) 玩家心理和游戏策略;以及(ii) 玩家参与预测的相关诊断解释。通过一种新颖的“桥梁损失”形式化的双网络协作训练,使两个网络能够使用不同的输入维度进行训练。该网络在获取一致且集中的玩法风格定义方面发挥关键作用,并在适用情况下显著优于最先进基准。
发布时间: 5/2/2025
查看原文
作者: Lo Pang-Yun Ting, Yu-Hao Chiang, Yi-Tung Tsai, Hsu-Chao Lai, Kun-Ta Chuang
arXiv:2505.00278v1 宣告类型: 新 摘要: 在半导体行业中,集成电路(IC)工艺扮演着至关重要的角色,随着复杂性的增加和市场期望的提升,需要改进产量。识别IC缺陷并将IC测试任务分配给合适的工程师可以提高效率并降低成本。尽管当前的研究强调故障定位或缺陷分类,但它们忽视了整合缺陷特征、历史故障以及工程师专长的洞察力,这限制了它们在提高IC处理方面的效果。为了解决这些挑战,我们提出了一种名为DeCo的创新方法,用于优化IC测试中的任务分配。DeCo从IC测试报告中构建了一种新型的缺陷感知图,捕捉共失效关系以增强缺陷区分能力,即使在缺陷数据稀缺的情况下也是如此。此外,它还为工程师和任务构建了缺陷感知表示,通过缺陷感知图上的局部和全局结构建模来强化这些表示。最后,一种基于对比的分配机制通过考虑工程师的技术水平和当前工作量,将测试任务配对给QA工程师,从而促进公平和高效的工作分配。在真实数据集上的实验表明,DeCo在不同的场景下实现了最高的任务处理成功率,超过80%,同时在稀缺或扩大缺陷数据的情况下也保持了平衡的工作负荷。此外,案例研究显示,DeCo能够为工程师分配潜在合适的任务,即使是对不熟悉的缺陷,突显了其作为AI驱动的解决方案在实际IC故障分析和任务处理中的潜力。
发布时间: 5/2/2025
查看原文
作者: Sumit Verma, Pritam Prasun, Arpit Jaiswal, Pritish Kumar
arXiv:2505.00204v1 宣告类型: 新 摘要:随着人工智能系统嵌入到实际应用中,确保其符合伦理标准至关重要。尽管现有的AI伦理框架强调公平、透明和问责制,但它们往往缺乏可操作的评估方法。本文介绍了一种使用Responsible AI Labs(RAIL)框架的系统方法,该框架包括八个可测量维度,用于评估大型语言模型(LLMs)的规范行为。我们应用此框架对Anthropic的“自然情境中的价值观”数据集进行了分析,该数据集包含超过308,000个匿名的与Claude的对话以及超过3,000个标注的价值表达。我们的研究将这些价值映射到RAIL维度,计算合成分数,并提供有关LLMs在实际使用中的伦理行为的见解。
发布时间: 5/2/2025
查看原文
作者: Ilan Strauss, Isobel Moure, Tim O'Reilly, Sruly Rosenblat
arXiv:2505.00174v1 宣告类型: 新 摘要: 在2020年1月至2025年3月期间,我们从9,439篇生成式AI论文中抽取了1,178篇关于安全性和可靠性的论文,比较了领先AI公司(Anthropic、Google DeepMind、Meta、Microsoft和OpenAI)和AI大学(CMU、MIT、NYU、Stanford、UC Berkeley和华盛顿大学)的研究成果。我们发现,企业AI研究越来越集中于部署前的领域——模型对齐和测试与评估,而在部署阶段的问题,如模型偏见的关注度有所下降。在包括医疗保健、金融、虚假信息、具有说服力和上瘾特性的功能、幻觉和版权在内的高风险部署领域,存在显著的研究空白。如果没有改进部署AI的可观察性,企业集中度的增长可能会加深知识赤字。我们建议扩大外部研究人员对部署数据的访问,并系统地观察市场中AI的行为。
发布时间: 5/2/2025
查看原文
作者: Isabelle Bloch, Enzo Bonnot, Pietro Gori, Giammarco La Barbera, Sabine Sarnacki
arXiv:2505.00173v1 通知类型: 新 摘要: 本文基于纤维轨迹的解剖描述,处理和识别医学图像中的纤维丛及其特别是神经丛。为此,我们提出了一种对这种解剖知识的逻辑形式化。解剖教科书中关于神经的固有不精确描述促使我们提出了结合一阶逻辑的模糊语义。我们定义了一种语言,用于表示空间实体、这些实体之间的关系和量词。这种语言中的公式则是对自然语言描述的形式化。语义通过具体领域中的模糊表示和关系的满足程度给出。基于这种形式化,我们提出了一种空间推理算法,用于从解剖和扩散磁共振成像中分割和识别神经,这在儿科成像中的骨盆神经上得到了演示,使外科医生能够规划手术。
发布时间: 5/2/2025
查看原文
arXiv:2505.00018v1 宣告类型:新 摘要:这篇立场论文批判性地回顾了人类与AI代理合作的广泛近期经验发展,强调了它们的技术成就以及持续存在的不足。我们注意到缺乏一个统一的理论框架,能够一致地整合这些各不相同的研究所面临的挑战,尤其是在应对开放性、复杂任务时。为解决这一问题,我们提出了一个新颖的概念架构:一种系统性地链接多代理协调、知识管理、反馈环路和高级控制机制的技术细节的方法。通过将现有的贡献,从符号AI技术、连接主义LLM基础代理到混合组织实践,映射到这一提议的框架(层次探索-利用网络),我们的方法促进了对现有方法的修订,并激发了一种融合定性和定量范式的新型工作。论文结构允许从任何部分阅读,同样适合作为对技术实现的批判性回顾,以及作为设计或扩展人类与AI共生关系的前瞻参考资料。这些见解共同提供了一个逐步加深人类认知与AI能力共同进化的阶梯。
发布时间: 5/2/2025
查看原文
作者: Junyuan Fang, Han Yang, Haixian Wen, Jiajing Wu, Zibin Zheng, Chi K. Tse
arXiv:2504.20869v2 宣布类型: 替换-交叉 摘要:由于其在利用邻居的局部信息方面具有强大的学习能力,图神经网络已被广泛用于解决图相关的任务。然而,近期关于图对抗攻击的研究表明,当前的图神经网络对恶意攻击缺乏 robust 性。尽管现有工作大多集中在基于攻击性能的优化目标以获得(接近)最优扰动,但较少关注每个扰动如特定节点/链的注入强度的量化,使扰动的选择成为一个缺乏可解释性的黑箱模型。本文中,我们提出了噪声的概念,用于量化每个对抗链接的攻击强度。此外,我们基于定义的噪声和分类余量,提出了三种基于单步和多步优化的攻击策略。在针对三个代表性的图神经网络基准数据集的广泛实验中,展示了所提出攻击策略的有效性。特别地,我们还通过分析所选扰动节点的相关属性,研究了有效对抗扰动的偏好模式。
发布时间: 5/1/2025
查看原文
作者: Zhonghao Li, Kunpeng Zhang, Jinghuai Ou, Shuliang Liu, Xuming Hu
arXiv:2504.20114v2 通知类型: 替换-交叉 摘要:检索增强生成(RAG)系统在多跳问答(MHQA)中面临重大挑战,其中复杂的查询需要跨多个文档片段综合信息。现有方法通常依赖于迭代的LLM基查询重写和路由,这导致了高计算成本,因为需要多次调用LLM和多阶段过程。为了解决这些限制,我们提出了一种无需在查询精化过程中使用LLM的基于嵌入的TreeHop框架。TreeHop通过融合先前查询和检索文档的语义信息,动态更新查询嵌入,仅通过嵌入空间操作即可实现迭代检索。该方法用简洁的“检索-嵌入-检索”循环取代了传统的“检索-重写-向量化-检索”周期,显著降低了计算开销。此外,引入了基于规则的停止标准,进一步减少冗余检索,平衡了效率和召回率。实验结果显示,TreeHop在三个开放域MHQA数据集中与先进的RAG方法相媲美,仅使用5%-0.4%的模型参数大小就能实现相当的性能,并且与同时的方法相比,查询延迟大约减少了99%。这使得TreeHop成为一个更快速且更经济高效的应用于知识密集型应用程序部署的解决方案。为了便于再现性,代码和数据可供在此处获取:https://github.com/allen-li1231/TreeHop-RAG。
发布时间: 5/1/2025
查看原文
arXiv:2504.19394v2 通告类型: 替换-交叉 摘要:大型语言模型(LLMs)已经改变了软件工程,但在物理工程领域的应用仍被广泛探索。本文通过使用RocketBench作为基准,将LLMs连接到高保真火箭仿真,来评估LLMs在火箭设计中的能力。我们测试了模型在两个逐渐复杂的任务上的表现:目标高度优化和精确着陆挑战。我们的研究结果表明,尽管最先进的LLMs展示了强大的基本工程知识,但在面对仿真结果时却难以进行设计迭代,并最终在性能上落后于人类水平。然而,当使用增强学习(RL)进行增强时,我们展示了参数为7B的模型在性能上超过了最先进的基础模型和人类专家。这项研究证明了RL训练的LLMs可以用作复杂工程优化的有效工具,有可能将工程领域扩展到软件开发之外。
发布时间: 5/1/2025
查看原文