LLM2D

arXiv 论文列表

作者: Siddharth Srikanth, Varun Bhatt, Boshen Zhang, Werner Hager, Charles Michael Lewis, Katia P. Sycara, Aaquib Tabrez, Stefanos Nikolaidis
arXiv:2504.03991v1 Announce Type: cross 摘要:理解人类在团队中如何协作和交流对于改善人类-代理团队合作和AI辅助决策至关重要。然而,依赖大规模用户研究的数据是不实际的,因为存在物流、伦理和实践上的限制,这要求合成多种多样的人类行为模型。最近,由大规模语言模型(LLMs)驱动的智能体已被证明能够在社交环境中模仿人类行为。但是,获得一组多样化的行为需要手动设计提示的形式努力。另一方面,质量多样性(QD)优化已被证明能够生成多样化的强化学习(RL)智能体行为。在本文中,我们将QD优化与由LLMs驱动的智能体结合,以迭代地搜索能够生成多样化团队行为的提示,尤其是在长时间、多步协作的环境中。我们首先通过一项人类被试实验(n=54参与者)表明,人类在该领域中表现出多样化的协调和交流行为。然后,我们证明了我们的方法能够有效地复制人类团队合作数据中的趋势,并且能够捕捉到不便于在收集大量数据后观察到的行为。我们的研究结果突显了QD与LLMs驱动智能体的结合作为一种有效工具,用于研究多智能体协作中的团队合作和交流策略。
发布时间: 4/8/2025
查看原文
作者: Gabriel Shimanuki, Alexandre Nascimento, Lucio Vismari, Joao Camargo Jr, Jorge Almeida Jr, Paulo Cugnasca
arXiv:2504.03989v1 类型: cross 摘要:自主车辆(AVs)旨在通过减少人为错误来提高交通安全性与效率。然而,在涉及罕见且高风险交通场景时,确保AVs的安全性和可靠性是一项挑战。此类“拐角情况”(CC)场景,例如未预见的车辆操作或突然的行人横穿,必须在AVs运行过程中安全且可靠地处理。但这些情况难以高效地生成。传统CC生成依赖于成本高昂且存在风险的真实世界数据采集,限制了其可扩展性,并减缓了研究与开发的进程。基于模拟的技术也面临挑战,因为模型多样场景并且捕捉所有可能的CCs复杂且耗时。为应对CC生成的这些局限性,本研究引入了CORTEX-AVD,该框架结合了CARLA模拟器和Scenic,以文本描述自动生成CC,增加场景建模的多样性和自动化。遗传算法(GA)用于优化六个案例研究中的场景参数,提高高风险事件的发生率。与以前的方法不同,CORTEX-AVD结合了一个多因素适应度函数,考虑了距离、时间、速度和碰撞可能性等因素。此外,研究还提供了一种基于GA的CC生成方法的基准,为合成数据生成和场景评估的标准评估做出了贡献。实验结果表明,CORTEX-AVD框架显著增加了CC的发生率,同时减少了无用模拟的占比。
发布时间: 4/8/2025
查看原文
作者: Francesco De Santis, Gabriele Ciravegna, Philippe Bich, Danilo Giordano, Tania Cerquitelli
arXiv:2504.03978v1 类别:交叉领域 摘要:概念驱动的可解释人工智能(C-XAI)是一个迅速发展的研究领域,通过利用中间的人类可理解概念来增强AI模型的可解释性。这种方法不仅增强了模型的透明度,还允许人类干预,使用户能够与这些概念互动,以细化和改进模型的性能。概念瓶颈模型(CBMs)在做出最终决策前明确预测概念,从而允许干预纠正误分类的概念。尽管CBMs在有干预的情况下仍然在非分布外(OOD)设置中有效,但它们在与黑箱模型相比时的表现仍然较差。概念嵌入模型(CEMs)通过从概念预测和输入数据中学习概念嵌入来解决这一问题,从而提高了分布内(ID)的准确性,但降低了干预的有效性,尤其是在OOD场景中。在这项工作中,我们提出了变分概念嵌入模型(V-CEM),这是一种利用变分推断提高CEM中干预响应性的模型。我们从分布内(ID)性能、分布内和分布外(OOD)设置中的干预响应性以及我们提出的概念表示一致性(CRC)度量(用于评估概念嵌入表示质量的指标)等方面评估了该模型。结果显示,V-CEM保留了CEM级的ID性能,同时在OOD设置中实现了与CBM相似的干预效果,有效缩小了可解释性(干预)与泛化性(性能)之间的差距。
发布时间: 4/8/2025
查看原文
作者: Dylan Riffle, Nima Shirooni, Cody He, Manush Murali, Sovit Nayak, Rishikumar Gopalan, Diego Gonzalez Lopez
arXiv:2504.03976v1 交叉公告类型:交叉领域 摘要:OLAF(开放生命科学分析框架)是一个开源平台,允许研究人员使用自然语言进行生物信息学分析。通过将大型语言模型(LLMs)与模块化代理-管道-路由器架构相结合,OLAF可以在真实科学数据上生成并执行生物信息学代码,包括.h5ad格式。该系统包含一个基于Angular的前端和一个基于Python/Firebase的后端,使用户能够通过简单的网页界面运行单细胞RNA-seq工作流程、基因注释和数据可视化。与通用人工智能工具不同,OLAF在可重复且用户友好的环境中集成了代码执行、数据处理和科学库。该平台旨在降低非程序员进入计算生物学的门槛,并支持透明的、由AI驱动的生命科学研究。
发布时间: 4/8/2025
查看原文
作者: Wenliang Zheng, Sarkar Snigdha Sarathi Das, Yusen Zhang, Rui Zhang
arXiv:2504.03975v1 宣布类型: 横跨领域 摘要: 大型语言模型(LLMs)因其在各种任务上的出色能力而在研究人员和普通公众中获得了极大的 popularity。值得注意的是,LLMs 的有效性仍然显著依赖于输入提示的质量和结构,这使得提示设计成为其性能的关键因素。最近在自动化提示优化方面的进步引入了各种技术,这些技术可以自动增强提示,使其更好地与用户期望对齐。然而,这些方法通常在不同技术之间缺乏标准化和兼容性,灵活性有限,难以定制,且在同一模型规模下的性能存在不一致性,并且它们常常仅依赖于昂贵的专有 LL defense APIs。为了填补这一空白,我们提出了 GREATERPROMPT,这是一种新颖的框架,通过在统一且可定制的 API 下统一各种方法来普及提示优化,从而为不同任务提供高度有效的提示。我们的框架通过结合基于文本反馈的优化(用于更大规模的 LLMs)和基于内部梯度的优化(用于较小规模的模型)来实现强大的精准提示改进,从而灵活地适应各种模型规模。此外,我们提供了一个用户友好的 Web UI,以确保非专家用户能够无障碍地使用,从而促进更广泛的采用并提高不同用户组和应用场景下的性能。GREATERPROMPT 可通过 GitHub、PyPI 和 web 用户界面从 https://github.com/psunlpgroup/GreaterPrompt 获得。
发布时间: 4/8/2025
查看原文
作者: Dahun Kim, AJ Piergiovanni, Ganesh Mallya, Anelia Angelova
arXiv:2504.03970v1 类型: cross 摘要:我们引入了VideoComp,这是一个基准和学习框架,旨在推进视频-文本组成性的理解,以改善视觉-语言模型(VLMs)在精细时间对齐方面的表现。与专注于静态图像-文本组成性或孤立单个事件视频的现有基准不同,我们的基准针对的是连续多事件视频中的时间对齐。借助具有时间局部事件描述的视频-文本数据集(例如ActivityNet-Captions、YouCook2),我们构建了两个组成性基准:ActivityNet-Comp和YouCook2-Comp。我们创建了具有细微时间中断的具有挑战性的负样本,如内容重排、动作词替换、部分描述和组合中断。这些基准全面测试了模型在扩展连贯的视频-文本序列中的组成性敏感性。为了提高模型性能,我们提出了一种分层成对偏好损失,该损失增强了与时间准确配对的对齐,并逐渐惩罚越来越多中断的配对,从而鼓励细致的组成性学习。为了缓解密集标注视频数据的有限可用性,我们引入了一种预训练策略,将短视频-描述片段串联起来以模拟多事件序列。我们在我们的基准上评估了视频-文本基础模型和大型多模态模型(LMMs),识别了组成性的优势和需要改进的方面。总体而言,我们的工作提供了一个全面的框架,用于评估和增强模型在实现精细时间一致的视频-文本对齐方面的能力。
发布时间: 4/8/2025
查看原文
arXiv:2504.03966v1 宣告类型: cross 摘要: 将大型语言模型(LLMs)与学习管理系统(LMSs)集成有望增强教育中的任务自动化和 доступ性。然而,LLMs 生成不准确或误导性信息的幻觉仍然是一个重大挑战。这项研究介绍了动态课程内容集成(DCCI)机制,该机制动态检索并整合来自 Canvas LMS 的课程内容和课程体系,以供 LLM 助手 Ask ME 使用。通过运用提示工程在 LLM 的上下文窗口内结构化检索内容,DCCI 保证了准确性、相关性和上下文对齐,从而减轻了幻觉问题。为了评估 DCCI 的有效性,Ask ME 的可用性以及更广泛的学生对教育中 AI 的看法,采用了混合方法,结合了用户满意度评分和结构化调查。试点研究结果表明,用户满意度很高(4.614/5),学生认识到 Ask ME 能够提供及时且上下文相关的回答,适用于行政和课程相关问题。此外,大多数学生认为 Ask ME 与 Canvas LMS 的课程内容集成减少了平台切换,从而提高了可用性、参与度和理解力。AI 在减少课堂犹豫、促进自主学习和启迪性的角色也得到了突出。尽管具有这些优点和对 AI 工具的积极看法,但对过度依赖 AI、准确性的限制以及学术不端(如抄袭)和减少学生与教师互动的伦理问题的担忧也随之出现。这些发现强调了战略实施 AI、伦理防护和以人机协作优先于替代的人本主义教学框架的需要。
发布时间: 4/8/2025
查看原文
arXiv:2504.03964v1 交叉类型: 新闻 摘要: 我们介绍了Clinical ModernBERT,这是一种基于大规模生物医学文献、临床笔记和医学本体进行预训练的变换器编码器,同时融入了PubMed摘要、MIMIC IV临床数据和带有文本描述的医学编码。在ModernBERT的基础上,我们的模型借鉴了当前最先进的自然语言文本编码器的架构升级,如旋转位置嵌入(RoPE)、Flash Attention和扩展的上下文长度至8192个标记,专门针对生物医学和临床领域进行了适应性改进。Clinical ModernBERT在生成适合长上下文任务的语义丰富表示方面表现出色。我们通过分析其预训练权重和通过对全面的临床NLP基准进行实证评估来验证这一点。
发布时间: 4/8/2025
查看原文
作者: Xinling Yu, Ziyue Liu, Hai Li, Yixing Li, Xin Ai, Zhiyu Zeng, Ian Young, Zheng Zhang
arXiv:2504.03955v1 交叉类型: cross 摘要:热分析对于三维集成电路(3D-IC)设计至关重要,由于功率密度的增加和复杂的散热路径。尽管诸如DeepOHeat这样的操作学习框架已经在加速热模拟方面展示了有希望的初步结果,但在预测多尺度热模式的能力、训练效率以及设计优化期间结果的可靠性方面,它们面临着关键的限制。本文提出了DeepOHeat-v1,这是一种通过三项关键创新解决这些挑战的增强型物理知情操作学习框架。首先,我们整合了柯尔莫哥罗夫-阿诺德网络与可学习的激活函数作为主网络,使其能够适应性地表示多尺度热模式。这种方法在两个代表性测试案例中分别实现了1.25倍和6.29倍的误差减小。其次,我们引入了一种分离的训练方法,沿着坐标轴分解基函数,我们的基准案例中实现了62倍的训练加速和31倍的GPU内存减少,从而使由于GPU内存限制而无法实现的热分析成为可能。第三,我们提出了一种置信分数来评估预测结果的可靠性,并进一步开发了一种结合操作学习和有限差分(FD)的混合优化工作流,使用广义最小残差(GMRES)方法进行增量解决方案细化,从而实现高效且可信赖的热优化。实验结果表明,DeepOHeat-v1在准确性上与使用高保真有限差分求解器进行优化相媲美,同时在我们的测试案例中加快了整个优化过程70.6倍,通过优化热发生组件的位置有效降低了峰值温度。
发布时间: 4/8/2025
查看原文
arXiv:2504.03953v1 Announce Type: cross 摘要:TGraphX 通过将卷积神经网络(CNNs)与图神经网络(GNNs)统一起来,为提升视觉推理任务提供了一个新颖的框架。传统的 CNN 在从图像中提取丰富的空间特征方面表现出色,但在建模对象间关系方面缺乏内在能力。相比之下,传统的 GNNs 通常依赖于展平后的节点特征,因此会丢弃重要的空间细节。TGraphX 通过使用 CNN 生成多维节点特征(例如(3*128*128)张量),这些特征保留了局部的空间语义来克服这些限制。这些具有空间意识的节点参与了一个图,在其中使用 1*1 卷积进行消息传递,这可以融合相邻特征同时保持其结构。此外,使用带有残差连接的深层 CNN 聚合器来稳健地细化融合的消息,以确保稳定的梯度流动和端到端的可训练性。我们的方法不仅填补了空间特征提取与关系推理之间的鸿沟,还在对象检测细化和集成推理方面展示了显著的改进。
发布时间: 4/8/2025
查看原文