LLM2D

arXiv 论文列表

作者: Chinthaka Ranasingha, Harshala Gammulle, Tharindu Fernando, Sridha Sridharan, Clinton Fookes
早期诊断自闭症谱系障碍 (ASD) 是提高 ASD 患儿健康和福祉的有效且有利的步骤。由于污染结果的多种因素,人工 ASD 诊断测试劳动密集、复杂且容易出现人为错误。本文提出了一种利用物理定律进行 ASD 严重程度识别的新框架。所提出的基于物理的 神经网络架构对通过观察部分基于骨骼的运动轨迹提取的主题行为进行编码,并将其编码到更高维的潜在空间中。两个解码器,即基于物理的解码器和非基于物理的解码器,使用这种潜在嵌入并预测未来的运动模式。物理分支利用预测过程中适用于骨骼序列的物理定律,而非基于物理的分支则优化为最大程度地减少预测运动与主体实际运动之间的差异。分类器还利用相同的潜在空间嵌入来识别 ASD 严重程度。这种双重生成目标明确地迫使网络将主体的实际行为与受物理定律支配的儿童的一般正常行为进行比较,从而帮助 ASD 识别任务。所提出的方法在多个 ASD 诊断基准上取得了最先进的性能。为了说明所提出的框架在 ASD 诊断任务之外的实用性,我们使用公开可用的基准进行了第三个实验,用于跌倒预测任务,并证明了我们模型的优越性。
发布时间: 9/30/2024
查看原文
作者: Lei Li, Zhifa Chen, Jian Wang, Bin Zhou, Guizhen Yu, Xiaoxuan Chen
近年来,自动驾驶在露天矿山的应用越来越受到关注,旨在实现安全高效的矿物运输。与城市结构化道路相比,矿山非结构化道路边界不规则,缺乏清晰的车道线标识。这导致缺乏足够的约束信息来预测其他人工驾驶车辆的轨迹,从而导致轨迹预测问题的不确定性更高。本文提出了一种方法来预测目标车辆的多种可能轨迹及其概率。将目标车辆周围环境和历史轨迹编码为栅格化图像,作为深度卷积网络的输入,以预测目标车辆的多种可能轨迹。该方法在专门为露天矿山自动驾驶场景设计的数据集上进行了离线测试,并与基于物理的方法进行了比较和评估。开源代码和数据可在 https://github.com/LLsxyc/mine_motion_prediction.git 获取。
发布时间: 9/30/2024
查看原文
作者: Zhenghao Peng, Wenjie Luo, Yiren Lu, Tianyi Shen, Cole Gulino, Ari Seff, Justin Fu
自主驾驶研究中的一个主要挑战是建模代理行为,这在构建用于离线评估的真实可靠模拟以及预测车流代理运动以进行车载规划等方面具有关键应用。虽然监督学习在跨越各个领域建模代理方面已取得成功,但这些模型在测试时可能会出现分布偏移。在这项工作中,我们通过使用强化学习对行为模型进行闭环微调来提高代理行为的可靠性。我们的方法展示了改进的整体性能,以及改进的目标指标,例如在 Waymo Open Sim Agents 挑战赛上的碰撞率。此外,我们还提出了一种新颖的策略评估基准,以直接评估模拟代理衡量自动驾驶规划器质量的能力,并证明了我们的方法在这个新基准上的有效性。
发布时间: 9/30/2024
查看原文
尽管人工智能和自然语言处理取得了最近的进展,但谈判仍然是人工智能代理的一个难题。传统的博弈论方法在双人零和博弈中效果很好,但在谈判的背景下却难以奏效,因为它们无法学习与人类兼容的策略。另一方面,仅使用人类数据的策略往往是特定于领域的,并且缺乏基于博弈论的策略所提供的理论保证。受公平作为一般和博弈最优性标准的启发,我们提出了一种名为 FDHC 的谈判框架,该框架将公平性纳入奖励设计和搜索,以学习与人类兼容的谈判策略。我们的方法包括一种新颖的 RL+搜索技术,称为 LGM-Zero,它利用预训练的语言模型从大型动作空间中检索与人类兼容的提议。我们的结果表明,我们的方法能够实现更平等的谈判结果并提高谈判质量。
发布时间: 9/30/2024
查看原文
作者: Theo Gregersen, Pratyush Patel, Esha Choukse
众所周知,GPU 耗电量惊人,而随着人工智能的蓬勃发展,它们已成为即将到来的数据中心高能耗的主要贡献者。这些流行工作负载中的大多数 GPU 使用都包含大型通用矩阵乘法 (GEMM),因此已针对这些操作进行了优化,以实现对硬件资源的高利用率。在本研究中,我们表明,在保持矩阵形状和大小不变的情况下,修改 GEMM 的输入数据可以显著改变这些内核的功耗。我们针对不同数据类型,对四种输入变化进行了实验:值分布、位相似度、位置和稀疏度。我们的研究结果表明,这些变化可以将 GEMM 期间的 GPU 功耗改变近 40%。我们假设输入相关的功耗变化是由于 GPU 中位翻转次数的变化造成的。我们建议通过编译器和调度器优化利用此属性来管理功耗并降低能耗。
发布时间: 9/30/2024
查看原文
作者: Chuang Niu, Parisa Kaviani, Qing Lyu, Mannudeep K. Kalra, Christopher T. Whitlow, Ge Wang
结构化的放射学报告有利于优化临床工作流程和患者预后。当前用于创建结构化报告的 LLM 面临着格式错误、内容幻觉以及上传到外部服务器时隐私泄露的挑战。我们的目标是开发一种增强的开源 LLM,用于从自由文本描述中创建结构化和标准化的 LCS 报告。在获得机构 IRB 批准后,我们回顾性分析了来自两个机构的 5,442 个去标识化的 LCS 报告。从两个机构随机选取 500 个报告,并进行均匀分配,然后手动标记以进行评估。来自两个机构的两位放射科医生共同开发了一个标准化模板,其中包含 29 个用于肺结节报告的功能。我们提出了一种模板约束解码方法来增强最先进的开源 LLM,包括 LLAMA、Qwen 和 Mistral。对 LLM 的性能进行了广泛评估,包括 F1 分数、置信区间、McNemar 检验和 z 检验。基于从大型数据集创建的结构化报告,我们对结节级检索系统进行了原型设计,并进行了自动统计分析。我们的软件 vLLM-structure 可公开获取,用于本地部署,并配备了增强型 LLM。我们的模板约束解码方法在多机构数据集上始终如一地提高了 LLM 的性能,既没有格式错误,也没有内容幻觉。我们的方法将最佳开源 LLAMA-3.1 405B 提高了高达 10.42%,并且优于 GPT-4o 17.19%。我们使用增强的 LLM 技术成功地对一个新颖的结节检索系统进行了原型设计,并在大型多模态数据库上进行了演示。自动得出的统计分布与先前关于结节类型、位置、大小、状态和 Lung-RADS 的发现高度一致。
发布时间: 9/30/2024
查看原文
作者: Yuexing Hao, Jason M. Holmes, Jared Hobson, Alexandra Bennett, Daniel K. Ebner, David M. Routman, Satomi Shiraishi, Samir H. Patel, Nathan Y. Yu, Chris L. Hallemeier, Brooke E. Ball, Mark R. Waddle, Wei Liu
大型语言模型(LLM)已取代传统方法,成为许多自然语言处理任务的主流。然而,在命名实体识别(NER)方面,现有的基于LLM的方法...
发布时间: 9/30/2024
查看原文
作者: Georgios Feretzakis, Vassilios S. Verykios
大型语言模型(LLMs)通过实现强大的文本生成和理解能力,彻底改变了自然语言处理(NLP)。然而,它们在医疗保健、金融和法律服务等敏感领域中的应用引发了关于隐私和数据安全的重大担忧。本文提出一个全面的框架,将信任机制嵌入到LLMs中,以动态控制敏感信息的披露。该框架集成了三个核心组件:用户信任画像、信息敏感性检测和自适应输出控制。通过利用基于角色的访问控制(RBAC)、基于属性的访问控制(ABAC)、命名实体识别(NER)、上下文分析以及差分隐私等隐私保护方法,该系统确保敏感信息根据用户的信任级别适当地披露。通过关注数据效用和隐私之间的平衡,所提出的解决方案为在高风险环境中安全部署LLMs提供了一种新方法。未来的工作将重点放在跨不同领域测试该框架,以评估其在管理敏感数据的同时保持系统效率方面的有效性。
发布时间: 9/30/2024
查看原文
作者: Elliot L. Epstein, Kaisheng Yao, Jing Li, Xinyi Bai, Hamid Palangi
评估多模态、多轮对话的指令遵循能力具有挑战性。由于输入模型上下文中可能存在多个指令,因此该任务对于人工评分者来说非常耗时,我们发现基于大型语言模型的评判者会偏向于来自同一模型的答案。我们提出了 MMMT-IF,这是一个基于图像的多轮问答评估集,在问题之间增加了全局指令,约束了答案格式。这挑战了模型从长对话中检索分散的指令并在指令约束下进行推理的能力。所有指令都可通过代码执行客观地验证。我们引入了程序化指令遵循 ($\operatorname{PIF}$) 指标来衡量在执行推理任务时正确遵循指令的比例。$\operatorname{PIF-N-K}$ 指标集通过测量语料库中样本的比例来进一步评估鲁棒性,对于每个样本,至少有 K 个生成的模型响应中的 N 个实现 $\operatorname{PIF}$ 得分为 1。$\operatorname{PIF}$ 指标与人工指令遵循评分一致,显示出 60% 的相关性。实验表明,Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 的 $\operatorname{PIF}$ 指标从所有模型在第 1 轮的平均 0.81 下降到第 20 轮的 0.64。在所有轮次中,当每个响应重复 4 次 ($\operatorname{PIF-4-4}$) 时,GPT-4o 和 Gemini 仅在 $11%$ 的时间里成功地遵循所有指令。当所有指令也附加到模型输入上下文的末尾时,$\operatorname{PIF}$ 指标平均提高了 22.3 个点,这表明该任务的挑战不仅在于遵循指令,还在于检索分散在模型上下文中的指令。我们计划开源 MMMT-IF 数据集和指标计算代码。
发布时间: 9/30/2024
查看原文
作者: Myles Foley, Chris Hicks, Kate Highnam, Vasilios Mavroudis
在网络安全军备竞赛中,防御方处于明显劣势,因为他们需要成功检测和抵御每一次恶意攻击。相比之下,攻击者只需要成功一次。为了平衡竞争环境,我们研究了自主代理在现实网络防御场景中的有效性。我们首先概述了问题,提供了强化学习的背景,并详细介绍了我们提出的代理设计。使用一个包含 13 个主机跨越 3 个子网的网络环境模拟,我们训练了一个新的强化学习代理,并表明它可以可靠地防御两个高级持续威胁 (APT) 红色代理的持续攻击:一个完全了解网络布局,另一个必须通过探索发现资源,但更通用。
发布时间: 9/30/2024
查看原文