LLM2D

arXiv 论文列表

arXiv:2505.01881v1 交叉公告类型 摘要:在多样化的环境和领域中实现鲁棒导航既需要准确的状态估计,也需要透明的决策过程。我们提出了PhysNav-DG,这是一种新颖的框架,它将经典的传感器融合与视觉语言模型的语义能力相结合。我们的双支路架构可以从多种传感器输入中预测导航动作,同时生成详细的推理链解释。修改后的自适应卡尔曼滤波器根据环境上下文动态调整其噪声参数。它利用多路原始传感器数据,并结合像LLaMA 3.2 11B和BLIP-2这样的模型的语义洞察。为了评估我们的方法,我们引入了MD-NEX基准,这是一种新颖的多领域数据集,它统一了室内导航、自主驾驶和社会导航任务,并配有真实动作和人类验证的解释。广泛的实验和消融研究表明,PhysNav-DG 的导航成功率提高了超过 20%,并且具有高效率的特点,其解释既高度具象又清晰。这项工作将高层语义推理与几何规划相结合,为更安全和更可信的自主系统建立了一个桥梁。
发布时间: 5/6/2025
查看原文
作者: Ji\v{r}\'i Mili\v{c}ka, Anna Marklov\'a, Ond\v{r}ej Drobil, Eva Posp\'i\v{s}ilov\'a
arXiv:2505.01877v1 交叉学科类型 摘要:本研究探讨了在提供即时反馈的情况下,个体是否能够学会准确区分人写的和AI生成的文字,以及他们能否利用反馈来重新校准其自我认知的能力。我们还探讨了个体在做出这些判断时依赖的具体标准,重点是文本风格和可读性。 我们使用GPT-4o生成了几百篇跨不同体裁和文本类型的文本,类似于Koditex,即一个人写的多体裁语料库。然后,我们随机向255名捷克母语者展示了随机配对的文字,让他们判断哪个文本是人写的,哪个是AI生成的。参与者被随机分配到两个条件组:一组在每次试验后接收即时反馈,另一组在实验结束前不接收反馈。我们记录了他们在识别准确性、信心水平、反应时间和对文本可读性的判断,以及人口统计学数据和参与者在实验前与AI技术的互动情况。 接受即时反馈的参与者在准确性和信心校准方面表现出显著提高。参与者最初对AI生成文本特征持有错误假设,包括对风格僵化和可读性的预期。值得注意的是,在没有反馈的情况下,参与者在感觉最自信时犯了最多的错误——这一问题在反馈组中得到了很大程度的解决。 通过针对性的培训和明确的反馈,个体能够有效学会区分人写的和AI生成的文本,这有助于纠正人们关于AI风格特征和可读性的误解,以及其他未探索的潜在变量,从而促进更准确的自我评估。这一发现可能在教育环境中尤为重要。
发布时间: 5/6/2025
查看原文
作者: Anthony Nguyen, Wenjun Lin
arXiv:2505.01855v1 交叉类型: cross 摘要: 转换器模型在自然语言处理领域建立了新的基准;然而,其逐渐增加的深度导致参数数量显著增长。尽管现有的递归转换器方法通过多次重新处理层来解决这一问题,但它们往往在整个层块中不分青红皂白地应用递归。在本工作中,我们研究了层内递归(ILR),这是一种更精确的方法,可以在单一前向传播过程中有选择地将递归应用于各个层。我们的实验表明,将更多的迭代分配给较早的层可以得到最佳结果。这些发现表明,ILR 提供了一个有前途的方向,用于优化转换器架构中的递归结构。
发布时间: 5/6/2025
查看原文
作者: Yuwen Chen, Zafer Yildiz, Qihang Li, Yaqian Chen, Haoyu Dong, Hanxue Gu, Nicholas Konz, Maciej A. Mazurowski
arXiv:2505.01854v1 类别:交叉 摘要:手动注释体积医学影像,如磁共振成像 (MRI) 和计算机断层扫描 (CT),是一个劳动密集型且耗时的过程。最近在视频对象分割基础模型方面的进展,例如分割一切皆有可能模型 2 (SAM 2),为通过手动标注一个或几个切片,然后在整个体积中传播目标掩膜,显著加速标注过程提供了可能。然而,在这种情况下,SAM 2 的性能各异。我们的实验表明,依赖单一记忆库和注意力模块容易导致错误传播,特别是在目标在前一个切片存在但在当前切片不存在的边界区域。为了解决这个问题,我们提出了一种新颖的架构——短-长记忆 SAM 2 (SLM-SAM 2),它结合了独立的短期和长期记忆库以及各自的关注模块,以提高分割准确性。我们将在 MRI 和 CT 模态下涵盖器官、骨骼和肌肉的三个公开数据集上评估 SLM-SAM 2。我们展示了所提出的方法在初始适应时有 5 个和 1 个体积可用的情况下,分别在平均 Dice 相似性系数上显著优于默认的 SAM 2,提高了 0.14 和 0.11。SLM-SAM 2 还表现出更强的防止过度传播的能力,这标志着朝着更准确的自动化医学图像分割模型开发迈出了一大步。
发布时间: 5/6/2025
查看原文
arXiv:2505.01823v1 Announce Type: cross 摘要:在田间收集大规模的农作物病害图像劳动密集且耗时。生成模型(GMs)通过创建类似于真实世界图像的合成样本,提供了替代方案。然而,现有研究主要依赖基于生成对抗网络(GANs)的图像到图像的翻译,缺乏在农业领域中对计算需求的全面分析。因此,本研究探索了一种多模态文本到图像的方法,用于生成合成的农作物病害图像,并且首次提供了该领域的计算基准测试。我们针对三种Stable Diffusion(SD)变体——SDXL、SD3.5M(中型)和SD3.5L(大型)进行了训练,并使用Dreambooth和低秩适应(LoRA)微调技术来增强泛化能力。SD3.5M在任务中的性能最佳,平均内存使用为18GB,功率消耗为180W,推理任务中生成500张图像的总能耗为1.02kWh(每张图像0.002kWh)。我们的结果证明了SD3.5M能够仅从36张田间样本中在1.5小时内生成500张合成图像的能力。我们推荐使用SD3.5M进行高效的农作物病害数据生成。
发布时间: 5/6/2025
查看原文
作者: Jifeng Hu, Sili Huang, Zhejian Yang, Shengchao Hu, Li Shen, Hechang Chen, Lichao Sun, Yi Chang, Dacheng Tao
arXiv:2505.01822v1 宣告类型: cross 摘要:基于扩散模型的条件决策生成在强化学习(RL)中显示出了强大的竞争力。最近的研究揭示了能量函数引导的扩散模型与受限RL问题之间的关系。主要挑战在于估计中间能量,由于生成过程中使用了对数期望公式,使其难以计算。为了解决这一问题,我们提出了Analytic Energy-guided Policy Optimization(AEPO)。具体来说,我们首先为当扩散模型服从条件高斯变换时中间引导的理论分析和封闭形式解提供了分析。然后,我们分析了对数期望公式中的后验高斯分布,并在温和假设下获得了对数期望的目标估计。最后,我们训练了一个中间能量神经网络,以逼近对数期望公式的目标估计。我们在30多个离线RL任务中应用了我们的方法,以证明我们方法的有效性。广泛的实验表明,在D4RL离线强化学习基准测试中,我们的方法超过了多个代表性基线。
发布时间: 5/6/2025
查看原文
作者: Jing Liu, Yao Du, Kun Yang, Yan Wang, Xiping Hu, Zehua Wang, Yang Liu, Peng Sun, Azzedine Boukerche, Victor C. M. Leung
arXiv:2505.01821v1 宣告类型: cross 摘要: 边缘-云协作计算(ECCC)已成为解决现代智能应用计算需求的关键范式,将云资源与边缘设备集成以实现高效、低延迟的处理。近年来,尤其是在人工智能方面,特别是深度学习和大型语言模型(LLMs)的进展,极大地提升了这些分布式系统的功能,但也带来了模型部署和资源配置的重大挑战。在本文综述中,我们全面探讨了边缘-云计算环境中的分布式智能和模型优化的交叉点,提供了一个关于基础知识架构、使能技术以及新兴应用的结构化教程。此外,我们系统地分析了模型优化方法,包括压缩、适应和神经架构搜索,以及由AI驱动的资源配置策略,这些策略平衡了性能、能源效率和延迟要求。我们进一步探讨了ECCC系统中隐私保护和安全增强的关键方面,并通过涵盖自主驾驶、医疗保健和工业自动化等多个应用领域的实际部署进行分析。性能分析和基准测试技术也得到了全面探讨,以确立复杂系统评估标准。此外,本综述识别了关键研究方向,包括LLMs部署、6G集成、神经形态计算和量子计算,为解决异构管理、实时处理和可扩展性等持久挑战提供了路线图。通过将理论进步与实际部署相结合,本文综述为研究人员和从业者提供了一个全面的观点,让它们能够利用人工智能优化分布式计算环境,促进下一代智能系统的创新。
发布时间: 5/6/2025
查看原文
作者: Core Francisco Park, Zechen Zhang, Hidenori Tanaka
arXiv:2505.01812v1 交叉公告类型 摘要:人类和智能动物可以轻松地内化新信息(“新闻”)并准确提取这些信息对执行下游任务的含义。虽然大型语言模型(LLMs)可以通过上下文学习(ICL)在新闻明确作为上下文的情况下实现这一点,但微调对于在权重中巩固学习仍然具有挑战性。本文中,我们介绍了$\textit{New News}$数据集,该数据集由跨多个领域(数学、编程、发现、排行榜、事件)的假设但合理的新闻组成,并配有依赖于理解并内化新闻的下游评估问题。我们首先在我们的新闻数据集上展示了从天真微调到上下文学习(FT-ICL缺口)之间的巨大差距。为了解决这一差距,我们探索了一套自博弈数据生成协议——改写、推论和Self-QAs,旨在在没有上下文的情况下从模型中的知识提炼到模型的权重中,我们称其为$\textit{System-2 微调}$(Sys2-FT)。我们使用Qwen 2.5家族的模型系统地评估了ICL和Sys2-FT在数据领域和模型规模上的性能。我们的结果表明,Sys2-FT的Self-QA协议显著提高了模型在权重中对新闻的学习。此外,我们发现$\textit{上下文阴影效应}$,即使用新闻进行训练$\textit{在上下文中}$,随后再进行改写或Q&A会降低对新闻学习的效果。最后,我们展示了Sys2-FT出现的一种初步扩展规律。
发布时间: 5/6/2025
查看原文
arXiv:2505.01800v1 交叉类型公告 摘要:AI生成文本的日益复杂性突显了迫切需要准确和透明的检测工具,尤其是在教育环境中,确认作者身份至关重要。现有文献表明,使用机器学习分类器结合修辞特征的应用可以取得杰出的效果。在此基础上,本研究提出了一种综合框架,将修辞分析与心理语言学理论相结合,提供了一种清晰且可解释的方法来区分AI生成和人工撰写的文本。本研究具体将31个不同的修辞特征与认知过程如词汇检索、话语规划、认知负荷管理以及元认知自我监控联系起来。通过这种方式,它强调了人类写作中独特的心理语言学模式。通过将计算语言学与认知科学的交集,该框架为促进在生成AI时代保护学术诚信的可靠工具的发展做出了贡献。
发布时间: 5/6/2025
查看原文
作者: Jared D. T. Guerrero-Sosa, Francisco P. Romero, V\'ictor Hugo Men\'endez-Dom\'inguez, Jesus Serrano-Guerrero, Andres Montoro-Montarroso, Jose A. Olivas
arXiv:2505.01794v1 通知类型: 交叉学科 摘要: 在快速发展的教育环境中,客观评估软技能是一个重要的挑战,尤其是在高等教育领域。本文提出了一种基于模糊逻辑的方法,该方法结合了粒度语言现象模型和多模态分析,以评估本科生的软技能。通过利用计算感知,这种方法能够对复杂的软技能表达进行结构化分解,捕捉到细微的行为,同时以高粒度解决其固有的不确定性,从而增强了解释性和可靠性。研究人员使用一个开发的工具,该工具评估了如决策、沟通和创造力等软技能,该工具能够识别并量化人类互动中的细微方面,如面部表情和手势识别。研究结果表明,该框架有效地整合了多种数据输入,以产生有意义且一致的软技能评估,显示了将多种模态纳入评估过程显著提高了软技能评分的质量,使评估工作对教育利益相关者透明且易于理解。
发布时间: 5/6/2025
查看原文