arXiv:2504.19394v1 公告类型:交叉
摘要:大型语言模型(LLMs)已经改变了软件工程领域,但其在物理工程领域的应用仍然没有得到充分探索。本文通过RocketBench,一个将LLMs连接到高保真火箭模拟的基准测试,评估了LLMs在高功率火箭设计中的能力。我们测试了模型在两个越来越复杂的任务上:目标高度优化和精确着陆挑战。我们的研究表明,尽管最先进的LLMs展示了强大的基本工程知识,但在收到模拟结果后,它们难以迭代改进设计,并最终在性能上落后于人类水平。然而,当通过强化学习(RL)增强时,我们展示了拥有70亿参数的模型不仅超过了最先进的基础模型,还超过了人类专家。本研究表明,经过RL训练的LLMs可以作为复杂工程优化的有效工具,有可能在软件开发之外的其他工程领域进行改造。
arXiv:2504.19384v1 宣告类型: cross
摘要: 软件工程 (RE) 对开发复杂和受监管的软件项目至关重要。鉴于将利益相关者输入转化为一致的软件设计所面临的挑战,定性数据分析 (QDA) 提供了一种处理非正式数据的系统方法。然而,传统的 QDA 方法耗时且高度依赖人工。在这篇论文中,我们探索了大型语言模型 (LLMs),包括 GPT-4、Mistral 和 LLaMA-2,在 RE 中提高 QDA 任务的效果。我们的研究评估了 LLMs 在归纳(零样本)和演绎(单样本、少量样本)标注任务中的性能,结果显示,在演绎设置中,GPT-4 在柯南系数评分中超过 0.7,达到了与人类分析师相当的一致性,而零样本性能仍然有限。详细的、富有上下文的提示显著提高了标注的准确性和一致性,尤其是在演绎场景中,并且 GPT-4 在多次运行中表现出高度可靠性。这些发现揭示了 LLMs 可能在 RE 中支持 QDA 的潜力,通过减少人工努力的同时保持标注质量。结构化的标签可以自动提供需求的可追溯性,并可以直接作为领域模型中的类,便于系统化的软件设计。
arXiv:2504.19374v1 类型: cross
摘要: 标签分布学习(LDL)是一种新兴的学习范式,旨在捕捉每个实例对标签的相对重要性。LIFT 构建的标签特异性特征(LSFs)已被证明对于利用聚类原型重新表征实例以处理标签模糊性具有有效性。然而,直接将 LIFT 引入 LDL 任务可能不是最优的选择,因为 LIFT 收集的原型主要反映了聚类内部的关系,而忽略了不同聚类之间的交互。此外,使用多视角信息来构建 LSFs 而不是仅仅依赖欧氏距离,可以提供对实例更为健壯和全面的表示,减少单一距离视角可能带来的噪声和偏见。为了解决这些限制,我们引入了结构性锚点(SAPs)来捕捉跨聚类的交互。这导致了一个新的 LSF 构建策略 LIFT-SAP,它通过将距离和相对于 SAPs 的方向信息结合进来,增强 LIFT。此外,我们提出了一种新的 LDL 算法,标签特异性特征与 SAPs 结合的标签分布学习(LDL-LIFT-SAP),它将来自不同 LSF 空间的多个标签描述程度统一成一个一致的标签分布。在 15 个真实世界数据集上的广泛实验表明,LIFT-SAP 在LDL 任务中优于 LIFT,而 LDL-LIFT-SAP 也优于其他七个已建立的算法。
arXiv:2504.19373v1 Announce Type: cross
摘要:随着具有代理多模态大规模推理能力的模型(如ChatGPT o3)能力的不断增强,通过无意中泄露图像地理位置而导致的隐私泄露问题引起了严重的关注。本文首次系统地开展了关于ChatGPT o3视觉推理能力潜在隐私风险的研究。我们手工收集并构建了一个包含50张包含个人及与隐私相关的环境元素的真实世界图像的数据集,以捕捉现实且敏感的场景进行分析。我们的实验评估表明,ChatGPT o3能够以高精度预测用户位置,在60%的情况下实现了街道级别的准确率(在一英哩以内)。通过对这些图像的分析,我们发现了关键的视觉线索,包括街道布局和前院设计,这些线索显著地影响了模型推断的成功率。此外,定向遮挡实验表明,遮挡关键特征可以有效地降低地理定位精度,为我们提供了潜在防御机制的见解。我们的发现强调了急需对具有代理多模态大规模推理能力的模型进行隐私意识开发的重要性,特别是在涉及私人图像的应用中。
arXiv:2504.19370v1 类别: cross
摘要:社会对公平人工智能系统的迫切需求给研究社区施加了压力,要求开发出不仅在全球范围内准确,还能满足新的公平性标准的预测模型,这些标准反映了避免针对敏感属性(例如性别、种族、年龄)的差别性待遇。特别是,某些面部识别(FR)系统在特定人群组中的错误差异性给这些系统的部署带来了阻碍,并被监管机构判断为不可接受。设计公平的面部识别系统是一个非常具挑战性的问题,主要是由于此领域所使用的表现度量的复杂性和功能特性(即ROC曲线),以及通常可用于训练的面部图像数据集的巨大异质性。在本文中,我们提出了一种新颖的后处理方法,通过优化作用于基于质心的得分的回归损失,来提高预训练的面部识别模型的公平性。除了该方法的计算优势之外,我们还提供了数值实验,提供了公平性改进以及能够保持全局准确性的强大实证证据。
arXiv:2504.19362v1 交叉类型
摘要:糖尿病视网膜病变(DR),是糖尿病的一种严重眼部并发症,是视网膜血管疾病中导致视力丧失的主要原因之一。深度学习方法已经在糖尿病视网膜病变(DR)的分级中得到了广泛的应用。然而,当应用于训练分布之外的数据时,由于领域偏移,其性能会显著下降。领域泛化(DG)已经作为一种解决这一挑战的方法而出现。然而,大多数现有的DG方法忽视了病变特异性特征,导致准确度不足。在本文中,我们提出了一种新颖的方法,通过结合结构先验来增强现有的DG方法,这启发于观察到DR分级高度依赖于血管和病变结构。我们引入了低秩自适应结构先验(LoASP),这是一种 plug-and-play 框架,旨在与现有 DG 模型无缝集成。LoASP 通过学习适应性结构表示,精细调整到 DR 诊断的复杂性,从而提高泛化能力。在八个不同数据集上的广泛实验验证了其在单源领域和多源领域场景中的有效性。此外,可视化结果显示,学习到的结构先验直观地与血管和病变的复杂结构对齐,提供了其可解释性和诊断相关性的重要见解。
arXiv:2504.19353v1 生成学习范式类型: cross
摘要: 在这项工作中,我们提出了一种新的生成学习范式——K-Flow,这是一个沿着 $K$ 幅度流动的算法。在此,$k$ 是一个缩放参数,用于组织频率带(或投影系数),而幅度描述了这些投影系数的范数。通过结合 $K$ 幅度分解,K-Flow 允许随着时间变化在缩放参数上实现流动匹配。我们从理论基础、能量和时间动态以及实际应用三个方面讨论了 K-Flow 的三种应用场景和六个特性。具体而言,从实用角度来看,K-Flow 允许通过控制不同尺度的信息进行可控生成。为了证明 K-Flow 的有效性,我们在无条件图像生成、类别条件图像生成以及分子组装生成上进行了实验。此外,我们进行了三项消除研究,以展示 K-Flow 如何引导缩放参数以有效控制图像生成的分辨率。
arXiv:2504.19341v1 类型: cross
摘要:在无结构的家庭环境中实现稳健的灵巧操作仍然是机器人技术中的一个重大挑战。即使使用最先进的机器人学习方法,依赖于外部视觉和/或本体感知的触觉忽略控制策略(即,仅依靠外部视觉和/或本体感知的策略)往往由于遮挡、视觉复杂性和精确接触交互控制的需要而效果不佳。为了克服这些限制,我们介绍了PolyTouch,这是一种新颖的机器人手指,将基于摄像头的触觉传感、声学传感和周边视觉传感集成到一个紧凑且耐用的设计中。PolyTouch提供多时间尺度的高分辨率触觉反馈,这对于高效学习复杂操作任务至关重要。实验结果表明,PolyTouch的使用寿命比商用触觉传感器提高了至少20倍,设计既易于制造又具有可扩展性。随后,我们使用这种多模态触觉反馈以及视知觉观察从人类示范中合成了一种触觉扩散策略;所得到的接触感知控制策略在多种接触感知操作策略中显著优于触觉忽略策略。本文强调了有效整合多模态接触传感如何加速有效接触感知操作策略的发展,为更加可靠和多功能的家庭机器人铺平了道路。更多详细信息可参见 https://polytouch.alanz.info/
arXiv:2504.19339v1 类型: cross
摘要: 科学文献的通俗摘要通常包含解释,以帮助读者理解复杂的概念或论点。然而,当前的自动摘要方法没有明确建模解释,这使得难以使解释内容的比例与人力撰写的摘要相匹配。在这篇论文中,我们提出了一种基于计划的方法,利用论述框架组织摘要生成,并通过提示对计划的响应来引导解释句子。具体来说,我们提出了两种基于论述的计划策略,其中计划作为输入的一部分或输出前缀的一部分进行条件设置。在三个通俗摘要数据集上的实验证明,我们的方法在摘要质量方面优于现有的最先进方法,并增强了模型的鲁棒性、可控性和减轻了幻觉现象。
arXiv:2504.19333v1 Announce Type: cross
摘要:大型语言模型(LLMs)用于防止不良行为的趋势正在增加,并显示出在审查用户输入方面的潜力。然而,增加的延迟、内存消耗、托管费用和非结构化输出可能使其使用变得不可行。
在这项工作中,我们展示了针对特定任务的数据生成可以导致显著优于当前最佳实践(SoTA)的微调分类器,同时其规模小了多个数量级。其次,我们展示了使用一个在大量合成生成数据集上预训练的多任务模型`MultiTaskGuard`,进一步提高了泛化能力。第三,我们通过我们提出的基于搜索的模型合并方法找到了最优参数组合,该方法结合了单策略模型和多策略护栏模型,从而发现性能最佳的模型`UniGuard`。
在7个公开数据集和4个护栏基准中,我们的高效护栏分类器在检测不安全和安全行为方面分别比Aegis-LlamaGuard的平均F1分数提高了29.92个点,比`gpt-4o`提高了21.62个点。最后,我们的护栏合成数据生成过程使用自定义任务特定护栏策略,