arXiv:2410.11876v3 声明类型: replace-cross
摘要:基于LLM的对话代理的泛滥导致了大量的可识别或敏感信息的过度披露。然而,现有的技术由于缺乏用户的参与,在提供可感知的控制或考虑到用户关于隐私-效用权衡的个人偏好方面存在问题。为了解决这一差距,我们设计、构建并评估了Rescriber,这是一个浏览器扩展,它通过帮助用户检测和净化其提示中的个人信息,支持用户主导的数据最小化。我们的研究(n=12)表明,Rescriber帮助用户减少了不必要的披露,并解决了他们的隐私顾虑。由Llama3-8B驱动的系统的用户主观感知与GPT-4o相当。检测和净化的全面性和一致性被证明是影响用户信任和感知保护的关键因素。我们的发现证实了由较小的LLM驱动的面向用户的设备上隐私控制的有效性,为解决AI的隐私和信任挑战提供了一种有前景的方法。
arXiv:2410.09807v2 通知类型: replace-cross
摘要:基于方面的情感分析(ABSA)是一项具有挑战性的任务,涉及从文本中提取情感、它们对应的角度以及意见术语。断言注释的固有主观性使得抽取的术语表面形式发生变化,增加了评估过程的复杂性。传统评估方法通常将地面真实值(GT)限制为单个术语,这可能会误导性地代表语义上有效但表面形式不同的预测精度。为了解决这一局限,我们提出了一种新颖且全自动的流水线,通过为方面和意见添加替代的有效术语来扩展现有的评估集。我们的方法通过容纳多种答案候选者,为语言模型提供了公平的评估,从而在肯德尔系数(Kendall’s Tau)上提高了多达10%的最高人类一致性改进。实验结果表明,我们扩展的评估集有助于揭示大型语言模型(LLMs)在ABSA任务中的能力,而这种能力在单个答案GT集下被隐藏。因此,我们的工作为ABSA的发展提供了一种灵活的评估框架,通过以经济有效且可重现的方式接纳多样化的断言提取任务表面形式。我们的代码和数据集可在https://github.com/dudrrm/zoom-in-n-out-absa 开放获取。
arXiv:2410.05806v2 通知类型: 替换交叉
摘要:多任务排名模型已成为现代现实推荐系统中的关键组成部分。虽然大多数推荐研究集中在为特定场景设计复杂的模型,但在各种场景中实现多任务排名模型的性能改进仍然是一个重大挑战。简单地对所有任务进行训练可能会导致学习不一致,突显了需要开发多任务优化(MTO)方法以应对这一挑战的需求。传统方法假设在共享参数上的最优联合梯度会导致最优参数更新。然而,在使用如Adam这类基于动量的优化器时,模型参数的实际更新可能与梯度有显著偏差,我们设计并执行了统计实验证明了这一观察。在本文中,我们提出了一种新颖的多任务优化参数更新平衡算法,称为PUB。与基于梯度级别任务融合或损失级别任务融合的传统MTO方法不同,PUB是第一个通过参数更新平衡来优化多个任务的工作。基准多任务排名数据集上的全面实验表明,PUB在多个多任务骨干架构上一致地提高了性能,并实现了最先进的性能。此外,基准计算机视觉数据集上的实验显示出PUB在各种多任务学习场景中的巨大潜力。此外,我们在实际商业平台HUAWEI AppGallery上部署了该方法进行工业评估,其中PUB显著提高了在线多任务排名模型的效果,有效管理了一个关键渠道的主要流量。
arXiv:2410.04047v3 任务类型: replace-cross
摘要:时间序列分析在实际应用中至关重要,但传统方法仅关注孤立任务,而最近的时间序列推理研究仅局限于简单的一步推理,并且受到自然语言回答的约束。在这项工作中,我们提出了一个实用的新任务:多步时间序列推理,它要求时间序列分析中的组合推理和计算精度。为了解决这一挑战,我们提出了一种简单而有效的程序辅助推断代理,它利用大型语言模型(LLMs)的推理能力将复杂任务分解为结构化的执行管道。通过整合上下文学习、自我纠正和程序辅助执行,我们提出的方法确保了准确和可解释的结果。为了衡量性能,我们引入了一个新的数据集和统一的评估框架,其中包含特定任务的成功标准。实验表明,我们的方法在基本时间序列概念理解以及多步时间序列推理任务中均优于独立的一般目的LLMs,强调了将推理与计算精度相结合的混合方法的重要性。
arXiv:2410.03159v3 宣告类型: replace-cross
摘要: 我们提出了一种结合自回归 (AR) 和移动平均 (MA) 成分的加权自回归可变门控注意力 (WAVE) 机制。它可以适应各种注意力机制,增强并解耦它们在时间序列数据中捕捉长程和局部时间模式的能力。在本文中,我们首先证明,在时间序列预测 (TSF) 任务中,之前被忽视的仅解码端自回归变换器模型,在采用适当的分词和训练方法时,可以达到与最佳基线相当的结果。此外,受统计学中的ARMA模型和最近线性注意力进展的启发,我们将完整的ARMA结构引入现有的自回归注意力机制中。通过使用间接生成MA权重的方法,我们引入了MA项,同时保持了底层高效注意力模型的时间复杂度和参数量。我们进一步探讨了间接参数生成如何产生与局部时间影响建模要求相一致的隐式MA权重。实验结果表明,结合ARMA结构的WAVE注意力机制在各种TSF任务中始终改善了自回归注意力机制的性能,并达到了最先进的结果。
arXiv:2409.11744v2 通知类型: replace-cross
摘要:自闭症谱系障碍(ASD)影响儿童的社会和沟通能力,使用眼动追踪广泛用于识别非典型的凝视模式。虽然无监督聚类可以自动创建凝视特征提取的兴趣区域,但对于使用内部聚类有效性指标(如轮廓系数)来区分ASD和正常发育(TD)儿童之间的凝视模式差异,研究仍相对较少。我们探索内部聚类有效性指标是否能够区分ASD和TD儿童。具体地,我们应用七种聚类算法对凝视点进行聚类,并提取63个内部聚类有效性指标以揭示其与ASD诊断的相关性。利用这些指标训练预测模型进行ASD诊断。在三个数据集上的实验表明,这些模型的预测准确率高达81% AUC,验证了这些指标的有效性。
arXiv:2409.11295v4 宣告类型: replace-cross
摘要:通用网络代理在自主完成广泛任务方面展示了惊人的潜力,显著提升了人类的工作效率。然而,网络任务,如预订航班,通常涉及用户的个人身份信息(PII),如果网络代理意外与被泄露的网站交互,用户的PII可能会面临潜在的隐私风险,这一场景在文献中尚未得到充分探索。在本工作中,我们通过进行首个关于通用网络代理在对抗环境中的隐私风险的研究来缩小这一差距。首先,我们提出了一个针对网站的现实威胁模型,其中我们考虑了两个对抗目标:窃取用户的特定PII或整个用户请求。然后,我们提出了一种新的攻击方法,称为环境注入攻击(EIA)。EIA注入能够适应代理操作环境的恶意内容,并且我们的工作具体将EIA实例化为网络环境中隐私场景下的防御措施。我们在真实的Mind2Web网站上收集了涉及多种PII类别的177个操作步骤,并使用迄今为止最强大的通用网络代理框架之一进行了实验。结果表明,EIA在窃取特定PII方面的成功率最高为70%,在窃取完整用户请求方面的成功率约为16%。此外,通过测试EIA的隐蔽性和使用防御系统提示,我们表明EIA难以被检测和缓解。值得注意的是,那些不很好地适应网页的攻击可以被人工检查检测到,从而引发我们在安全性和自主性之间的权衡讨论。但是,额外的攻击者努力可以使EIA无缝适应,从而使这种监督无效。因此,我们进一步讨论在网站部署前和部署后阶段的防御措施,而不依赖于人工监督,并呼吁采取更先进的防御策略。
arXiv:2409.08678v2 优化类型: replace-cross
摘要: 本文介绍了SPI-DP,这是一种新颖的一阶优化器,能够同时根据高层任务目标和运动级约束优化机器人程序。为此,我们引入了DGPMP2-ND,这是一种适用于串联系统N-自由度动态的可微碰撞自由运动规划器,并将其集成到一种迭代、基于梯度的优化方法中,以用于通用、参数化的机器人程序表示。SPI-DP允许根据诸如周期时间或平滑度等目标对计划轨迹和程序参数进行一阶优化,同时满足如碰撞约束等约束条件,并使人类能够理解、修改或甚至认证优化的程序。我们对两个实际的家用和工业应用进行了全面评估。
arXiv:2409.05655v2 宣告类型: 替换-交叉
摘要: 从演示中学习(LfD)的泛化问题近年来受到了相当大的关注,尤其是在运动原型的背景下,已经出现了一些方法。最近,两种重要的方法得到了认可。一种方法通过使用途经点局部调用技能,通过调节演示轨迹来进行微调,另一种方法依赖于所谓的任务参数化模型,该模型使用概率的乘积来表示运动,与不同的坐标系统相对应,以实现泛化。虽然前者非常适合精确的局部微调,后者则旨在在一个较大的工作空间区域中进行泛化,并且通常涉及多个对象。利用这两种方法同时提高泛化的质量几乎没有受到关注。在这项工作中,我们提出了一种交互式模仿学习框架,该框架可以同时利用轨迹分布的局部和全局调优。基于内核化的运动原型(KMP)框架,我们引入了新的机制,以从直接的人类矫正反馈中调优技能。我们的方法特别利用了途经点的概念,以增量和交互的方式 1) 逐步提高模型的局部准确性,2) 在执行过程中向任务添加新的对象,3) 将技能扩展到演示尚未提供的区域。我们使用一个具有7个自由度且受扭矩控制的DLR SARA机器人,在一个轴承环加载任务上评估了我们的方法。
arXiv:2409.02483v5 任务类型: 替换-交叉
摘要:骨骼序列数据作为一种广泛采用的人类动作表示,在人体活动识别(HAR)中至关重要。近年来,该领域提出了对抗攻击的概念,这揭示了潜在的安全问题,并且更重要地提供了一种模型稳健性测试的良好工具。在本研究中,基于转移的攻击是重要工具,因为它模拟了攻击者对目标模型一无所知的实际情况,但在基于骨骼的HAR(S-HAR)中尚未得到充分探索。因此,现有的S-HAR攻击表现出较弱的对抗转移性,且原因仍未充分了解。在本文中,我们通过损失函数的表征来研究这一现象。我们发现,损失函数的低平滑度是不良转移性的明显指标之一。基于这一观察,我们在计算对抗样本时适当平滑损失函数,从而提高了转移性。这导致了第一个基于转移的骨骼动作识别攻击(TASAR)。TASAR通过一种新的后训练双重贝叶斯优化策略探索了预训练代理的平滑模型后验。此外,与现有的基于转移的方法忽略序列内的时序连贯性不同,TASAR将运动动力学纳入贝叶斯攻击,有效地扰乱了S-HAR的空-时连贯性。为了进行全面评估,我们构建了第一个大规模稳健的S-HAR基准,包括7个S-HAR模型、10种攻击方法、3个S-HAR数据集和2个防御模型。广泛的结果表明了TASAR的优势。我们的基准为未来的研究提供了容易比较的基础,代码可在https://github.com/yunfengdiao/Skeleton-Robustness-Benchmark 上获取。