arXiv:2503.20959v1 交叉公告类型:cross
摘要:虽然前面的章节展示了机器翻译(MT)的有用性,但在本章中,我们将讨论与其相关的某些副作用和风险,以及如何缓解这些风险。随着转向神经机器翻译和使用大型语言模型(LLMs)的方法,这会对气候变化产生影响,因为由跨国公司构建的模型非常庞大。这些模型的训练成本非常高,消耗大量电能,并且还会产生大量的kgCO2排放。然而,仍然可以建造低得多的碳足迹的小型模型,并且对预训练模型进行调整可以节省从头开始训练的需求。我们还讨论了机器翻译对翻译者和其他用户可能产生的不利影响。我们讨论了版权和数据所有权的问题,以及数据和机器翻译使用的伦理考虑。最后,我们展示了如果适当使用,机器翻译在危机情况下可以挽救生命,并提供了一种可能的方法。
arXiv:2503.20952v1 宣布类型: cross
摘要: 联邦学习(FL)在时间序列预测(TSF)中的应用使具有隐私敏感时间序列(TS)数据的客户端能够协作学习准确的预测模型,例如在电力负载预测中。不幸的是,FL 中的隐私风险仍然存在,因为服务器有可能通过-gradient inversion attacks (GIA) 对重建客户端的训练数据。虽然 GIA 在图像分类任务中得到了演示,但对于时间序列回归任务知之甚少。在本文中,我们首先在一个广泛的实验研究中,研究了在 4 个 TSF 模型和 4 个数据集上反向反演时间序列数据的情况,识别了重建时间序列数据中的观测值和目标的独特挑战。然后,我们提出了 TS-Inverse,一种新型 GIA,通过 (i) 学习一个输出分位数预测的梯度反演模型,(ii) 一个包含周期性和趋势正则化的独特损失函数,以及 (iii) 根据分位数预测进行正则化,来改进时间序列数据的反演。我们的评估证明了 TS-Inverse 的卓越性能,在 TS 数据上,其在 sMAPE 指标上与现有 GIA 方法相比至少实现了 2 倍至 10 倍的改进。代码仓库: https://github.com/Capsar/ts-inverse
arXiv:2503.20936v1 Announce Type: 切换
摘要:在竞争性的乒乓球比赛中,身体敏捷性是一项必要的技能,但绝不是唯一的。冠军们在快速且高度动态的环境中通过预判对手的意图达到了卓越表现,为自己赢得了必要的反应时间。在本文中,我们朝着设计这样一种预判性代理迈出了一步。先前的研究已经开发出了能够实现实时乒乓球比赛的系统,尽管这些系统往往不利用预判能力。在能够预测对手动作的研究中,这些方法受限于数据集的大小和多样性。我们的论文贡献了(1)一个可扩展的系统,用于在3D中重建单目乒乓球比赛视频,以及(2)一个带有不确定性感知的控制器,能够预判对手的动作。我们在仿真中表明,与基线非预判性策略相比,我们的策略在面对高速击球时的球回击率从49.9%提高到了59.0%。
arXiv:2503.20925v1 安全类型:交叉
摘要:深度学习模型容易受到涉及恶意攻击者通过在一小部分训练数据中添加触发器以造成分类错误的后门攻击。已经使用了各种触发器,包括无需攻击者操纵图像即可轻松实现的语义触发器。生成式AI的出现简化了受污染样本的生成。不同类型的触发器的有效防御至关重要。我们提出了一种名为原型引导后门防御(PGBD)的稳健的后处理防御方法,该方法适用于不同类型的触发器,包括以前未解决的语义触发器。PGBD 利用激活的几何空间中的位移来惩罚向触发器的方向移动。这通过后处理微调步骤中的新颖的净化损失来实现。几何方法可以容易地适用于所有类型的攻击。PGBD 在所有设置下都表现出更好的性能。我们还介绍了对名人面部图像的新语义攻击的第一个防御方案。项目页面:\[请点击此处\]。
arXiv:2503.20914v1 宣传类型: 横向
摘要: D4R 是一个数字平台,旨在帮助非技术人员,尤其是历史学家,通过高级图形工具探索文本文件,进行文本分析和知识提取。利用大型语言模型,D4R 将自然语言问题转换为 Cypher 查询,从而可以从 Neo4J 数据库中检索数据。用户友好的图形界面允许直观的交互,使用户能够导航和分析从非结构化文本文档中提取的复杂关系数据。最初设计用于弥合人工智能技术和历史研究之间的差距,D4R 的功能扩展到了其他多个领域。可供查看的演示视频和现场软件演示。
arXiv:2503.20903v1 类别: cross
摘要: 合成表格数据生成已成为解决数据不足和隐私问题的一种有前途的方法。随着近年来大型语言模型性能的显著提升,研究人员开始将这些模型应用于表格数据的生成。然而,人们对大型语言模型生成的表格数据的质量知之甚少。目前评估合成表格数据质量的主要方法是训练-合成-测试-真实方法,在这种方法中,通过比较通过分别训练的真实数据集和合成数据集训练的机器学习模型在某些下游任务中的表现,来衡量人工示例与原始数据的相似度。这种方法并未直接测量生成数据的分布与原始数据的分布有多接近。本文通过观察数据内部的列间依赖关系,提出了直接评估合成表格数据与真实数据的方法。我们发现,无论是通过少数提示查询还是微调的大语言模型(GPT-2)以及生成对抗网络(CTGAN)模型,生成的数据的依赖关系都不如原始真实数据。本研究的结果可以为未来合成数据生成实践提供指导,以提高数据质量。
arXiv:2503.20884v1 类别: 共享类型
摘要:联邦学习(FL)允许在不共享原始数据的情况下在分散设备上进行协作模型训练,但它仍然容易受到危害模型完整性的投毒攻击。现有的防御措施往往依赖于外部数据集或预定义的启发式方法(例如恶意客户端的数量),这限制了它们的有效性和可扩展性。为了解决这些限制,我们提出了一种基于隐私保护的防御框架,该框架利用条件生成对抗网络(cGAN)在服务器端生成合成数据以验证客户端更新,从而消除对外部数据集的依赖。该框架是可扩展的、自适应的,并且能够无缝融入FL的工作流中。在基准数据集上的广泛实验表明,该框架在对抗各种投毒攻击时表现出稳健的性能,分别在恶意和良性客户端上实现了高真阳性率(TPR)和真阴性率(TNR),同时保持了模型准确性。所提出的框架为保护联邦学习系统提供了一种实用且有效的方法。
arXiv:2503.20871v1 Announce Type: cross
摘要:视觉叙事生成将文本叙述转换为一系列图像,以说明文本内容。然而,生成既忠实于输入文本又在生成图像间保持自洽性的视觉叙事仍是一项开放的挑战,因为缺乏用于规划故事的知识约束。在此工作中,我们提出一个新的基准VinaBench,以应对这一挑战。我们的基准标注了视觉叙事样本中的潜在常识性及话语约束,为学习视觉叙事中的隐含策略提供了系统性的支撑。基于整合的叙述约束,我们进一步提出新的评估指标,以密切评估生成的叙事图像的一致性,并评估生成的结果与输入文本叙述的一致性。我们在三个生成型视觉模型上的结果表明,使用VinaBench的知识约束进行学习可以有效地提高生成视觉叙事的真实性和连贯性。
arXiv:2503.20853v1 Announce Type: cross
摘要:能够理解并生成多种模态信息的多模态生成模型主要采用自回归(AR)方法,这些方法依次从左到右或从上到下处理标记。这些模型可以在图像、文本、视频和音频等多个领域完成各种任务,如图像字幕生成、问答和图像生成。在本文中,我们探索在联合文本和图像领域使用离散扩散模型作为统一的生成形式,这建立在它们在文本生成方面的近期成功之上。离散扩散模型相对于AR模型具有多种优势,包括对生成样本的质量和多样性的更好控制、在文本和图像领域进行联合多模态填充(跨两个领域的填充)的能力,以及在生成过程中的更大可控性。利用这些优势,我们提出了第一个统一多模态离散扩散(UniDisc)模型,它可以联合理解和生成文本和图像以完成多种下游任务。我们将UniDisc与多模态AR模型进行比较,在规模分析中展示了UniDisc在性能和推理时计算成本、增强可控制性、可编辑性、修复能力以及推理时间与生成质量之间的灵活权衡方面的优势。更多代码和额外的可视化结果可访问 https://unidisc.github.io。
arXiv:2503.20848v1 宣布类型:横跨
摘要:最近的政策提案旨在提高通用人工智能的安全性,但对不同监管方法在人工智能安全方面的有效性理解甚少。我们提出了一种战略模型,探讨监管者、通用人工智能技术创造者和领域专家(即为特定应用调整AI的人)之间的互动。我们的分析研究了不同监管措施对开发过程结果的影响,尤其是在开发链的不同环节针对性地发挥作用。具体而言,我们假定人工智能技术具有两个关键属性:安全性和性能。监管者首先设定一个适用于一个或两个参与者的基本安全标准,并对不合规行为实施严厉的惩罚。然后,通用技术创造者开发技术,确定其初始的安全性和性能水平。接着,领域专家针对具体应用场景优化AI,最终收益通过事前谈判在专家和通用技术创造者之间分配。我们的博弈分析揭示了两个关键见解:首先,仅对领域专家施加较弱的安全监管可能会适得其反。虽然从逻辑上来看,监管具体应用场景(而非通用技术本身)似乎是更为直接的选择,但我们的分析表明,仅针对领域专家的较弱监管可能会无意中降低安全性。这一效应在广泛的环境下都存在。其次,与上述发现形成鲜明对比的是,我们观察到,适当的、有针对性的监管实际上可以惠及所有受监管的参与者。当监管者对人工智能创造者和领域专家都施加适当的安全标准时,监管将作为一种承诺机制,导致安全性和性能的提升,超过在无监管或仅监管一方的情况下所能达到的效果。