LLM2D

arXiv 论文列表

作者: Isabel O. Gallegos, Chen Shani, Weiyan Shi, Federico Bianchi, Izzy Gainsburg, Dan Jurafsky, Robb Willer
arXiv:2504.09865v1 类别:交叉学科 摘要:随着生成型人工智能(AI)能够以巨大的规模和速度创建和传播信息,理解人们如何感知由AI生成的内容变得越来越重要。一个突出的政策提议要求明确标注AI生成的内容,以增加透明度并鼓励对信息进行批判性思考,但此前的研究尚未测试此类标签的效果。为弥补这一不足,我们在一项针对美国多样样本的调查实验中(N=1601)进行了研究,向参与者展示了关于几项公共政策(例如,允许大学支付学生运动员报酬)的AI生成的信息,并随机分配参与者是否被告知该信息是由(a)专家AI模型、(b)人类政策专家或(c)无标签生成的。我们发现,这些信息通常是有说服力的,平均影响了参与者对政策的看法9.74个百分点。然而,虽然94.6%的参与者在AI和人类标签条件下认为这些标签准确反映了作者身份,但这些标签在参与者的政策态度改变、对信息准确性的判断以及分享信息的意图上并未产生显著影响。这些模式在各种参与者特征中均表现出稳健性,包括对政策的先前了解、对AI的先前经验、政治党派、受教育程度或年龄。总体来看,这些结果表明,尽管作者身份标签可能会提高透明度,但它们不太可能显著影响带有标签内容的说服力,突出了需要其他策略来应对由AI生成的信息带来的挑战。
发布时间: 4/15/2025
查看原文
作者: Naoto Nishida, Jun Rekimoto
arXiv:2504.09860v1 交叉公告类型 摘要:我们提出了SUMART,这是一种用于总结和压缩冗长字幕翻译文本的方法。SUMART旨在帮助理解翻译的字幕(例如,通过字幕翻译进行的语言间的对话,或在观看外语音频和翻译字幕时)。SUMART适合那些希望快速了解对话、音频、视频内容以及外语演讲的用户。在训练数据收集过程中,当讲话者发表冗长的言论时,SUMART在现场使用一个大规模语言模型来压缩字幕的体积。压缩后的数据随后存储在数据库中,用于微调目的。之后,SUMART使用未压缩的自动语音识别(ASR)结果和已压缩的翻译结果的数据对进行微调,以生成更简洁的翻译结果,适用于实际应用。在实际应用中,SUMART利用训练好的模型产生简洁的翻译结果。此外,作为实际应用,我们开发了一个应用程序,使用户能够在增强现实空间中使用字幕翻译进行对话。作为初步研究,我们使用SUMART原型和SUMART总结模型进行了定性调查。我们预计,这种系统最有效的使用案例是用户需要快速消费大量信息(例如,演讲、讲座、播客、会议中的问答环节)。
发布时间: 4/15/2025
查看原文
arXiv:2504.09857v1 宣告类型:交叉 摘要:疫苗犹豫和 misinformation 是实现广泛疫苗接种覆盖率的重要障碍。较小的公共卫生部门可能缺乏制定有效疫苗宣传所需的专长或资源。本文探讨了 ChatGPT 增强信息在促进疫苗接种信心方面的潜力。 我们进行了一项调查,在调查中参与者在成对的疫苗信息中进行选择,并评估哪些信息更具说服力以及程度如何。在每一组中,一个信息是原始的,另一个是由 ChatGPT 增强的。在调查结束时,参与者被告知一半的信息是由 ChatGPT 生成的。随后,他们被要求提供关于消息的 ChatGPT 起源对他们印象的影响的定量和定性反馈。 总体而言,ChatGPT 增强的信息的评分略高于原始信息。当信息较长时,这些信息通常得分更高。受访者对 ChatGPT 生成的内容未表达出主要的担忧,参与者对 ChatGPT 的看法与其信息评分之间也没有显著的相关性。值得注意的是,消息在成对中的出现顺序与其评分之间存在相关性。 这些结果表明 ChatGPT 有可能提高疫苗宣传的效果,暗示了未来在公共卫生沟通中人机合作方面的研究前景。
发布时间: 4/15/2025
查看原文
作者: Hongrui Shi, Shunbao Li, Zhipeng Yuan, Po Yang
arXiv:2504.09855v1 通报类型: cross 摘要:有效的害虫管理由于需要准确且情境特定的决策而变得复杂。近期大型语言模型(LLMs)的进步为应对这些挑战提供了新的可能性,通过提供复杂且适应性强的知识获取和推理。然而,现有的基于LLM的害虫管理方法往往依赖于单个代理的范式,这可能会限制它们整合多种外部信息、进行系统验证及处理复杂的、基于阈值的决策的能力。为了克服这些限制,我们引入了PestMA,这是一种基于LLM的多代理系统(MAS),旨在生成可靠的、依据证据的害虫管理建议。基于编辑范式,PestMA 包含三个专门化的代理:编辑(Editor)用于综合害虫管理建议,检索器(Retriever)用于收集相关的外部数据,验证器(Validator)用于确保正确性。对现实世界害虫情景的评估显示,PestMA 在害虫管理决策上的初步准确率为86.8%,经过验证后提高到92.6%。这些结果突出了协作型基于代理的流程在改进和验证决策方面的价值,强调了基于LLM的多代理系统在自动化和增强害虫管理过程方面的潜力。
发布时间: 4/15/2025
查看原文
作者: Aikaterini Maria Panteleaki, Konstantinos Balaskas, Georgios Zervakis, Hussam Amrouch, Iraklis Anagnostopoulos
arXiv:2504.09851v1 宣布类型: cross 摘要:随着深度神经网络(DNNs)在人工智能领域的不断推动发展,由于复杂的制造工艺,硬件加速器的设计面临着越来越大的碳足迹问题。三维集成可以提高性能,但也引入了可持续性挑战,因此碳意识优化变得至关重要。在本工作中,我们提出了一种高效的三维DNN加速器设计方法,利用近似计算和基于遗传算法的设计空间探索来优化碳延迟积(CDP)。通过将面积高效的近似乘法器整合到乘加(MAC)单元中,我们的方法有效地减少了硅面积和制造开销,同时保持了高计算精度。在三种技术节点(45nm、14nm和7nm)上的实验评估表明,我们的方法在几乎无精度损失的情况下最多可减少30%的碳足迹。
发布时间: 4/15/2025
查看原文
作者: Asiful Arefeen, Saman Khamesian, Maria Adela Grando, Bithika Thompson, Hassan Ghasemzadeh
arXiv:2504.09846v1 类型: cross 摘要: 长期和频繁的高血糖(即高血糖)暴露会增加神经病变、肾病和心血管疾病等慢性并发症的风险。目前的技术,如连续皮下胰岛素输注(CSII)和连续血糖监测(CGM),主要集中在血糖控制的特定方面,如低血糖预测或胰岛素输送。同样,大多数糖尿病管理中的数字孪生方法仅模拟生理过程。这些系统缺乏提供替代治疗方案的能力,支持主动的行为干预。为了解决这个问题,我们提出了 GlyTwin,这是一种新颖的数字孪生框架,利用反事实解释来模拟血糖调节的最优治疗方案。我们的方法有助于患者和护理人员修改碳水化合物摄入和胰岛素剂量的行为,以避免异常的血糖事件。GlyTwin 生成的行为治疗建议通过推荐日常选择的小调整,主动预防高血糖,从而减少这些事件的频率和持续时间。此外,它将利益相关方的偏好纳入干预设计中,使建议具有患者中心和针对性。我们使用 AZT1D 数据集对 GlyTwin 进行了评估,该数据集包含了 21 名使用自动胰岛素输注系统的 1 型糖尿病(T1D)患者在 26 天内的纵向数据。结果表明,GlyTwin 在反事实驱动的数字孪生方法中表现出色,生成了 76.6% 有效的干预措施,86% 是有效的。这些发现表明,反事实驱动的数字孪生在提供个性化医疗服务方面的前景。
发布时间: 4/15/2025
查看原文
作者: Juntao Zhao, Qi Lu, Wei Jia, Borui Wan, Lei Zuo, Junda Feng, Jianyu Jiang, Yangrui Chen, Shuaishuai Cao, Jialing He, Kaihua Jiang, Yuanzhe Hu, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu
arXiv:2504.09844v1 类型: cross 摘要:现代用于训练大型基础模型(LFMs)的框架在数据并行范式中使用数据加载器。虽然这种设计提供了实现上的简便性,但它引入了两个根本性挑战。首先,由于注意力操作的计算复杂度呈二次阶,数据并行秩中的样本分布不均匀导致加载器之间的负载显著不平衡,这降低了训练效率。这种范式还阻碍了在不同数据集上实施数据混合算法(例如,分级学习)。其次,为了获得广泛的能力,LFMs的训练从各种来源获取数据,每个来源具有不同的文件访问状态。将大量数据集放置在加载器实例中容易超出本地pod的内存容量。此外,具有更高转换延迟的重度来源需要更大的工人池,这进一步加剧了内存消耗。 我们提出了OVERLORD,这是一种工业级别的分布式数据加载架构,具有三项创新:(1) 集中和声明式的数据平面,便于弹性数据编排策略,如长短期上下文、多模态和分级学习;(2) 通过特定角色的演员进行拆分的多源头预处理,利用自动扩展的源加载器以适应异构和演变的源预处理成本;(3) 带有差异检查点的阴影加载器,以实现不间断故障恢复。在扩展到数千个GPU的生产集群上部署,OVERLORD实现了:(1) 端到端训练吞吐量提高了4.5倍,(2) 最小3.6倍的CPU内存使用量减少,进一步改进将在后续实验中添加。
发布时间: 4/15/2025
查看原文
arXiv:2504.09841v1 类别: cross 摘要:大型语言模型(LLMs)驱动的自主代理的泛滥已经彻底改变了处理表格数据的流行商业应用,即表格代理。尽管观察到LLMs对来自外部数据源的提示注入攻击易受攻击,但表格代理对攻击者载荷施加了严格的格式和预定义规则,除非代理导航多层结构数据以整合载荷,这些规则才无效。为应对这一挑战,我们提出了一种名为StruPhantom的新攻击,专门针对黑盒LLM驱动的表格代理。我们的攻击设计了一种进化优化程序,通过提出的受限蒙特卡罗树搜索(MCTS)增强,并结合了一个离题评估器,持续优化攻击载荷。StruPhantom有助于系统地探索和利用目标应用的弱点,以实现目标劫持。我们的评估证明了StruPhantom在各种基于LLM的应用程序中的有效性,包括实时平台上的应用程序和攻击场景。我们的攻击在强制应用程序响应包含钓鱼链接或恶意代码的成功率上比基准高出50%以上。
发布时间: 4/15/2025
查看原文
作者: Zhisheng Zhang, Derui Wang, Qianyi Yang, Pengyang Huang, Junhan Pu, Yuxin Cao, Kai Ye, Jie Hao, Yixian Yang
arXiv:2504.09839v1 安全类型: cross 摘要:语音合成技术带来了极大的便利,但广泛使用的逼真深度假音引发了安全隐患。恶意对手可能未经授权收集受害者的讲话,并克隆相似的声音用于非法利用(例如,电信诈骗)。然而,现有的防御方法不能有效地防止深度假音利用,且容易受到健壮训练技术的攻击。因此,迫切需要一种更有效且健壮的数据保护方法。为应对这一需求,我们提出了一种防御框架,**SafeSpeech**,该框架在上传前保护用户的音频,通过在原始讲话中嵌入不可感知的扰动来防止高质量合成语音。在SafeSpeech中,我们设计了一种健壮且通用的主动保护技术,**Speech Perturbative Concealment (SPEC)**,该技术利用代理模型为生成合成模型生成通用适用的扰动。此外,我们还在时间域和频域优化嵌入扰动的人类感知。为了全面评估我们的方法,我们在高级模型和数据集上进行了广泛的实验,既主观又客观。我们的实验结果表明,SafeSpeech实现了最先进的(SOTA)语音保护效果和移植性,并且对高级适应性对手具有高度的健壮性。此外,SafeSpeech在真实世界测试中具有实时能力。源代码可在 \href{https://github.com/wxzyd123/SafeSpeech}{https://github.com/wxzyd123/SafeSpeech} 获取。
发布时间: 4/15/2025
查看原文
arXiv:2504.09831v1 宣布类型: 交叉 摘要: 在这篇论文中,我们研究了一个离线顺序特征定价和库存控制问题,其中当前需求依赖于过去的需求水平,任何超出可用库存的需求将被视为损失。我们的目标是利用包含过去价格、订购量、库存水平、协变量以及删失销售水平的离线数据集,估计能够最大化长期利润的最佳定价和库存控制策略。虽然未经删失的底层动态可以使用马尔可夫决策过程(MDP)建模,但主要障碍来自于存在删失的需求过程,导致利润信息缺失、马尔可夫性质失效以及非稳定最优策略。为了克服这些挑战,我们首先通过求解由连续删失实例数量定义的高阶MDP来近似最优策略,最终归结为解决为该问题专门定制的贝尔曼方程。受离线强化学习和生存分析的启发,我们提出了两种新的数据驱动算法来解决这些贝尔曼方程,从而估计最优策略。此外,我们建立了有限样本的后悔界来验证这些算法的有效性。最后,我们进行了数值实验以证明这些算法在估计最优策略方面的有效性。据我们所知,这是第一个在以删失和相关需求为特征的顺序决策环境中学习最优定价和库存控制策略的数据驱动方法。所提出的算法的实现可以在 https://github.com/gundemkorel/Inventory_Pricing_Control 获取。
发布时间: 4/15/2025
查看原文