LLM2D

arXiv 论文列表

arXiv:2409.10168v2 宣布类型: 交叉替换 摘要: 尽管 YouTube 是查找健康相关信息的重要工具,但它在全球范围内传播 COVID-19 misinformation 的行为受到了批评。然而,先前的审计研究主要集中在全球北纬地区,经常忽视全球南纬地区。为了填补这一空白,我们对 YouTube 进行了为期十天的地基定位审计,比较了美国 (US) 和南非 (SA) 在搜索结果中 COVID-19 misinformation 的盛行情况。US 和 SA 分别是全球北纬和南纬受疫情影响最严重的国家。对于每个国家,我们选择了 3 个地理位置,并放置了“傀儡”账号或模拟“真实”用户出道的机器人,它们按 4 种搜索过滤器对 48 个搜索查询的搜索结果进行了为期 10 天的收集,最终生成了 91.5 万条结果的数据集。我们发现,前 10 个搜索结果中有 31.55% 包含 COVID-19 misinformation。在前 10 个搜索结果中,南非的机器人面对的误导性搜索结果明显多于其美国同行。总体而言,我们的研究突显了两个国家之间 YouTube 搜索算法行为的对比,并强调了平台需要在全球不同地区一致地监管算法行为的必要性。
发布时间: 4/16/2025
查看原文
作者: Minxue Tang, Yitu Wang, Jingyang Zhang, Louis DiValentin, Aolin Ding, Amin Hass, Yiran Chen, Hai "Helen" Li
arXiv:2409.08372v2 Announce Type: replace-cross 摘要:联邦对抗训练(FAT)可以为联邦学习(FL)补充对抗示例的鲁棒性,促进可靠的人工智能迈出有意义的一步。然而,FAT 需要在保持高准确率的同时实现强大的鲁棒性,这在使用内存受限的边缘设备进行训练时会产生高内存交换延迟。现有的内存高效 FL 方法因局部模型和全局模型不一致而导致准确率低和鲁棒性弱。在本文中,我们提出了一种名为 FedProphet 的新型 FAT 框架,可以同时实现内存效率、鲁棒性和一致性。FedProphet 在保证对抗鲁棒性的同时减少局部训练的内存需求,通过强凸性正则化的对抗级联学习实现这一点,我们表明,强大的鲁棒性也意味着 FedProphet 中的一致性较低。我们还在 FL 的服务器上开发了一个训练协调器,具有用于性能-鲁棒性平衡的自适应扰动调整和不同的模块分配以减轻目标不一致性。在不同的实验设置下,FedProphet 显著优于其他基线方法,通过 80% 的内存减少和多达 10.8 倍的训练时间加速,保持端到端 FAT 的准确率和鲁棒性。
发布时间: 4/16/2025
查看原文
作者: Ilya Kuleshov, Evgenia Romanenkova, Galina Boeva, Vladislav Zhuzhel, Evgeni Vorsin, Alexey Zaytsev
arXiv:2408.08055v2 通知类型: 替换-交叉 摘要: 神经ODE是设计用于捕捉复杂时间戳数据随时间演变的方法之一。其理念是通过神经网络定义的动力学来求解一个ODE,这些动力学考虑了观察到的系统的即时参数。然而,较大的积分区间会导致不稳定性,这迫使大多数现代方法将时间归一化到[0, 1]。我们通过引入自适应负反馈机制来证明性地稳定这些模型。这种修改允许进行更长时间的积分,从而在表达能力上也有更大的提升,类似于传统神经网络增加深度的行为。此外,这种方法还提供了一些引人注目的理论特性:忘却性和缺失值鲁棒性。对于三个开放数据集,我们的方法在下游质量上与现有的基线方法相比,包括状态空间模型和神经CDE,最多可获得20%的提升。
发布时间: 4/16/2025
查看原文
作者: Mengtian Kang, Yansong Hu, Shuo Gao, Yuanyuan Liu, Hongbei Meng, Xuemeng Li, Xuhang Chen, Hubin Zhao, Jing Fu, Guohua Hu, Wei Wang, Yanning Dai, Arokia Nathan, Peter Smielewski, Ningli Wang, Shiming Li
arXiv:2407.21467v2 宣告类型:替换-交叉 摘要:儿童近视是全球健康的重大问题。它的发病率正在上升,并有可能演变为严重的、不可逆的状况,这对家庭福祉造成负面影响,并导致巨大的经济损失。当代研究表明,准确预测近视进展对于能够适时和有效地干预,从而避免儿童严重的视力损害至关重要。这种预测主要依赖于主观的临床评估,这些评估本质上是有偏见的且耗时耗力,因此阻碍了它们的广泛应用。在本研究中,我们提出了一种新型的高精度方法,仅使用眼底图像和基础屈光数据,定量预测儿童的近视轨迹和近视风险。该方法通过河南省3,408名儿童长达六年的纵向研究得到了验证,研究共使用了16,211张眼底图像和相应的屈光数据。基于深度学习的方法,在每年预测误差为0.311D的情况下,AUC分数分别为0.944和0.995,用于预测发展为近视和高度近视的风险。这些发现证实了我们模型在支持早期干预策略和显著降低医疗成本方面的实用性,特别是通过避免额外的元数据和重复的咨询。此外,我们的方法仅依赖于眼底图像和屈光误差数据,无需元数据或多次医生询问,从而大大降低了与医疗相关成本,并促进了大规模筛查的实施。我们的模型甚至仅基于一次时间测量就可以提供良好的预测。因此,所提出的方法是减少由经济不平等引起的医疗不公平的重要途径。
发布时间: 4/16/2025
查看原文
作者: Emilio Colombo, Fabio Mercorio, Mario Mezzanzanica, Antonio Serino
arXiv:2407.19204v2 宣告类型: 替换交叉 摘要:人工智能及相关技术正在通过自动化或增强工作场所的人类技能重塑工作和任务。许多研究人员一直在进行研究,以估计哪些工作和任务面临被人工智能相关技术自动化的风险,以及这种风险的程度。我们的工作通过一种数据驱动的方法来解决这一问题:(i) 开发了一个可重复的框架,利用最先进的开源大语言模型评估人工智能和机器人在执行与工作相关任务方面的当前能力;(ii) 形式化并计算了依据职业的人工智能暴露度量,即任务人工智能暴露指数(TEAI)和任务替代人工智能指数(TRAI),并通过人类用户评估进行验证,并与现有技术进行比较。 我们的结果显示,TEAI指数与认知、问题解决和管理技能正相关,与社交技能负相关。将该指数应用于美国,我们发现大约三分之一的美国就业高度暴露于人工智能,主要是在需要研究生或更高水平教育的高技能职位上。我们还发现,在2003-2023年间,人工智能暴露度与就业和工资增长正相关,这表明人工智能对生产力总体上具有积极影响。 具体讨论TRAI指数,我们发现即使在高技能职业中,人工智能在任务替代方面也表现出高变异性,这表明人工智能和人类在同一种职业中相互补充,而职业内部任务分配的变化很可能是其原因之一。 所有结果、模型和代码均可在线免费获取,以便社区重复我们的结果、比较结果,并将我们的工作作为基准来监测人工智能随时间的进步。
发布时间: 4/16/2025
查看原文
作者: Aniket Vashishtha, Abhinav Kumar, Atharva Pandey, Abbavaram Gowtham Reddy, Kabir Ahuja, Vineeth N Balasubramanian, Amit Sharma
arXiv:2407.07612v2 宣告类型: replace-cross 摘要:为了使基于文本的AI系统能够与现实世界进行交互,因果推理是一项基本技能。由于主动干预成本较高,我们研究的是系统是否可以从符号展示的因果公理中学习因果推理,而不仅仅是将公理作为归纳偏见或从数据值中推断出来。一个关键问题是系统是否会从公理的展示中泛化到更复杂的场景中。基于将公理训练方法应用于学习传递性公理和d-分离规则,我们的结果表明这种泛化是可能的。为了避免数据污染问题,我们从一个包含6700万个参数的变压器模型开始,并从头开始训练它。在两个任务中,我们发现,一个训练在包含线性因果链(以及一些噪声变化)上的模型可以很好地泛化到复杂图中,包括较长的因果链、因果链顺序相反的情况和分支图。为了处理各种文本输入,我们扩展了该方法对语言模型进行微调。在我们的公理数据上微调Llama-3.1 8B模型,显著提高了因果基准测试如Corr2Cause和CLEAR的表现,在某些情况下超越了GPT-4的性能。
发布时间: 4/16/2025
查看原文
作者: Alexander David Goldie, Chris Lu, Matthew Thomas Jackson, Shimon Whiteson, Jakob Nicolaus Foerster
arXiv:2407.07082v3 宣告类型: replace-cross 摘要:尽管强化学习(RL)在现实世界的决策制定方面具有巨大的潜力,但它面临着许多独特的困难,通常需要特别考虑。特别是:它高度非稳态;遭受严重的可塑性损失;并且需要探索以防止过早收敛到局部最优并最大化回报。在这篇论文中,我们考虑了学习优化是否可以帮助克服这些问题。我们的方法,用于可塑性、探索和非稳态的学习优化(OPEN),元学习一个更新规则,其中输入特征和输出结构受到对这些困难之前提出的解决方案的启发。我们表明,我们的参数化足够灵活,可以在多种学习环境中实现元学习,包括使用随机性进行探索的能力。我们的实验表明,当以单个和小型环境集进行元训练时,OPEN在性能上超过或等于传统使用的优化器。此外,OPEN在不同环境和代理架构的广泛范围内显示出强大的泛化特性。
发布时间: 4/16/2025
查看原文
作者: Evgenii Genov, Julian Ruddick, Christoph Bergmeir, Majid Vafaeipour, Thierry Coosemans, Salvador Garcia, Maarten Messagie
arXiv:2407.03368v5 宣告类型: replace-cross 摘要: 本研究探讨了在能源管理系统中整合预测和优化的问题,并着重研究了转换成本的作用——频繁操作调整产生的罚金。我们建立了一个理论和实证框架,以研究预测准确性与稳定性如何在在线决策环境中与转换成本相互作用。我们的分析覆盖了确定性和随机优化方法,并使用点预测和概率预测。引入了一个度量概率预测时间一致性的新指标,并基于CityLearn 2022 挑战赛的真实电池调度案例验证了该框架。结果显示,转换成本显著改变了预测准确性和稳定性的权衡,并且更稳定的预测可以减少由于转换而导致的性能损失。与常见的做法相反,研究发现,在转换成本非可忽略的情况下,更长的承诺期可能会带来更好的总体结果。这些见解对于智能、预测意识的能源管理系统的设计具有实际意义。
发布时间: 4/16/2025
查看原文
作者: Meiling Tao, Xuechen Liang, Xinyuan Song, Yangfan He, Yiling Tao, Jianhui Wang, Sun Li Tianyu Shi
arXiv:2406.17807v5 宣告类型: replace-cross 摘要:大型语言模型(LLMs)的最新进展为生成高质量的游戏评论打开了可能性。然而,为具有不完整信息的复杂游戏生成深入且引人入胜的评论仍然是一个重大挑战。在这篇论文中,我们介绍了一种结合强化学习(RL)和LLMs的新评论方法,特别适用于中国的牌类游戏《观坛》。我们的系统利用RL生成复杂的牌局场景,并运用LLMs生成相应的评论文本,有效地模拟了专业评论员的战略分析和叙事能力。该框架包括一个状态评论指南、一种基于心智理论(ToM)的战略分析器和一个风格检索模块,这些模块无缝协作,提供详尽且与背景相关的中文游戏评论。我们赋予LLMs心智理论能力,并优化了检索和信息过滤机制,这促进了个性化评论内容的生成。我们的实验结果展示了当应用于开源LLMs时,提出的评论框架在多个评估指标上超过了GPT-4,实现了显著性能提升。
发布时间: 4/16/2025
查看原文
作者: Mihir Mulye, Matias Valdenegro-Toro
arXiv:2403.17224v2 说明类型: replace-cross 摘要:说明方法有助于理解模型预测的原因。这些方法越来越多地应用于模型调试、性能优化以及了解模型的工作原理。鉴于这些方法在关键应用中的重要性,评估由这些方法生成的说明所关联的不确定性变得至关重要。在这篇论文中,我们提出了一种管道,通过结合不确定性估计方法和说明方法来确定神经网络的说明不确定性。我们使用该管道为CIFAR-10、FER+和加利福尼亚住房数据集生成说明分布。通过计算这些分布的变异系数,我们评估了说明的信心,并确定使用引导反向传播生成的说明具有较低的不确定性。此外,我们计算修改后的像素插入/删除度量来评估生成说明的质量。
发布时间: 4/16/2025
查看原文