arXiv 论文列表

作者: Tzeh Yuan Neoh, Nicholas Teh

arXiv:2504.03951v1 声明类型: cross 摘要: 至少与任何其它物品相比更满意的分配 (envy-freeness up to any good, EFX) 是在分配不可分物品的公平分配中一个流行且重要的公平性属性，其在一般情况下的存在性仍是一个开放问题。在这项工作中，我们研究确定给定实例中达到EFX分配的最小数量的问题，认为这种方法可能会为EFX分配的存在性和计算提供有价值的见解。我们着重于商品数量略微超过参与者的实例，并将我们的分析扩展到加权EFX (WEFX) 以及一种针对一般单调估值的新颖EFX变体，称为EFX+。通过这种方式，我们确定了满足这些公平性观念的分配存在的过渡阈值。值得一提的是，我们通过证明在二进制可加估值下WEFX的多项式时间可计算性来解决关于WEFX的开放问题，并建立了第一个常数因子近似值，适用于两名参与者的情况。

发布时间: 4/8/2025

查看原文

大型游戏 corpus 的稳健性分析

作者: Mahsa Bazzaz, Seth Cooper

arXiv:2504.03940v1 声称类型: 交叉摘要：在游戏中的程序化内容生成通过机器学习（PCGML）涉及使用机器学习技术生成游戏内容，例如地图和关卡。2D瓷砖基游戏关卡一直被视为PCGML的标准数据集，因为它们是简化版的游戏关卡，同时保持了游戏中的典型约束，例如可解性。在此工作中，我们突出了游戏关卡的独特特征，包括其结构离散数据性质、游戏中固有的局部和全局约束，以及游戏关卡对输入的小变化的高度敏感性。我们将数据的鲁棒性定义为在输入微小变化导致输出变化时的敏感性度量，并使用此度量来分析和比较这些关卡与最新的机器学习数据集，展示了它们性质中的微妙差异。我们还从四个游戏构建了一个大规模数据集，这些游戏受到流行经典瓷砖基游戏的启发，展示了这些特征，并通过提供远远大于当前可用数据集的大型数据集来应对PCGML中的稀疏数据挑战。

发布时间: 4/8/2025

查看原文

大型语言模型的适应性

作者: Zixuan Ke, Yifei Ming, Shafiq Joty

arXiv:2504.03931v1 适应类型：交叉摘要：本文献教程旨在解决对超越通用大型语言模型（LLM）静态能力的需求，通过概述动态、领域特定和任务自适应LLM适应技术的概览。虽然通用LLM在多种任务上展示了强大的泛化能力，但在金融、医疗保健以及为少语种代码生成等领域中的专业领域，它们常常难以表现良好。此外，它们的静态性质限制了它们适应变化的能力，并且通常体积庞大，这使得在大规模部署时既不实际也不昂贵。因此，随着大型语言模型的诞生，LLM的适应性已经引起了极大的关注，并且对于行业和学术界都至关重要。行业主要集中于满足其目标用户，而学术界可以从小巧但强大的LLM中获益良多。为了解决这一缺口，本文献旨在提供LLM适应技术的概览。我们从数据和模型的角度介绍了LLM适应性的基础。然后强调适应技术的评估指标和基准与其他技术的不同之处。在建立问题之后，我们探讨了各种适应技术。我们将适应技术分为两类主要家族。第一类是参数化知识适应，专注于更新LLM内的参数化知识。此外，我们还将讨论实时适应技术，包括模型编辑，这使得LLM能够在生产环境中动态更新。第二类是半参数化知识适应，其目标是通过检索增强生成（RAG）和基于代理的系统等技术更新LLM参数，以更好地利用外部知识或工具。

发布时间: 4/8/2025

查看原文

RF-BayesPhysNet：复杂场景下的 Bayesian rPPG 不确定性估计方法

作者: Rufei Ma, Chao Chen

arXiv:2504.03915v1 交叉公告类型：交叉摘要：远程光电生理图谱技术（rPPG）通过使用摄像头捕捉面部皮肤的细微颜色变化来推断心率，展示了在非接触心率测量方面的巨大潜力。然而，在光照变化和头部移动等复杂场景中，测量准确性与理想实验室条件相比显著降低。现有的深度学习模型往往忽视了测量不确定性量化，限制了其在动态场景中的可信度。为了解决复杂场景中rPPG测量可靠性不足的问题，本文首次将贝叶斯神经网络引入到rPPG领域，提出了鲁棒融合贝叶斯生理网络（RF-BayesPhysNet），该模型能够建模偶然性和先验不确定性。它利用变分推理来平衡准确性和计算效率。由于光电生理图谱领域目前缺乏不确定性估计指标，本文还提出了一套新的方法，使用斯皮尔曼相关系数、预测区间覆盖度和置信区间宽度来测量在不同噪声条件下不确定性估计方法的有效性。实验结果显示，与传统网络模型相比，该模型仅参数数量翻倍，在UBFC-RPPG数据集上实现了2.56的MAE，超过了大多数模型。该模型在无噪声和低噪声条件下展示了良好的不确定性估计能力，提供了预测置信度，显著增强了实际应用中的鲁棒性。我们已在https://github.com/AIDC-rPPG/RF-Net 开放了代码。

发布时间: 4/8/2025

查看原文

利用步态模式作为生物标志物：一种注意力导向的深度多重实例学习网络用于脊柱侧弯分类

作者: Haiqing Li, Yuzhi Guo, Feng Jiang, Qifeng Zhou, Hehuan Ma, Junzhou Huang

arXiv:2504.03894v1 交叉引用类型：cross 摘要：脊柱侧弯是一种早期难以检测的脊柱弯曲障碍，可能导致胸腔挤压，影响呼吸功能和心脏健康。特别是对于青少年，延迟检测和治疗会导致症状恶化。传统的脊柱侧弯检测方法很大程度上依赖于临床经验，X射线成像具有辐射风险，限制了大规模早期筛查的应用。我们提出了一种注意力引导的深度多实例学习方法（Gait-MIL），以有效捕捉步态模式中的判别特征，这受到了ScoNet-MT利用步态模式进行脊柱侧弯检测的开创性方法的启发。我们通过基于步态模式的首个大规模数据集对脊柱侧弯分类进行了方法评估。结果显示，我们的研究通过将步态作为脊柱侧弯的生物标志物提高了检测性能，显著增强了对特别具有挑战性的中性（Neutral）病例的检测准确性，这些病例往往因细微指标的忽略而难以发现。我们的Gait-MIL在不平衡场景下也表现稳健，使其成为大规模脊柱侧弯筛查的有希望的工具。

发布时间: 4/8/2025

查看原文

探究ChatGPT中的情感使用与情感福祉

作者: Jason Phang, Michael Lampe, Lama Ahmad, Sandhini Agarwal, Cathy Mengying Fang, Auren R. Liu, Valdemar Danry, Eunhae Lee, Samantha W. T. Chan, Pat Pataranutaporn, Pattie Maes

arXiv:2504.03888v1 类别: cross 摘要：随着人工智能聊天机器人在日常生活中的采用和集成越来越多，人们对人类样貌或拟人化AI对用户的影响提出了疑问。在这项工作中，我们通过两项平行研究调查了与ChatGPT（重点关注高级语音模式）互动可能对用户的情感福祉、行为和体验产生的影响程度。为了研究AI聊天机器人的情感用途，我们以隐私保护的方式对ChatGPT平台的使用进行了大规模自动化分析，分析了超过300万次对话中的情感线索，并对超过4,000名用户进行了对ChatGPT的看法调查。为了探讨模型使用与情感福祉之间的关系，我们在得到机构审查委员会（IRB）批准的随机对照试验（RCT）中对近1,000名参与者进行了为期28天的试验，考察他们在不同实验条件下与ChatGPT互动时情感福祉的变化情况。在平台数据的分析和RCT中，我们观察到非常高的使用频率与自我报告的情感依赖指标增加相关。从我们的RCT中，我们发现基于语音的互动对情感福祉的影响非常复杂，并受用户初始情绪状态和总使用时间等因素的影响。总体而言，我们的研究发现，一小部分用户对情感线索的产生占了不相称的比例。

发布时间: 4/8/2025

查看原文

通过动态分析提高深度学习任务GPU内存预测的准确性

作者: Jiabo Shi, Yehia Elkhatib

arXiv:2504.03887v1 宣告类型: cross 摘要：深度学习（DL）的优势对 GPU 资源造成巨大压力，特别是在 GPU 集群中，内存不足错误（OOM）是模型训练和高效资源利用的主要障碍。传统的 OOM 估算技术依赖于静态图形分析或直接的 GPU 内存分析，存在固有的限制：静态分析往往无法捕捉模型动态，而基于 GPU 的分析在稀缺的 GPU 资源之间加剧了竞争。为克服这些限制，VeritasEst 出现了。它是一个创新的、完全基于 CPU 的分析工具，能够在不访问目标 GPU 的情况下准确预测 DL 训练任务所需的峰值 GPU 内存。VeritasEst 的这一“离线”预测能力是其核心优势，可以在任务调度之前获得准确的内存足迹信息，从而有效防止 OOM 并优化 GPU 分配。其性能通过在卷积神经网络（CNN）模型上进行数千次实验验证：与基线 GPU 内存估算器相比，VeritasEst 将相对误差降低了 84%，并将估计算法失败的概率降低了 73%。VeritasEst 代表了在资源受限环境中高效且可预测的 DL 训练的关键一步。

发布时间: 4/8/2025

查看原文

ChatGPT能从一周的第一人称视频中学习到我的生活吗？

作者: Keegan Harris

arXiv:2504.03857v1 通知类型: 横向交叉摘要：受近期生成式AI和可穿戴摄像设备（例如智能眼镜和AI增强的别针）的进步的启发，我研究了基础模型通过第一人称摄像数据学习佩戴者个人生活的能力。为了测试这一点，我在一周内连续佩戴摄像头54小时，生成了各种长度的摘要（例如一分钟、一小时和一天的摘要），并分别对GPT-4o和GPT-4o-mini进行了微调以适应生成的摘要层次结构。通过查询这些微调过的模型，我们可以了解到模型学到了关于我的哪些信息。结果参差不齐：这两种模型都学到了一些关于我的基本信息（例如大致年龄、性别）。此外，GPT-4o 正确推断出我住在匹兹堡，是CMU的博士研究生，是右利手，并且有一只宠物猫。但是，这两种模型也出现了幻觉现象，会在我的生活视频片段中出现的人物姓名上进行杜撰。

发布时间: 4/8/2025

查看原文

树轮水印在修正流动基于文本生成图像模型中的检测极限与统计可分性

作者: Ved Umrajkar, Aakash Kumar Singh

arXiv:2504.03850v1 宣布类型: cross 摘要: 木材年轮水印是一种重要技术，用于验证AI生成的图像的真实性。然而，这类技术在修正的流形基础模型中的有效性尚未得到探索，特别是在这些模型由于固有的噪声隐含反转挑战时。通过大量的实验，我们评估并比较了SD 2.1和FLUX.1-dev模型之间的水印检测和可分性。通过对各种文本指导配置和增强攻击的分析，我们展示了反转限制如何影响水印恢复以及带水印图像和未带水印图像之间的统计分离。我们的研究结果为当前Tree-Ring Watermarking在当前SOTA模型中的局限性提供了宝贵的洞察，并突出了改进反转方法的迫切需要，以实现可靠的水印检测和分离。官方实现、数据集发布以及所有实验结果可在以下 \href{https://github.com/dsgiitr/flux-watermarking}{\textbf{链接}} 获取。

发布时间: 4/8/2025

查看原文

“易变”的智能：将LLM作为政治和社会科学推理的工具

作者: Lisa P. Argyle, Ethan C. Busby, Joshua R. Gubler, Bryce Hepner, Alex Lyman, David Wingate

arXiv:2504.03822v1 宣告类型: cross 摘要: 生成型大型语言模型（LLMs）极其有用、灵活且充满潜力。然而，当它们被用来增进对我们现实人类行为和关切的理解时，它们对政治和社会科学研究人员最有用。为了促进对LLMs的科学使用，我们建议政治和社会科学领域的研究人员需要专注于科学目标——推断。为此，我们讨论了使用LLMs进行科学推断所面临的挑战和机遇，将模型输出的验证作为讨论的典型案例。我们提出了一套关于在完成特定任务时确立LLMs成功和失败的标准指南，并讨论了我们如何从这些观察中进行推断。最后，我们讨论了这一重新聚焦如何改进我们对这些工具及其在社会科学中应用的共享科学知识的积累。

发布时间: 4/8/2025

查看原文