arXiv:2504.07521v1 通知类型: 新
摘要: 大多数现有的情绪分析侧重于情绪的产生(例如,快乐、悲伤、愤怒)但却忽视了更深层次的为什么。我们提出了情绪解释(EI),关注的是驱动情绪反应的背后因素—无论是显性的(例如,可观测的物体、人际互动)还是隐性的(例如,文化背景、场景外的事件)。不同于传统的面部表情识别,EI任务需要对触发因素进行推理而不是简单的标签化。为了促进EI研究,我们提供了一个大规模基准EIBench,包含1,615个基本的EI样本和50个复杂的EI样本,涵盖了多维度的情绪。每个实例要求提供基于推理的解释而非简单的分类。我们还提出了粗到细自我提问(CFSA)标注流水线,该流水线通过迭代的问答轮次引导视觉语言模型(VLLMs)生成高质量的标签。在四个实验设置下的开源和专属大型语言模型的广泛评估揭示了性能差距,尤其是在复杂场景中,这强调了EI在丰富具有同情心和情境意识的人工智能应用方面的潜力。我们的基准和方法在以下开源链接上可用:https://github.com/Lum1104/EIBench,为高级多模态因果分析和下一代情感计算提供了基础。
arXiv:2504.07495v1 通知类型: 新
摘要: 在现实生产场景中,高级计划与调度(APS)工具经常需要生产规划者的手动干预,因为系统处理的是不完整信息,导致生成次优的计划。常常,理想的解决方案未能找到仅仅是因为优化问题中规定的过于严格的约束条件,这些约束条件代表了计划中的瓶颈。为了提供计算机辅助支持以供决策,我们旨在自动识别给定计划中的瓶颈,并将它们与需要放松的具体约束条件联系起来。在这项工作中,我们通过放松与识别的瓶颈相关的约束条件来解决在资源受限项目计划问题中减少特定项目延期时间的问题。为此,我们开发了两种方法。第一种方法适应了工作车间文献中的现有方法,并将这些方法用于所谓的无针对性的放松。第二种方法识别了问题在放松版本中可能的改进,并提出有针对性的放松。令人惊讶的是,无针对性的放松带来了与有针对性的放松相当的改进效果。
arXiv:2504.07463v1 支持类型: 新
摘要:在在线环境中支持学习者对其所学技能的理解是一个长期存在的挑战。虽然练习和基于聊天的代理可以在有限的上下文中评估理解,但在学习者寻求深入了解程序知识(即事情是如何进行的)和推理(即事情为什么会发生)的解释时,这一挑战被放大了。我们假设,使用基于TMK(任务-方法-知识)模型的智能代理,能够显著增强其理解并解释学习者关于技能的问题的能力,TMK是一种基于知识的人工智能框架。我们介绍了一种名为Ivy的智能代理,它利用语言模型(LLM)和迭代改进技术来生成体现目的论、因果性和组合性原则的解释。我们的初步评估表明,这种方法超越了代理对未结构化文本的访问所能产生的典型浅层响应,从而显著提高了反馈的深度和相关性。这有可能确保学习者获得对在线环境中有效解决问题至关重要的技能的全面理解。
arXiv:2504.07425v1 类型: 新增
摘要: 深度强化学习(DRL)在各种游戏类型中有效提升了游戏体验和游戏设计。然而,针对格斗游戏代理的研究鲜有直接关注提升玩家乐趣,这是一个对开发者和玩家来说都至关重要的因素。为了解决这一问题并建立一个设计以乐趣为重的代理的实际基线,我们提出了一种两层代理(TTA)系统,并在经典的格斗游戏街机战士II中进行了实验。TTA的第一层采用了任务导向的网络架构、模块化的奖励函数和混合训练,以生成多样且技能高超的DRL代理。TTA的第二层则利用了玩家的游戏数据和反馈,动态选择合适的DRL对手。此外,我们还研究了几个影响对手乐趣的关键因素,并对其进行了建模。实验显示,与基线方法相比,高级技能的执行提升了99.00%(从64.36%提升到156.36%)。训练后的代理还展示了独特的游戏玩法风格。另外,我们还开展了小型用户研究,玩家的整体反馈验证了我们的TTA系统的有效性。
arXiv:2504.07424v1 通知类型: 新
摘要:基于指令的图像编辑(IIE)模型由于多模态大规模语言模型(MLLMs)和扩散模型的进步,已经取得了显著的改进,这些模型能够理解和推理复杂的编辑指令。除了推动当前IIE模型的发展,准确评估它们的输出变得越来越重要和具有挑战性。当前IIE评估方法及其评估过程往往未能与人类判断对齐,且常常缺乏解释性。为了解决这些限制,我们提出了JUdgement through Routing of Expertise (JURE)。在JURE中,每个专家都是预先选定的模型,假设它们配备了可以提供有用反馈的原子级专业技能,路由器会动态地将给定指令及其输出的评估任务分配给合适的专家,并将他们的反馈综合为最终的判断。JURE在两个方面是值得信赖的。首先,它可以通过检查路由后的专家及其反馈来轻松提供关于其判断的说明。其次,实验结果表明,JURE的可靠性很高,因为它在与人类判断的一致性方面取得了优异的表现,为自动IIE评估设定了新的标准。此外,JURE的可扩展设计具有前瞻性的灵活性——模块化的专家可以无缝替换或扩展,以适应IIE的发展,同时保持始终如一的高质量评估。我们的评估数据和结果可在 https://github.com/Cyyyyyrus/JURE.git 获取。
arXiv:2504.07257v1 通知类型: 新
摘要: 强化学习(RL)代理在各种环境中展示了卓越的性能,它们可以直接从感官输入中发现有效的策略。然而,这些代理通常利用训练数据中的虚假关联,导致难以在新环境或略有修改的环境中进行泛化。为了解决这一问题,我们引入了因果对象中心模型提取工具(COMET),这是一种旨在学习精确可解释的因果世界模型(CWMs)的新型算法。COMET 首先从观察中提取对象中心的状态描述,并识别与所描绘对象属性相关的环境内部状态。利用符号回归,它建模对象中心的转换并推导出管理对象动力学的因果关系。COMET 进一步结合了大型语言模型(LLMs)进行语义推理,标注因果变量以增强可解释性。 通过利用这些能力,COMET 构建了与环境真实因果结构一致的CWMs,使代理能够关注与任务相关的特点。提取的CWMs减轻了捷径的危险,允许开发出能够在动态场景中进行更好规划和决策的RL系统。我们的结果在Atari环境中对Pong和Freeway的验证表明了COMET的准确性和鲁棒性,突显了其在对象中心推理和因果推断之间的潜在联系方面的潜力。
arXiv:2504.07245v1 通知类型: 新
摘要: 本研究提出了一种多阶段的方法,通过利用传统机器学习算法、深度学习架构和基于变压器的模型来对心理健康分类。一个新颖的数据集被构建和使用,以评估各种方法的性能,从传统的分类器开始,逐步过渡到神经网络。为了扩展架构范围,还评估了循环神经网络(RNN)如LSTM和GRU,以探索它们在数据中建模序列模式的有效性。随后,评估了Transformer模型如BERT,以评估语境嵌入在该领域的影响力。除了这些基准评估之外,本研究的核心贡献在于一种新颖的训练策略,该策略涉及由教师网络和学生网络组成的双模型架构。与标准的蒸馏技术不同,该方法不依赖于软标签转移;相反,通过修改损失函数,它促进了教师模型输出及其潜在表示的信息流动。实验结果突出了每个建模阶段的有效性,并表明所提出的损失函数和教师-学生交互显著增强了模型在心理健康预测任务中的学习能力。
arXiv:2504.07139v1 通知类型: 新颖
摘要: 欢迎来到第八版AI索引报告。2025年索引是我们迄今为止最全面的一次,正值人工智能在社会、经济和全球治理方面的影响持续增强的关键时刻。今年报告中的新内容包括对不断演变的人工智能硬件景观的深入分析、推理成本的新估算方法以及对人工智能出版和专利趋势的新分析。我们还引入了企业采用负责任人工智能实践的新数据,同时扩大了人工智能在科学和医学领域日益增强角色的覆盖面。自2017年作为“百年人工智能研究”项目的分支成立为AI索引以来,AI索引一直致力于为政策制定者、记者、高管、研究人员和公众提供准确、严格验证和全球来源的数据。我们的使命一直是在人工智能的开发和部署中帮助这些利益相关者做出更好的决策。在一个人工智能无处不在的世界——从会议室到餐桌上都在讨论——这一使命比以往任何时候都更为重要。AI索引继续引领着跟踪和解读塑造该领域最关键的趋势,包括地缘政治格局的转变和底层技术的快速演变,以及人工智能在商业、政策制定和公共生活中的扩大作用。纵向跟踪仍然是我们使命的核心。在一个发展速度极快的领域,索引提供了至关重要的背景信息——帮助我们理解人工智能今天所处的位置、它是如何到达这里的,以及未来可能会走向何方。作为全球公认的最具权威的人工智能资源之一,AI索引在《纽约时报》、彭博社和《卫报》等重要媒体中被引用;在数百篇学术论文中被引用;并且被全球范围内的政策制定者和政府机构使用。
arXiv:2504.07131v1 宣告类型: 新增
摘要: 生成计划方法在管理用于可靠性和评估和优化模型之间不兼容的随机生产模拟的数学结构时面临挑战,这阻碍了可靠性约束的集成。本文提出了一种通过利用加权斜决策树(WODT)技术将可靠性验证约束嵌入到发电扩展计划中的方法。对于每个计划年份,生成一个带有可靠性评估模拟的发电组合数据集。使用此数据集训练一个WODT模型。通过深度优先搜索技术提取可靠性可行区域,并将其形式化为析取约束。然后,使用凸包建模技术将这些约束转换为混合整数线性形式,并嵌入到机组调度与集成的发电扩展计划模型中。所提出的方法通过德克萨斯州电力可靠性委员会(ERCOT)区域的长期发电计划案例研究得到了验证,证明了其在获得可靠和最优计划解方面的有效性。
arXiv:2504.06160v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)已被证明对某些群体表现出不平衡的偏见。然而,LLMs 对于易受攻击群体的无端攻击的研究仍然被严重忽视。我们论文的三个新贡献为:(1)对高度脆弱的心理健康群体生成的攻击进行明确评估;(2)基于网络的方法来研究相对偏见的传播;以及(3)评估这些攻击中出现的相对污名化的程度。通过对最近发布的大型偏见审核数据集的分析发现,心理健康实体在攻击叙事网络中占据中心位置,这体现在紧密性中心性(p值 = 4.06e-10)和密集聚类(Gini系数 = 0.7)的显著更高均值中。基于污名化理论的社会学基础,我们对污名化的分析表明,与生成链中的初始目标相比,与心理障碍相关的靶标出现了更多的标签成分。总的来说,这些见解阐明了大型语言模型倾向于加剧有害言论的结构倾向,并突显了需要有效缓解方法的必要性。