arXiv:2504.13942v1 交叉类型:cross
摘要:本文介绍了“事物智能”(INOT),这是一种新颖的空间上下文感知控制系统,通过直观的空间推理来增强智能家居自动化。当前的智能家居系统大多依赖于特定设备标识符,限制了用户交互只能通过明确的命名约定,而非自然的空间参考。INOT 通过模块化架构将视觉语言模型与物联网控制系统集成在一起,以启用具有空间上下文的自然语言命令(例如,“把靠近窗户的灯打开”)。该系统包括关键组件,如联机注册推理引擎、零样本设备检测、空间拓扑推理和基于意图的命令合成。一项包含15名参与者的全面用户研究表明,INOT 在与 Google Home Assistant 等传统系统相比时具有显著优势,用户报告认知负荷减少(NASA-TLX评分平均减少13.17分)、更高的易用性评分以及更强的偏好(15名参与者中有14名)。通过消除记忆设备标识符的需求,并启用上下文感知的空间命令,INOT 代表了在创建更具直观性和可访问性的智能家居控制系统方面的重要进步。
arXiv:2504.13941v1 Announce Type: 跨
摘要:大型语言模型(LLMs)展示了强大的推理能力,特别是在通过强化学习(RL)增强后表现尤为突出。尽管以前的工作已经在数学推理方面成功应用了RL(其中规则和正确性定义明确),但将这些方法推广应用到更广泛的推理领域仍然具有挑战性,原因包括数据有限、缺乏可验证的奖励结构以及任务需求的多样化。在本文中,我们提出了NEMOTRON-CROSSTHINK框架,该框架系统地将涵盖STEM、人文、社会科学等领域的合成和真实世界的问题-答案对纳入RL训练,以提高对多样化推理任务的泛化能力。NEMOTRON-CROSSTHINK通过以下几个方面应对关键挑战:(1)纳入来自不同来源的数据,涵盖STEM、人文、社会科学等领域;(2)应用结构化模板(例如,多项选择题和开放式问题)以控制答案空间的复杂性;(3)筛选可验证的答案;以及(4)优化有效利用多来源数据的数据混合策略。我们的方法使得在数学之外的可扩展且可验证的奖励建模成为可能,并且在数学(MATH-500: +30.1%,AMC23:+27.5%)和非数学推理基准测试(MMLU-PRO: +12.8%,GPQA-DIAMOND: +11.3%,AGIEVAL: +15.1%,SUPERGPQA: +3.8%)上均表现出改进的准确性。此外,NEMOTRON-CROSSTHINK在响应效率方面表现出显著改进,使用28%更少的令牌来生成正确答案,这表明推理更具针对性和有效性。通过NEMOTRON-CROSSTHINK,我们证明了将多领域、多格式数据纳入RL可以导致更准确、更高效和更泛化的LLMs。
arXiv:2504.13940v1 交叉公告类型
摘要:语言学生可以通过掌握日语汉字的视觉结构和书写技巧来提高他们学习书面日语的有效性。然而,现有的汉字手写识别系统在评估书写技巧方面并不充分,不能阻止学生养成不良的学习习惯。在本文中,我们将介绍我们关于Hashigo的工作,这是一个能够对学生的草书汉字在视觉结构和书写技巧方面提供达到人类教师水平的评价和反馈的交互系统。这种自动化的评价和反馈使学生能够针对其草书中的特定缺陷进行目标定位和纠正,如果不进行纠正,这些缺陷将对长期有效的汉字学习产生负面影响。
arXiv:2504.13928v1 类型:跨平台
摘要:传统游戏中的NPC往往受限于静态对话树和单一的交互平台。为克服这些限制,本研究提出了一种原型系统,该系统使由大型语言模型(LLM)驱动的NPC能够在游戏环境(Unity)和社交平台(Discord)上与玩家进行沟通。对话日志存储在云数据库(LeanCloud)中,使系统能够在不同平台之间同步记忆并保持对话的一致性。初步实验显示,跨平台交互在技术上是可行的,并为未来开发如情绪建模和支持持久记忆奠定了坚实的基础。
arXiv:2504.13926v1 交叉领域公告类型:交叉领域
摘要:将人工智能(AI)融入高风险领域,如医疗保健、金融和自主系统,常常受限于透明度、可解释性和信任方面的担忧。虽然以人为本的人工智能(HCAI)侧重于与人类价值观的对齐,可解释的人工智能(XAI)通过使AI决策更具可理解性来增强透明度。然而,缺乏统一的方法限制了AI在关键决策场景中的有效性。本文提出了一种新颖的三层框架,将HCAI和XAI结合起来,建立了一个结构化的可解释性范式。该框架包括:(1)具有内置可解释性机制的基础AI模型,(2)以人为本的解释层,根据认知负荷和用户专长定制解释,以及(3)实时用户交互引导的动态反馈循环,以改进解释。该框架在医疗保健、金融和软件开发领域进行了评估,展示了其在增强决策、合规性和公众信任方面的潜力。我们的研究推进了以人为本的可解释性人工智能(HCXAI),推动了透明度高、可适应性强且伦理对齐的人工智能系统的开发。
arXiv:2504.13918v1 宣告类型:交叉
摘要:随着我们的信息环境越来越依赖人工智能(AI),人类与这种智能进行互动时的信任现象变得越来越重要。例如,在不远的将来,人类和智能机器人将组队应对飓风、地震或核事故等高风险灾害事件的影响。即使在高度不确定的条件下,人类和智能机器也需要进行共同决策,而信任是这些互动有效性的关键。在建模这种信任动态的过程中,一个关键挑战是如何提供一种方法来纳入对人类信任判断波动的敏感性。在这篇文章中,我们探讨了量子随机漫步模型在建模人类与AI互动中的信任动态方面的能力,并基于与AI互动的性质整合了对参与者信任判断波动的敏感性。我们发现,使用经验参数来指导不同哈密顿量的使用可以为建模人类与AI互动中的信任演变提供一种有前景的方法。
arXiv:2504.13908v1 声明类型:交叉
摘要:标准化调查可以高效进行,但牺牲了深度,而对话访谈可以提高回应质量,但会牺牲可扩展性和一致性。本研究通过引入一种基于AI的对话访谈框架来弥合这两种方法之间的差距。为了评估这一框架,我们进行了一项网络调查实验,其中1,800名参与者被随机分配给基于文本的对话AI代理,或称为“文本机器人”,以动态地对受访者进行追问,并与他们进行互动编码开放式回应。我们从编码准确性、回应质量和受访者体验三个方面评估了文本机器人的表现。我们的研究发现表明,即使没有针对特定调查进行微调,文本机器人在实时编码方面也能表现得相当不错,尽管由于受访者顺应偏差,错误正性误报略有增加。开放式响应更加详细和有信息量,但这对受访者的体验造成了一定成本。我们的研究结果突显了使用AI方法增强网络调查中开放式数据收集的可行性。
arXiv:2504.13904v1 类型: cross
摘要: 我们假设最优的系统响应源自基于因果和反事实知识的适应性策略。反事实推理使我们能够创造假设情景以考察不同系统响应的效果。我们通过因果发现这一过程来增强这一方法,因果发现识别出受底层因果结构指导的策略,这些策略规范了系统行为。此外,我们考虑可能影响用户-系统交互的心理构建和不可观测的噪声作为潜在因素。我们展示了这些因素可以有效估计。我们使用因果发现来识别用户和系统陈述之间的策略级因果关系,从而指导个性化反事实对话的生成。我们将用户陈述策略建模为因果因素,使得系统策略可以被视为反事实动作。此外,我们基于反事实数据优化了选择系统响应的策略。使用有关社会公益的实证数据集的结果表明,在说服性系统的结果上取得了显著改善,累积奖励的增加证实了因果发现指导个性化反事实推理和优化具有说服力对话系统的对话策略的有效性。
arXiv:2504.13900v1 Announce Type: 横跨
摘要:随着AI工具在学习情境中的快速应用,了解这些系统如何塑造用户阅读过程和认知参与变得至关重要。我们收集并分析了124次使用AI工具的会话文本,学生在这些工具的帮助下阅读了一门本科课程指定的阅读材料。我们将参与者对AI的提示按照布鲁姆教育目标分类理论进行分类——记忆、理解、应用、分析、评价。我们的结果显示,在单次使用会话中,用户的第二个和第三个提示更倾向于“分析”和“评价”,这表明向高层次思维的转变。然而,在回顾用户在数周内使用AI工具的行为时,我们发现用户随着时间的推移逐渐趋向于被动阅读的参与方式。基于这些结果,我们提出了未来AI阅读支持系统的设计建议,包括针对较低水平认知任务的结构化支架(例如,回忆术语)和促进高层次思维的主动提示(例如,分析、应用、评价)。此外,我们倡导具有适应性和以人为本的循环特点,使学生和教师能够根据个人需求调整其与AI的阅读体验,平衡效率与丰富的认知参与。我们的论文扩展了关于将AI整合到学术阅读中的对话,突出了其潜在益处和挑战。
arXiv:2504.13899v1 类别: cross
摘要:反事实解释是可解释人工智能中广泛应用的一种方法,通过展示输入数据的小变化如何导致不同的结果,为决策制定提供了可操作的见解。尽管反事实解释非常重要,但评估其质量仍然是一个待解决的问题。传统的定量指标,如稀疏性或接近度,未能充分考虑到人类在解释中的偏好,而用户体验研究虽然有启示作用但不具备可扩展性。此外,仅依赖单一的整体满意度评级并不能提供为什么某些解释有效或无效的细致理解。为了解决这一问题,我们分析了一个由206名人类参与者评估的反事实解释数据集,参与者不仅评估了整体满意度,还评估了七个解释标准:可行性、连贯性、复杂性、可理解性、完整性、公平性和信任度。将整体满意度建模为这些标准的函数,我们发现可行性(建议变化的可操作性)和信任度(相信这些变化会带来期望的结果)始终是最强的预测用户满意度的因素,尽管完整性也作为一个有意义的贡献者出现。至关重要的是,即使排除可行性和信任度,其他指标解释了58%的变化,突显了额外解释品质的重要性。复杂性似乎独立存在,表明更详细的解释并不一定减少满意度。强指标相关性暗示了用户评估质量的潜在结构,而人口背景显著影响排名模式。这些见解指导了适应用户专业知识和领域背景的设计反事实算法,以调整解释品质。