LLM2D

arXiv 论文列表

作者: Dong Won Lee, Yubin Kim, Denison Guvenoz, Sooyeon Jeong, Parker Malachowsky, Louis-Philippe Morency, Cynthia Breazeal, Hae Won Park
arXiv:2504.13898v1 Announce Type: cross 摘要:我们的工作旨在推动具身人工智能(AI)代理在现实社会互动中的社会推理能力。最近,语言模型(LMs)和基础模型(FMs)正被用作自动评估人机互动的工具,目标是最终用于改善AI代理的政策。为了进一步在此方向上推动研究,我们介绍了一个大规模的真实世界人类机器人社会互动(HSRI)数据集,以评估LMs和FMs识别人类社会互动并推理的能力,特别是在机器人社会错误和能力方面。我们的数据集包含400个真实世界的人与机器人的社会互动视频和超过10,000个注释,详细记录了机器人的社会错误、能力、解释和纠正措施,捕捉了仅在真实世界互动中才存在的独特人类-机器互动方面。为了进一步评估AI模型对社会互动的推理能力,我们提出了八个新的基准任务,围绕AI模型是否能够(1)通过检测社会错误和能力来评估社会互动,(2)识别与错误和能力相关的解释因素,(3)理解现实世界社会互动的流程,以及(4)为社会错误提供理由和纠正措施。现代语言模型和基础模型的人机实验表明,当前模型在这些任务上存在困难,证明我们的数据集和基准为通往社交智能AI提供了一步进展。
发布时间: 4/22/2025
查看原文
作者: Wanfang Xu, Lixiang Zhao, Haiwen Song, Xinheng Song, Zhaolin Lu, Yu Liu, Min Chen, Eng Gee Lim, Lingyun Yu
arXiv:2504.13891v1 声音类型: cross 摘要: 在这项工作中,我们引入了Mozualization,这是一种音乐生成和编辑工具,通过整合多种输入,如关键词、图像和声音片段(例如,来自不同音乐作品的片段,甚至是一只调皮的猫的叫声)来创建多风格嵌入音乐。我们的工作受人们表达情感方式的启发——撰写描述情绪的诗歌或文章,创作暖色调或冷色调的画作,或是聆听悲伤的或振奋人心的音乐。基于这一概念,我们开发了一种工具,能够将这些情感表达转化为一致而富有表现力的歌曲,从而使用户能够无缝地融入他们的独特偏好和灵感。为了评估该工具,并更重要的是,收集改进其性能的见解,我们对九位音乐爱好者进行了用户研究。研究评估了用户的使用体验、参与程度,以及交互和聆听生成音乐的影响。
发布时间: 4/22/2025
查看原文
作者: Paul Taele, Laura Barreto, Tracy Hammond
arXiv:2504.13889v1 交叉类型公告 摘要:学习音乐理论不仅对音乐家提高作曲、表演、理解以及表达音乐的能力具有实际益处,同时也对非音乐家提高批判性思维、数学分析技能和音乐鉴赏能力有益。然而,目前适用于在没有人类指导的情况下通过写作学习音乐理论的外部工具要么反馈有限,要么缺乏书写模态,要么假设学生已具备很强的音乐理论概念熟悉度。在本文中,我们描述了 Maestoso,这是一种面向新手学习者的教育工具,通过练习被测音乐结构的草图来学习音乐理论。Maestoso 首先自动识别学生所绘制的被测概念输入,然后依赖现有的草图和手势识别技术自动识别输入,最后生成模拟教师的反馈。从我们的评估中可以看出,Maestoso 在识别音乐结构元素方面表现合理,新手学生可以在单一会话中轻松掌握入门音乐理论。
发布时间: 4/22/2025
查看原文
arXiv:2504.13888v1 交叉公告类型 摘要:日文汉字书写是一项常被介绍给初学日语的外国学生的技能,以便掌握日本书写技巧,但由于与书面英语的巨大差异,对主要以英语流利的人来说是一项挑战。教师通常会介绍各种教学方法——如视觉结构和书写技术——来辅助学生学习汉字,但可能缺乏在课堂之外直接提供学生的书写反馈的机会。当前的教育应用也因缺乏更丰富的教师模拟反馈而受到限制。我们介绍了“汉字练习簿”这一基于书写的人工智能辅导系统,以便学生能够获得模拟人类教师反馈的智能评估。我们的界面不仅利用学生的计算设备,使他们能够学习、练习并复习从课程中汉字课程中提示的字符书写,还通过智能评分和视觉动画提供了一系列书写评估指标——这些指标源自教师访谈和课堂观察的见解。我们在整个学年期间将界面部署在初级和中级水平的大学课程上,观察到界面用户在平均成绩上比他们的同学更高,并且对界面的各种功能作出了积极的反应。
发布时间: 4/22/2025
查看原文
作者: Karan Taneja, Anjali Singh, Ashok K. Goel
arXiv:2504.13884v1 类型: cross 摘要:已证明使用文字和图像的多媒体学习比仅使用文字的指令能提高学习成果。然而,教育中的对话式AI系统主要依赖基于文本的交互,而对于多媒体学习的多模态对话尚未进行探索。此外,在学习环境中部署对话式AI需要基于可靠来源并具有可验证性以建立信任。我们提出了MuDoC,一个基于GPT-4o的多模态文档本体对话式AI系统,该系统利用文本和文档中的图像来生成交错的文字和图像的回应。其界面允许通过无缝导航到源文件来验证AI生成的内容。我们将MuDoC与仅基于文本的系统进行比较,以探索学习者参与度、对AI系统的信任以及他们在问题解决任务上的表现差异。我们的研究发现表明,内容的可验证性以及视觉信息能够增强学习者参与度并促进信任;然而,未观察到在表现上有显著影响。我们借鉴认知科学和学习科学的理论来解释这些发现并推导出启示,指出了教育中多模态对话式AI系统发展的未来方向。
发布时间: 4/22/2025
查看原文
作者: Ionut Anghel, Tudor Cioara, Roberta Bevilacqua, Federico Barbarossa, Terje Grimstad, Riitta Hellman, Arnor Solberg, Lars Thomas Boye, Ovidiu Anchidin, Ancuta Nemes, Camilla Gabrielsen
arXiv:2504.13877v1 类别: cross 摘要: 过渡期护理可能在欧洲未来医疗保健系统中扮演关键角色,通过为将患者护理从医院转移到家中提供解决方案,从而应对人口老龄化带来的不断增长的医疗需求。然而,要有效地实现这一目标,必须整合创新型信息技术,以确保患有共病的患者能够顺利且协调地从医院或护理中心转移到家中,从而降低重新入院的风险。在本文中,我们概述了物联网、人工智能和数字助理技术与传统护理路径的整合,旨在解决和满足欧洲医疗保健系统面临的挑战和需求。我们识别了过渡期护理方面的现有空白,并定义了技术映射以增强护理路径,以提高患者成果、安全性和生活质量,避免再次入院。最后,我们定义了需要进行的试验设置和评估方法,以提供支持技术整合对患者护理产生积极影响的临床证据,并讨论了其对医疗保健系统的影响。
发布时间: 4/22/2025
查看原文
作者: Yuanjun Feng, Vivek Chodhary, Yash Raj Shrestha
arXiv:2504.13871v1 类型: cross 摘要:本研究探讨了算法对人类判断进行评估在混合决策系统中未被充分研究的作用,这是管理研究中的一个关键缺口。尽管现有文献主要关注人类不愿遵循算法建议,我们却从另一个角度出发,研究基于大型语言模型(LLM)的AI代理如何评估和整合人类输入。我们的工作解决了企业管理中的一个紧迫限制:由于隐私问题而被禁止直接部署LLM的企业,仍然可以通过使用它们作为中介工具(例如脱敏输出或决策管道)来引导高风险决策(如定价或折扣),而不暴露专有数据。通过一个受控的预测任务,我们分析了一个基于LLM的AI代理如何权衡人类预测与算法预测。我们的研究发现,AI系统系统性地低估了人类建议,并对人类错误施加更严厉的惩罚——当代理的身份(人或AI)被披露且人类位于次要位置时,这种偏差会进一步加剧。这些结果揭示了AI生成的信任度指标与人类判断的实际影响之间的脱节,挑战了关于公平的人机协作的假设。我们的发现提供了三个关键贡献。首先,我们识别出一种反向的算法厌恶现象,即尽管错误率相似,AI代理仍然低估人类输入的价值。其次,我们展示了披露和位置偏见如何交互以放大这一效应,这对系统设计有重要影响。第三,我们提供了一个平衡预测能力和数据隐私的框架,用于间接部署LLM。对于实践者来说,这项研究强调了审计AI权重机制、校准信任动态以及战略性设计人机系统决策序列的必要性。
发布时间: 4/22/2025
查看原文
arXiv:2504.13868v1 宣告类型: cross 摘要: 本研究挑战了广泛报道的生成人工智能(GenAI)对创造性成果贡献与这些成果多样性的减少之间的权衡。我们通过修改Doshi和Hauser(2024)的研究设计,对其进行了改进,在该研究中参与者要么在GenAI情节想法的辅助下,要么在没有GenAI辅助的情况下书写短篇故事[1]。在改进的研究中,情节想法通过十种具有不同特质的独特GenAI“个性”生成(例如,文化背景、思维方式、类型偏好),从而创建了一个包含300个故事情节的池子。虽然来自任何单一个性的故事情节显示出高度相似性(平均余弦相似度为0.92),但不同个性之间的想法表现出相当大的变化(平均相似度为0.20)。当人类参与者基于这些多样化的故事情节撰写故事时,他们的集体输出与没有GenAI辅助撰写的故事情节保持相同的多样性水平,从而有效地消除了[1]中观察到的多样性减少。传统的文本分析进一步揭示了,与完全没有GenAI辅助生成的故事相比,GenAI辅助生成的故事在描述性和情感语言方面具有更大的多样性。我们的研究结果表明,在AI输入阶段通过不同的个性引入多样性,可以在与GenAI协作时保持并可能提升人类创造性输出的总体多样性。
发布时间: 4/22/2025
查看原文
arXiv:2504.13866v1 公告类型:交叉学科 摘要:医疗保健专业人员建议的物理康复锻炼可以帮助从各种肌肉骨骼疾病中恢复,并预防再次受伤。然而,在没有直接监督的情况下,患者参与度往往会随时间下降,因此,需要一个自动监控系统。近年来,在物理康复锻炼的质量评估方面取得了巨大进展。大多数方法仅提供一种二元分类,即表现正确或错误,而少数方法提供了连续得分。这些信息对患者来说不足以改进其表现。在本文中,我们提出了一种康复锻炼错误分类的算法,从而迈出了向患者提供更详细反馈的第一步。我们关注基于骨架的锻炼评估,该评估利用人体姿态估计来评估运动。受到最近在康复锻炼过程中进行质量评估的算法的启发,我们提出了一个基于Transformer的模型来进行描述的分类。我们的模型受到了用于人类动作识别的HyperFormer方法的启发,并适应了我们的问题和数据集。评估是在KERAAL数据集上进行的,因为该数据集是唯一一个拥有清晰错误标签的医疗数据集,我们的模型显著超越了现有最先进的方法。此外,我们通过提出一种计算每种锻炼关节重要性的方法,填补了向患者提供更好反馈的差距。
发布时间: 4/22/2025
查看原文
作者: Fei Tang, Haolei Xu, Hang Zhang, Siqi Chen, Xingyu Wu, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Zeqi Tan, Yuchen Yan, Kaitao Song, Jian Shao, Weiming Lu, Jun Xiao, Yueting Zhuang
arXiv:2504.13865v1 类型: cross 摘要:图形用户界面(GUI)代理已成为人机交互的一项变革性范式,从基于规则的自动化脚本演进为能够理解并执行复杂界面操作的高级AI驱动系统。本文综述了基于大语言模型(LLM)的GUI代理的快速发展的领域,系统地分析了其架构基础、技术组件和评估方法。我们识别并分析了构成现代GUI代理的四个基本组成部分:(1)结合基于文本解析的多模态理解的感知系统,以实现全面的界面理解;(2)探索机制,通过内部建模、历史经验及外部信息检索构建和维护知识库;(3)利用高级推理方法进行任务分解和执行的规划框架;以及(4)管理动作生成并具备稳健安全控制的交互系统。通过这些组件的深入分析,我们揭示了大型语言模型和多模态学习的最新进展如何在桌面、移动和网页平台上彻底改变了GUI自动化的面貌。我们对现有的评估框架进行了批判性审查,指出了现有基准方法的局限性,并提出了标准制定的方向。本文还识别了关键技术挑战,包括准确的元素定位、有效的知识检索、长期规划和安全感知执行控制,并概述了增强GUI代理能力的有前景的研究方向。我们的系统综述为研究人员和从业者提供了对该领域当前状态的全面理解,并提供了对未来智能界面自动化发展的洞察。
发布时间: 4/22/2025
查看原文