arXiv:2502.00023v1 类型: cross
摘要:我们的研究探索了音乐代理的发展及其应用,这些代理是人机交互生成AI系统,旨在支持音乐表演和共创空间内的即兴创作。我们介绍了MACAT和MACataRT这两种不同的音乐代理系统,旨在增强人类音乐家与AI之间的互动音乐制作。MACAT针对代理主导的表演进行了优化,利用实时合成和自我聆听来自主塑造其输出,而MACataRT提供了一个通过音频马赛克和基于序列的学习来促进协作即兴创作的灵活环境。这两种系统都强调使用个性化的小数据集进行训练,从而促进公平透明的AI参与,并尊重艺术完整性。这项研究展示了互动的,以艺术家为中心的生成AI如何扩大创作可能性,使音乐家能够在实时表演和即兴创作的情境中探索新的艺术表达形式。
arXiv:2502.00015v1 宣布类型: cross
摘要:[背景] 生成式人工智能技术,特别是大型语言模型(LLMs),通过增强信息检索、内容生成和决策过程中的便利性和效率,已经改造了众多领域。然而,部署LLMs也带来了多样的伦理挑战,而这些挑战的缓解策略仍然复杂且领域依赖性高。[目标] 本文旨在识别和分类与使用LLMs相关的关键伦理关切,检查现有的缓解策略,并评估在各个领域实施这些策略时面临的突出挑战。[方法] 我们进行了系统的文献综述研究,回顾了39篇关于讨论LLMs相关的伦理关切和缓解策略的研究文献。我们使用了五种伦理维度进行分析,这些维度是基于各种现有指南、框架以及对缓解策略和实施挑战的分析提取出来的。[结果] 我们的研究发现,在LLMs中的伦理关切是多维度且情境依赖的。虽然提出的缓解策略可以解决某些关切,但仍存在重大挑战。[结论] 我们的研究结果强调,伦理问题常常阻碍缓解策略的实用实施,尤其是在高风险领域如医疗保健和公共治理方面;现有框架往往缺乏灵活性,无法适应不断变化的社会期望和多样化的情境。
arXiv:2502.00011v1
公告类型:交叉
摘要:人工智能(AI)作为一种变革性技术已崭露头角,具有重塑医疗保健、金融、教育及其他多个领域的潜力。然而,成功实施AI系统仍是一大复杂挑战,需要一套全面且方法论严谨的框架。本文通过引入可信、优化、适应性强且社会和技术和谐的(TOAST)框架,应对这一挑战。TOAST框架借鉴了各学科的见解,旨在将技术策略与伦理价值观、社会责任和创新愿望相融合。TOAST框架是一种新颖的方法,旨在指导AI系统的实施,重点关注可靠性、问责制、技术进步、适应性和社会技术和谐。通过基于医疗保健案例研究,本文提供了TOAST框架在高风险环境中的实践性和理论严谨性的坚实评估,展示了如何通过适应性强的AI系统提高机构效率、降低偏见和数据隐私风险,并为需要道德对齐和高效AI整合的其他领域提供可复制的模式。
arXiv:2502.00005v1 交叉学科类型: cross
摘要: 良好的心理健康使个体能够应对生活中的正常压力。在德国,大约四分之一的成年人口受到精神疾病的影响。远程治疗和数字健康应用程序可用于弥补医疗服务中的缺口,减轻医务人员的压力。这些工具的接受度是其有效性的一个重要影响因素,也需要评估基于人工智能的对话代理(CA,例如ChatGPT、Siri)在评估风险和探讨将其整合到治疗实践中可能性方面的情况。本研究调查了普通人群和医务人员的观点,如下所示的问题:
1. 普通人群和医务人员中使用CA进行心理健康咨询的情况如何?
2. 在心理健康领域,CA的接受度有多高?
3. 普通人群和医务人员在咨询、诊断和治疗中使用CA的程度如何?为了回答这些问题,对444名普通人群和351名医务人员进行了两项定量在线调查。统计分析表明,已有27%的受访人口将他们的担忧告知了CA。不仅对该技术的使用经验,而且对远程医疗的使用经验也表明,对两组人员来说,使用CA进行心理健康咨询的接受度更高。此外,普通人群的参与者更愿意支持由医务人员控制的CA作为陪伴,而不是作为专业人士的额外专家。CA有能力支持心理健康,特别是在咨询方面。未来的研究应该探讨不同交流媒体的影响以及增强人工智能的进一步可能性。在技术和人类关怀之间的适当平衡下,可以在病人与医护人员的互动中实现其整合。
arXiv:2502.00003v1 类型: 相关工作
摘要: 目前针对AI的法律框架依靠训练计算门槛作为识别潜在危险的AI模型并触发更严格监管关注的代理指标。在美国,行政命令14110第4.2(a)节指示商务部要求超过一定训练计算门槛的AI模型开发者提交详尽的报告。在欧盟,AI法案第51条假定超过特定计算门槛的AI模型具有高影响能力,因此这些模型的开发者需要承担数项义务,包括能力评估、报告和事件监控。在本文中,我们研究了一些能够降低训练计算使用量同时保持,甚至提高模型能力的改进技术。由于训练计算门槛依赖于训练计算量作为衡量标准和触发更严格监管关注的因素,这些能力增强和计算节省技术可能构成对现有训练计算门槛的法律漏洞。特别地,我们集中在四种示例技术(微调、模型复用、模型扩展以及计算优化态推理计算)上,旨在进一步探讨这些技术对训练计算门槛作为法律机制的影响,并提出能够解决相关法律漏洞的政策建议。
arXiv:2502.01630v1 事件类型: 新
摘要: 多会话对话中的时间推理是一项显著的挑战,此前在时间推理基准测试中对此关注不足。为了弥合这一差距,我们提出了一项新的时间推理评估任务,并通过增强来自LoCoMo的对话并创建多选择问答题来构建新的基准。此外,我们提出了TReMu,一个旨在增强LLM代理在这种情况下时间推理能力的新框架。具体而言,该框架通过时间线总结实现了时间感知的记忆,通过总结每个对话会话中的事件及其推断日期来创建可检索的记忆。此外,我们还整合了符号神经时间推理,在这里,LLMs生成Python代码以执行时间计算并选择答案。在流行的LLM上的实验评估表明,我们的基准具有挑战性,提出的框架相比基线方法显著提高了时间推理性能,从通过标准提示的GPT-4o的29.83提高到通过我们方法的77.67,突显了它在处理多会话对话中的时间推理方面的效果。
arXiv:2502.01584v1 类型: 新
摘要: 当前针对前沿模型的基准测试通常测试专化的、"博士水平"的知识,这对于非专家来说很难理解。相比之下,我们提出了一项基于NPR周日谜题挑战的基准测试,只需要普通知识即可。然而,这项基准测试对人类和模型都是具有挑战性的,但正确的解题结果很容易验证,模型的错误也很容易被发现。
我们的工作揭示了现有基准测试中不存在的能力差距:OpenAI o1在测试专化知识的基准测试中明显优于其他推理模型。此外,我们对推理输出的分析揭示了新的失败类型。例如,DeepSeek R1通常会在给出一个它知道是错误的答案之前放弃,用“我放弃了”。R1在输出中还表现出异常的“不确定”,甚至在极少数情况下,它也不会“完成思考”,这表明需要一种在上下文窗口限制之前在推理阶段进行“总结”的技术。我们还通过R1和Gemini Thinking量化了更长时间推理的有效性,以确定超出这一点后更多推理不太可能提高基准测试的准确性。
arXiv:2502.01503v1 通告类型: 新
摘要: 在海运行业中,恶意行为者在禁用其船舶的自动识别系统(AIS)后进行非法行为,这使得分析师难以找到这样的船舶。机器学习方法只能在未来短期内识别这些“暗船”的位置。本文利用了应用于定位敌对代理的 abduction 推理思想来解决这个问题。具体而言,我们结合了 abduction、逻辑编程和规则学习的概念,创建了一种高效的方法,该方法接近于完全召回“暗船”的同时,所需的搜索区域比机器学习方法少。我们提供了一种基于逻辑的关于海上船舶推理的范式、一种 abduction 推理查询方法、一种自动提取的基于规则的行为模型方法以及一套全面的实验。
arXiv:2502.01492v1 宣布类型: 新
摘要:前沿模型研究的持续进步正为AI代理的广泛部署铺平道路。与此同时,全球在软件、制造、能源和物流等领域构建大型复杂系统的兴趣从未如此浓厚。尽管基于AI的系统工程具有巨大的潜力,但目前主导代理评估的静态基准无法捕捉到实现动态系统所需的关键技能,例如管理不确定性权衡和确保主动适应性。本文建议通过自动化导向的沙盒游戏,特别是Factorio,来训练和评估AI代理的系统工程能力。通过将研究努力导向这一方向,我们可以为AI代理配备必备的专门推理能力和长远规划能力,以设计、维护和优化未来最具挑战性的工程项目。
arXiv:2502.01387v1 宣布类型: 新
摘要:尽管深度强化学习(DRL)和大型语言模型(LLMs)在解决自动驾驶中的决策挑战方面显示出潜力,但DRL经常受到高样本复杂性的困扰,而LLMs则难以确保实时决策。为了解决这些局限性,我们提出了一种名为TeLL-Drive的混合框架,该框架整合了一个教师LLM以指导基于注意力的学生DRL策略。通过将风险度量、历史场景检索和领域启发式方法融入上下文丰富的提示中,LLM通过链式思维推理生成高层次的驾驶策略。然后,自注意力机制将这些策略与DRL代理的探索相结合,加速策略收敛并提升在多样化驾驶条件下的鲁棒性。我们在多个交通场景下的实验结果显示,TeLL-Drive在成功率、平均回报和实时可行性方面优于现有的基线方法,包括其他基于LLM的方法。消融研究强调了每个模型组件的重要性,尤其是注意力机制与LLM驱动的指导之间的协同作用。这些发现表明,TeLL-Drive显著增强了自动驾驶系统的适应性和安全性,同时提供了一种更高效和可扩展的策略学习方法。完整的验证结果可在我们的网站上查阅。