LLM2D

arXiv 论文列表

作者: Iason Chaimalas, Arnas Vy\v{s}niauskas, Gabriel Brostow
arXiv:2504.09352v1 类型: cross 摘要:自动化现有的图形用户界面(GUI)很重要但很难实现。在使GUI变得用户可访问或以某种方式将其脚本化之前,甚至收集数据以了解原始界面也会带来重大挑战。例如,大量的一般UI数据可能对训练通用机器学习(ML)模型有所帮助,但每个人能够访问这些数据的条件取决于特定应用上ML的精确度。因此,我们从给定用户需要对UI元素在整个应用程序或数字环境中被检测正确的程度具有信心的角度出发。我们主要假设目标应用程序是提前已知的,这样可以针对测试时的目标领域进行个性化数据收集和ML训练。所提出的Explorer系统专注于检测屏幕上的按钮和文本输入框,即交互元素,其中训练过程可以访问应用程序的实时版本。该实时应用程序可以在几乎任何流行的平台(除了iOS手机)上运行,特别地,数据收集特别适用于Android手机或桌面Chrome浏览器。Explorer还允许记录交互式用户会话,并随后映射这些会话如何重叠,并且有时会循环回到类似的状态。我们展示了拥有此类地图如何能够在GUI中实现一种路径规划,让用户通过发出语音命令到达目的地。关键的是,我们将Explorer的代码公开发布在https://github.com/varnelis/Explorer。
发布时间: 4/15/2025
查看原文
作者: Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh
arXiv:2504.09346v1 类型:交叉 摘要:最近,人工智能(AI)语音生成和声音克隆技术在生成自然语音和准确的声音复刻方面取得了进展,但这些技术对不同口音和语言特征的跨领域社会技术系统的影响力尚未完全理解。这项研究通过结合使用调查和访谈的方法评估了两家合成AI声音服务(Speechify和ElevenLabs),以评估其技术性能并揭示用户的生活经验如何影响他们对这些语音技术中口音差异的感知。我们的研究发现,这五种区域性的英语口音在技术性能上存在差异,并展示了当前的语音生成技术如何无意中巩固语言特权和基于口音的歧视,可能会创造新的数字排斥形式。总体而言,我们的研究强调了需要包容性设计和监管,为开发者、决策者和组织提供了可操作的见解,以确保公平和具有社会责任感的人工智能语音技术。
发布时间: 4/15/2025
查看原文
arXiv:2504.09345v1 宣告类型: cross 摘要:混合专家(MoE)大语言模型(LLM),由于其稀疏的激活模式,提供了一种在避免成比例增加推理成本的同时扩展语言模型的方法。然而,它们庞大的参数大小在资源受限环境中构成了部署挑战,尤其是GPU内存容量有限的环境,因为GPU内存往往不足以容纳模型权重的完整集合。因此,典型的部署依赖于CPU-GPU混合执行:GPU处理计算密集型的矩阵乘法(GEMM)操作,而CPU处理相对较轻的注意力机制。这种设置引入了一个关键挑战:如何有效地优化CPU和GPU之间的资源利用率?此前的研究基于具有有限范围性能模型的系统优化,具体来说,这些模型没有捕捉到硬件属性与系统执行机制之间的复杂相互作用。因此,以前的方法既没有识别也没有达到硬件极限。 本文提出了MoE-Lens,这是一种通过全面性能模型设计用于资源受限环境的大规模MoE LLM推理系统。我们的性能模型彻底分析了各种基本系统组件,包括CPU内存容量、GPU计算能力以及工作负载特性,以理解MoE推理的理论性能上限。此外,它捕捉系统执行机制以识别关键硬件瓶颈,并准确预测可实现的吞吐量。基于我们的性能模型,MoE-Lens引入了一个接近硬件极限的推理系统。在多种MoE模型和数据集上进行评估,MoE-Lens的平均性能比最先进的解决方案高4.6倍(最高达25.5倍),并且我们理论模型预测性能的准确率平均为94%。
发布时间: 4/15/2025
查看原文
arXiv:2504.09343v1 类型: cross 摘要:本文探讨了生成型人工智能聊天机器人中确认偏见的现象,这是一个相对较少被研究的人工智能-人类互动方面的方面。通过认知心理学和计算语言学,本文探讨了确认偏见(通常被理解为倾向于寻找与现有信念相一致的信息的倾向)如何通过大型语言模型的设计和运行机制被复制和放大。文章分析了确认偏见在聊天机器人互动中可能的表现机制,评估了该偏见相关的伦理和实践风险,并提出了多种缓解策略。这些策略包括技术干预、界面再设计以及旨在促进平衡的人工智能生成性话语的政策措施。文章最后概述了未来的研究方向,强调了跨学科合作和实证评估的必要性,以更好地理解和解决生成型人工智能系统中的确认偏见问题。
发布时间: 4/15/2025
查看原文
作者: Mingyu Liang, Hiwot Tadese Kassa, Wenyin Fu, Brian Coutinho, Louis Feng, Christina Delimitrou
arXiv:2504.09307v1 交叉类型: cross 摘要:在分布式环境中训练大规模语言模型(LLM)面临显著挑战,由于模型执行的复杂性、部署系统的复杂性以及可配置策略的广泛空间。尽管存在各种优化技术,但在实践中实现高效性仍然困难。准确的性能模型对于指导优化工作和系统级研究至关重要,能够有效地描述和预测模型的行为。我们提出了一种名为Lumos的轨迹驱动的性能建模和估计工具包,专门针对大规模LLM训练,旨在准确捕捉和预测现代LLM的执行行为。我们在使用多达512个NVIDIA H100 GPU的生产ML集群上对Lumos进行评估,使用不同的GPT-3变体,展示了它可以在平均误差仅为3.3%的情况下重现执行时间,以及其他运行时细节,跨越不同的模型和配置。此外,我们验证了它从现有轨迹估算新设置性能的能力,从而促进模型和部署配置的有效探索。
发布时间: 4/15/2025
查看原文
作者: Priyan Vaithilingam, Munyeong Kim, Frida-Cecilia Acosta-Parenteau, Daniel Lee, Amine Mhedhbi, Elena L. Glassman, Ian Arawjo
arXiv:2504.09283v1 Announce Type: cross 摘要:随着用户意图的变化,我们如何更新AI的记忆?我们考虑如何使AI界面协助将新信息整合到自然语言数据的存储库中。受到软件工程概念如影响分析的启发,我们开发了管理具有非局部效应的语义变化的方法和用户界面,称之为“语义冲突解决”。用户将新的意图提交给项目——执行一个“语义提交”——AI帮助用户在其代表意图的现有信息存储库(“意图规范”)中检测和解决语义冲突。我们开发了一个界面,语义提交(SemanticCommit),以更好地理解用户在更新意图规范(如光标规则和游戏设计文档)时如何解决冲突。基于知识图谱的RAG流程驱动冲突检测,而LLM则协助提出解决方案。我们在一个基准上评估了该技术,然后报告了对语义提交(SemanticCommit)的12名用户在两个任务领域内的内部对照研究——游戏设计文档和类似于ChatGPT记忆的AI代理记忆,其中用户将新信息整合到现有列表中。我们的参与者中有一半人在不使用AI修订的情况下首先标记冲突,然后在获得全局修订功能的情况下本地解决冲突。我们主张,如Cursor和Windsurf等软件IDE类型的AI代理界面应提供影响分析的便利性和帮助用户独立于生成过程验证AI检索。我们的研究指出了AI代理设计师应该如何将更新记忆视为一个涉及人类反馈和决策的过程。
发布时间: 4/15/2025
查看原文
作者: Ashmi Banerjee, Adithi Satish, Fitri Nur Aisyah, Wolfgang W\"orndl, Yashar Deldjoo
arXiv:2504.09277v1 宣告类型: cross 摘要:旅游推荐系统(TRS)通过根据用户的偏好、约束和情境因素定制推荐,对于个性化旅游体验至关重要。然而,公开可用的旅游数据集往往缺乏足够的广度和深度,限制了它们支持高级个性化策略的能力——尤其是对于可持续旅游和淡季旅游。在这项工作中,我们探索使用大型语言模型(LLMs)生成模拟不同用户的人格特征的合成旅游查询,并包含结构化的过滤器,如预算限制和可持续性偏好。 本文介绍了一个名为 SynthTRIPs 的新框架,用于使用基于精心编纂的知识库(KB)的 LLM 生成合成旅游查询。我们的方法结合了基于人格的偏好(如预算、旅行风格)和明确的可持续性过滤器(如可步行性、空气质量),以产生现实且多样的查询。通过将 LLM 响应与 KB 结合,我们减少了幻觉并确保了事实的正确性。我们形式化了查询生成过程,并引入了评估现实性和对齐性的评估指标。人类专家评估和自动 LLM 基础的评估表明,我们的合成数据集在捕捉现有数据集中不足的复杂个性化方面是有效的。虽然我们框架是为个人化城市旅行推荐开发和测试的,但该方法适用于其他推荐系统领域。 代码和数据集可在 https://bit.ly/synthTRIPs 公开。
发布时间: 4/15/2025
查看原文
作者: Koustuv Saha, Yoshee Jain, Munmun De Choudhury
arXiv:2504.09271v1 类别:交叉学科 摘要:数字和在线技术的普遍存在及其广泛应用已经转变了心理健康支持的方式,线上心理健康社区(OMHCs)为同伴支持提供了安全的场所。近年来,生成式AI和大规模语言模型(LLMs)引入了新的可能性,可以实现全天候可扩展的心理健康援助,这些援助有望增强和补充OMHCs的能力。虽然生成式AI显示出了提供即时个性化响应的潜力,但其在复制人类同伴提供的细腻、经验为基础的支持方面的有效性仍然存在疑问。在本研究中,我们利用来自Reddit上55个OMHCs的24,114条帖子和138,758个在线社区(OC)响应。我们用这些帖子提示了几种最先进的LLMs(GPT-4-Turbo、Llama-3 和 Mistral-7B),并根据心理学语言学和词汇语义学的多种语言指标将机器人的响应与人类撰写的OC响应进行了比较。我们的发现表明,机器人的响应更为繁冗、易于阅读且具有分析性的结构,但缺乏人类互动中固有的语言多样性和个人叙述。通过定性的分析,我们发现了生成式AI响应的验证以及补充性的见解,例如其立场的中立性以及缺乏双向澄清的需求。我们讨论了将生成式AI整合到OMHCs中的伦理和实践意义,倡导平衡AI的可扩展性和及时性与在线支持社区所体现的不可替代的真实、社会互动性和人类联系的专业知识。
发布时间: 4/15/2025
查看原文
作者: Sohom Ghosh, Arnab Maji, Sudip Kumar Naskar
arXiv:2504.09257v1 通报类型: 切换 摘要: 在企业财报电话会议后预测股票市场价格仍然是投资者和研究人员面临的重大挑战,需要创新的方法来处理多种信息源。本文通过引入多模态预测模型,研究企业财报电话会议对企业股价的影响。我们利用财报电话会议的文本数据,以及附带演示文稿中的图像和表格来预测电话会议后的下一个交易日的股价变动。为了支持这一研究,我们开发了MiMIC(多模态印度企业电话会议)数据集,涵盖了印度SENSEX 50、Nifty MidCap 50和Nifty Small 50指数中的公司。该数据集包括财报电话会议的文本记录、演示文稿、基本面数据、技术指标以及后续的股票价格。我们提出了一种多模态分析框架,将定量变量与文本和视觉模态中提取的预测信号整合起来,从而实现特征表示和分析的全面方法。这种多模态方法展示了整合多种信息源以提高金融预测准确性的潜力。为了促进计算经济学领域的进一步研究,我们已将MiMIC数据集在CC-NC-SA-4.0许可下公开。我们的工作为有关公司沟通对企业市场反应的文献增添了新的内容,并强调了多模态机器学习技术在金融分析中的有效性。
发布时间: 4/15/2025
查看原文
作者: Yomna Mokhtar, Tarek Shohdy, Abdallah A. Hassan, Mostafa Eshra, Omar Elmenawy, Osama Khalil, Haitham El-Hussieny
arXiv:2504.09242v1 交叉类型 摘要:刚体机器人得到了广泛的研究,而软体机器人领域依然是一个待开发的领域。利用软腿机器人代替人在恶劣和危险的环境中执行任务是一项重要的举措,特别是在崎岖地形环境中。为了满足教会任何机器人在不同场景下行为的需求,实时的物理和视觉仿真至关重要。特别是在软体机器人的情况下,仿真框架仍是一个艰巨的问题需要解决。使用仿真开放框架架构(SOFA)是一个有利的步骤。然而,SOFA的手册及其之前的公共SOFA项目都没有充分展示用户可以实现的最大能力。因此,我们通过建立自定义设置并适当处理框架组件解决了这个问题。优化和完善SOFA参数极大地激发了我们实现最先进的(SOTA)强化学习(RL)方法—近端策略优化(PPO)的动机。最终的表现是一个基于PPO-RL的完善定义且可部署的软腿三足行走机器人。机器人导航性能是衡量成功解决方案的关键指标。虽然在模拟软机器人的情况下,成功率达到82%的单个目标是个重要的输出,但通过评估依次分配目标的进展,我们进一步取得了突破,发现累积平方误差偏差为19毫米。完整的代码可以在https://github.com/tarekshohdy/PPO_SOFA_Soft_Legged_Robot.git/public访问。
发布时间: 4/15/2025
查看原文