LLM2D

arXiv 论文列表

arXiv:2504.13859v1 宣传类型: 交叉 摘要:AI,特别是大型语言模型(LLMs),如ChatGPT,在过去五年中迅速发展并获得了广泛的采用,使用户偏好了从传统搜索引擎。然而,LLMs 的生成性质引发了关于错误信息被当作事实呈现的担忧。为了解决这个问题,我们开发了一个基于Web的应用程序,旨在通过识别大语言模型对重大历史人物回答中的误导性信息来帮助K-12学生提高批判性思维能力。在这篇论文中,我们描述了DoYouTrustAI工具的实现和设计细节,该工具可以提供一个互动课程,教学生错误信息的危险性以及生成型AI使其看起来可信的机制。DoYouTrustAI工具利用提示工程向用户提供有关历史人物生平的AI生成摘要。这些摘要可以是对该人物生平的准确描述,也可以是故意扭曲的历史。用户需要在没有外部资源的情况下判断该陈述的真实性。我们在这项工作中的研究问题是:(RS1)我们如何设计一个工具来教学生有关误导性信息的危害以及错误信息在LLM回应中如何呈现?(RS2)我们能否将提示工程呈现为一个学生易于理解的话题?我们的研究发现强调了在用户记住误导性信息之前纠正其信息的必要性。该工具允许用户选择熟悉的个体进行测试以减少随机猜测,并将错误信息与已知事实并置以保持可信度。此外,该工具还提供了预配置的提示说明,以显示不同提示如何影响AI响应。这些功能共同创建了一个受控环境,使用户能够了解验证AI回应的重要性以及理解提示工程。
发布时间: 4/22/2025
查看原文
arXiv:2504.13858v1 宣告类型: 横向 摘要:信息系统的解释特性推动了对人工情报(AI)输出透明度的需求。为了应对这种需求,可解释人工智能(XAI)领域提出了支持人类决策的方法,通过解释AI输出来辅助人类决策。然而,目前的实证研究表明,这些解释是否能帮助在决策支持系统(DSS)中提高用户任务性能存在不一致的发现。在本文中,我们进行了一项元分析,以探讨XAI如何影响人类在分类任务中的表现。我们的结果显示,通过基于XAI的决策支持可以提高任务性能,尽管解释本身并不是这种改进的决定性因素。分析发现,研究的风险偏见调节了解释在AI中的影响,而解释类型似乎只起到了微不足道的作用。我们的研究结果为人类计算机交互领域提供了支持,增强了对人类-XAI协作在DSS中的理解。
发布时间: 4/22/2025
查看原文
作者: Andrew Silva, Pradyumna Tambwekar, Mariah Schrum, Matthew Gombolay
arXiv:2504.13856v1 Announce Type: cross 摘要:随着机器人和数字助手在现实世界中部署,这些代理必须能够沟通其决策标准以建立信任、提高人机团队的合作能力,并促进协作。尽管可解释人工智能(xAI)领域取得了重大进展,使其能够实现这种沟通,但这些进步往往假定每种问题都有一种理想的xAI方法(例如,使用决策树解释在紧急情况下如何优先处理患者的方法,或使用特征重要性映射解释放射学报告)。这忽视了用户在互动模式方面可能具有的多样化经验和偏好。在本文中,我们在模拟的自主车辆(AV)领域中进行了两个用户研究。我们探讨了(1)不同群体对于xAI的偏好(2)为机器人提供解释的个性化策略。我们发现在偏好(p < 0.01)和表现(p < 0.05)方面,xAI模式(语言解释、特征重要性映射和决策树)之间存在显著差异。我们还观察到,参与者的偏好并不总是与其表现一致,激发了我们开发一种适应性的个性化策略,以平衡两者的需求。我们展示了这种策略带来了显著的表现提升(p < 0.05),并在此基础上讨论了我们的发现及其对人机互动中xAI的影响。
发布时间: 4/22/2025
查看原文
作者: Pingfei Zhu, Chenyang Zhao, Haishi Zhao, Bo Yang
arXiv:2504.13853v1 通告类型: 交叉 摘要:基于AI的药物发现通常依赖于成功预测化合物-蛋白质相互作用,这对于结构基于的药物设计中设计的化合物分子的评估至关重要,并且是该领域的核心挑战。然而,通过回归模型准确预测化合物-蛋白质亲和力通常需要适当的结合构象,这些构象是从昂贵且复杂的实验方法或使用对接软件进行耗时的模拟中获得的。为应对这一挑战,我们提出了GenShin模型,该模型构建了一个几何增强的结构图模块,能够分别从蛋白质和化合物中提取额外特征。因此,它在预测化合物-蛋白质亲和力方面达到了与主流模型相当的准确性,同时无需将适当的结合构象作为输入。我们的实验结果表明,GenShin模型在依赖非输入对接构象的其他模型中表现远超其他模型,在某些情况下甚至超过了需要适当结合构象的模型。进一步的实验表明,我们的GenShin模型对不适当的结合构象具有更强的鲁棒性,证实了其在实际药物发现场景中的更高适应性。我们希望我们的研究能够激发更多努力,弥合AI模型与实际药物发现挑战之间的差距。
发布时间: 4/22/2025
查看原文
作者: Janet Rafner, Ryan Q. Guloy, Eden W. Wen, Catherine M. Chiodo, Jacob Sherson
arXiv:2504.13848v1 宣告类型: cross 摘要:生成式AI(GenAI)聊天机器人正在越来越多地融入虚拟助理技术中,然而它们的成功取决于能够收集有意义的用户反馈,以提高交互质量、系统性能以及总体用户接受度。成功的聊天机器人互动可以帮助组织与客户和用户建立长期关系,支持客户忠诚度并进一步实现组织目标。本研究探讨了两种不同叙事和反馈收集机制对用户参与度和反馈行为的影响:标准AI导向的互动与基于混合智能(HI)框架的互动。初步发现表明,虽然小规模的调查措施未能显示出用户在提供反馈、使用系统或信任系统方面有任何显著差异,但接触到HI叙事的参与者在统计上提供了更详细的反馈。这些初步发现为设计有效的GenAI虚拟助理反馈系统提供了见解,平衡了用户努力与系统改进的潜力。
发布时间: 4/22/2025
查看原文
作者: Jie Cheng, Ruixi Qiao, Lijun Li, Chao Guo, Junle Wang, Gang Xiong, Yisheng Lv, Fei-Yue Wang
arXiv:2504.15275v1 宣告类型: 新 摘要: 过程奖励模型(PRM)已被证明可在大型语言模型(LLM)在复杂推理任务上的测试时扩展中发挥有效作用。然而,PRM 引起的奖励作弊问题限制了其在强化学习微调中的成功应用。在本文中,我们确定了PRM引起的奖励作弊的主要原因:强化学习(RL)中的标准求和形式的信用分配,它定义价值为折现未来的奖励累加和,容易使LLM作弊以获得高奖励。为了解决这一问题,我们提出了PURE:过程监督强化学习。PURE的关键创新是采用最小值形式的信用分配,将价值函数定义为未来的最小奖励。该方法通过限制价值函数的范围并更合理地分配优势,显著缓解了奖励作弊。通过在3个基础模型上进行广泛的实验,我们展示了基于PRM的方法启用最小值形式的信用分配可以在仅30%的步骤内达到与可验证奖励方法相当的推理性能。相比之下,标准求和形式的信用分配甚至在训练开始时都会导致训练崩溃!另外,当我们以10%的可验证奖励补充基于PRM的微调时,我们进一步缓解了奖励作弊,并在我们的实验中基于Qwen2.5-Math-7B生成了最佳微调模型,在AMC23上达到了82.5%的准确率,并且在5个基准上的平均准确率为53.3%。此外,我们总结了观察到的奖励作弊案例,并分析了训练崩溃的原因。代码和模型可在https://github.com/CJReinforce/PURE找到。
发布时间: 4/22/2025
查看原文
作者: Mohammad Beheshti, Lovedeep Gondara, Iris Zachary
arXiv:2504.15261v1 宣布类型: 新 摘要: 目标: 健康care数据碎片化是连接患者数据面临的一大挑战,需要强大的记录链接技术将来自多个来源的患者记录整合。本研究探讨了利用语言模型自动进行患者记录链接的可行性,重点研究了两个关键任务:分区和匹配。材料与方法: 我们利用密苏里癌症登记和研究中心的真实世界健康care数据,使用概率链接作为基线,将来自两个独立来源的患者记录进行连接。基于变体器模型RoBERTa,我们对分区任务进行了微调,使用句子嵌入。在匹配任务中,在微调和零样本设置下实验了多种语言模型,并评估了它们在与真实标签对比下的性能。结果: 微调后的分区模型在保持几乎完美的召回率的前提下,减少了92%的候选项对。在匹配任务中,微调后的Mistral-7B表现最佳,只有6个错误预测。在零样本设置下,Mistral-Small-24B表现最好,总共错误预测了55次。讨论: 微调后的语言模型在患者记录分区和匹配任务中取得了强劲的性能,但仍然不如基于规则和概率的混合方法在分区任务中准确和高效。此外,由于计算成本高,深度探寻-R1等推理模型在大规模记录链接中不太实用。结论: 本研究强调了语言模型在自动进行患者记录链接方面的潜力,通过消除手动进行患者记录链接所需的努力,提供了更高的效率。总体而言,语言模型提供了一种可扩展的解决方案,可以增强数据整合、减少手动努力,并支持疾病监控和研究。
发布时间: 4/22/2025
查看原文
作者: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
arXiv:2504.15257v1 宣告类型: 新增 摘要: 本论文提出了一种名为 FlowReasoner 的查询级元代理,用于自动化查询级多代理系统的设计,即每个用户查询一个系统。我们的核心思路是通过外部执行反馈来激励基于推理的元代理。具体来说,通过精炼 DeepSeek R1,我们首先赋予 FlowReasoner 关于多代理系统生成的基本推理能力。然后,我们通过带有外部执行反馈的强化学习 (RL) 进一步增强其能力。设计了一种多功能奖励,从性能、复杂性和效率方面指导 RL 训练。通过这种方式,FlowReasoner 能够通过深思熟虑的推理为每个用户查询生成个性化多代理系统。在工程和竞赛代码基准上的实验表明,FlowReasoner 的优越性。值得注意的是,在三个基准测试中,它在准确率上超越了 o1-mini 10.52%。代码可在 https://github.com/sail-sg/FlowReasoner 获取。
发布时间: 4/22/2025
查看原文
作者: Tue Vo, Lakshay Sharma, Tuan Dinh, Khuong Dinh, Trang Nguyen, Trung Phan, Minh Do, Duong Vu
arXiv:2504.15252v1 宣布类型: 新闻 摘要:理解和监控水生生物多样性对于生态健康和保护工作至关重要。本文提出了一种名为SuoiAI的端到端管道,用于构建越南水生无脊椎动物的数据集,并利用机器学习(ML)技术进行物种分类。我们概述了数据收集、标注和模型训练的方法,重点关注通过半监督学习减少标注努力,并利用最先进的对象检测和分类模型。我们的方法旨在克服数据稀缺、细粒度分类以及在多种环境条件下部署的挑战。
发布时间: 4/22/2025
查看原文
作者: Maxime Robeyns, Martin Szummer, Laurence Aitchison
arXiv:2504.15228v1 更新类型: 新 摘要: 我们展示了配备基本编码工具的LLM编码代理能够自主编辑自己,并进而提高其在基准任务上的性能。我们在SWE Bench Verified的随机子集中获得了17%到53%的性能提升,并且在LiveCodeBench和合成生成的代理基准测试中还获得了额外的性能提升。我们的工作代表了自主系统自动化和开放设计的一个进步,并为寻求在工具使用和其他自主任务上后训练LLM的人提供了一个参考代理框架。
发布时间: 4/22/2025
查看原文