LLM2D

arXiv 论文列表

作者: Benjamin A. Spiegel, Lucas Gelfond, George Konidaris
arXiv:2502.01568v3 宣告类型: replace-cross 摘要:符号书写系统是现代社会中无处不在的图形符号代码,但在动物王国中却不存在。人类学证据表明,某些书写系统最早的形态由象形表意文字组成,这些文字通过视觉相似性来表示其指代物。尽管之前的研究通过计算视角探讨了象形系统的出现,以及这些系统随时间的发展,但大多数研究采用了非自然的方法,这使得难以将这些研究与人类和动物的认知过程直接类比。我们开发了一种用于新兴沟通的多智能体强化学习测试平台,称为符号游戏,并提出了一种推理沟通模型,该模型使智能体能够利用视觉心智理论通过象形文字来传达动作信息。我们的模型置于更广泛的动物沟通形式主义框架内,揭示了原型文字出现的认知和文化过程。
发布时间: 4/17/2025
查看原文
作者: Mika Set\"al\"a, Ville Heilala, Pieta Sikstr\"om, Tommi K\"arkk\"ainen
arXiv:2501.14779v2 通告类型: replace-cross 摘要:本研究调查了学生对在普通高中数学教育中使用生成人工智能(GenAI)的看法。从芬兰高中学生收集了数据,以代表技术接受模型(感知有用性、感知易用性、感知乐趣和使用意向)中的关键构建如何影响AI工具的采用情况。首先,构建了一个用于与其他先前研究进行比较的结构方程模型,并进行了分析。然后,提出并分析了一个扩展模型,该模型新增了兼容性构建,该构建代表AI工具与学生的教育经历和需求的一致性。结果表明,感知有用性对使用GenAI的意愿有着强烈的影响,强调了感知乐趣在确定感知有用性和易用性方面统计上显著的作用。兼容性的引入提高了模型的解释能力,特别是在预测感知有用性方面。本研究为如何将AI工具整合到数学教育中提供了更深入的理解,并强调了芬兰教育背景与基于结构方程建模的先前研究之间的关键差异。
发布时间: 4/17/2025
查看原文
作者: Ilya Orson Sandoval, Isaac Symes Thompson, Vasilios Mavroudis, Chris Hicks
arXiv:2501.14700v4 通告类型: 替换交叉 摘要:随着网络威胁越来越复杂,强化学习(RL)正逐渐成为创建智能且适应性强的网络防御系统的一种有前途的技术。然而,大多数现有的自主防御代理忽略了受网络攻击影响的计算机网络固有的图形结构,这可能导致遗漏关键信息并限制其适应性。为克服这些限制,我们开发了一个自定义的Cyber Operations Research Gym(CybORG)环境版本,将网络状态编码为具有现实低级特征的有向图。我们采用了一种图注意力网络(GAT)架构来处理节点、边和全局特征,并将其输出适应与RL中的策略梯度方法兼容。基于GAT的方法相比平铺的替代方法提供了关键优势:对某些类型的意外动态网络拓扑变化具有鲁棒性的策略;在相同拓扑分布下的不同规模网络中合理的泛化性能;以及基于具体网络属性的可解释防御行动。我们展示了即使在模拟过程中出现意外连接,也可以使用低级有向图形观察结果训练GAT防御策略。在不同规模但子网络结构一致的网络上进行的评估表明,我们的策略在性能上可与专门针对每个网络配置训练的策略达到相似的效果。我们的研究为开发能够更好地适应现实世界网络安全性挑战的坚固的网络安全系统做出了贡献。
发布时间: 4/17/2025
查看原文
作者: Jiaqi Guo, Yunan Wu, Evangelos Kaimakamis, Georgios Petmezas, Vasileios E. Papageorgiou, Nicos Maglaveras, Aggelos K. Katsaggelos
arXiv:2501.12524v2 通知类型: 替换-交叉 摘要:随着COVID-19大流行的到来,超声成像因其实用性、经济性和便携性而成为COVID-19检测的一种有希望的技术。为应对这一情况,研究人员重点开发基于AI的评分系统以提供实时诊断支持。然而,公开可用的超声数据集有限且缺乏适当的标注,这给训练 robust AI 模型带来了重大挑战。本文提出了一种新颖的 MeDiVLAD 管道,以解决多级肺部超声(LUS)严重程度评分中的上述问题。特别是,我们利用自我知识蒸馏来预先训练一个视觉变换器(ViT),并利用双层 VLAD 聚合来聚合帧级特征。我们展示了通过最少的微调,MeDiVLAD 在帧级和视频级评分方面优于传统的完全监督方法,同时提供高质量的分类推理。这一优越的性能使关键应用程序如自动识别关键肺部病理区域成为可能,并为更广泛的医疗视频分类任务提供了稳健的解决方案。
发布时间: 4/17/2025
查看原文
作者: Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri
arXiv:2501.11107v2 Announce Type: replace-cross 摘要:混沌工程(Chaos Engineering,CE)是一种旨在提高分布式系统弹性的工程技术。它通过人工向分布式系统注入特定的故障并观察其响应行为来进行。基于这些观察,系统可以提前进行改进,以更好地处理这些故障。最近的CE工具实现了预定义的CE实验的自动化执行。然而,定义这些实验以及基于实验结果改进系统仍然需要手动操作。为了减少手动操作的成本,我们提出了ChaosEater,这是一个使用大型语言模型(LLMs)来自动化整个CE操作的系统。它根据系统化的CE周期预定义了自主的工作流程,并将工作流程中的操作分配给LLMs。ChaosEater主要针对通过代码管理的Kubernetes系统(即代码即基础设施)进行CE。因此,ChaosEater中的LLMs执行软件工程任务来完成CE周期,包括需求定义、代码生成、调试和测试。我们通过对小规模和大规模Kubernetes系统的案例研究评估了ChaosEater。结果表明,它能够以显著降低的时间和财务成本稳定完成合理的单次CE周期。这些CE周期还经过了人类工程师和LLMs的定性验证。
发布时间: 4/17/2025
查看原文
作者: Runqing Wu, Fei Ye, Qihe Liu, Guoxi Huang, Jinyu Guo, Rongyao Hu
arXiv:2501.08878v2 宣告类型: replace-cross 摘要:连续学习旨在开发一种能够逐步吸收新信息并保持先前知识的模型。然而,现有的研究主要集中在简单的学习环境中,其中所有数据样本均来自单一数据域。本文将注意力转向一个更加复杂和现实的学习环境,在这种环境中,数据样本来源于多个不同的域。我们通过引入一种新颖的方法——多源动态扩展模型(MSDEM),利用各种预训练模型作为基础,并逐步在此基础上建立新的专家模型以适应新兴任务来应对这一复杂的挑战。此外,我们提出了一种创新的动态扩展注意力机制,该机制能够选择性地利用多个基础模型中的知识,从而加速新任务的学习。同时,我们引入了一种动态图权重路由器,能够有策略地重用所有先前获取的参数和表征,以优化对新任务学习的知识转移效果,进一步提高泛化性能。我们进行了全面的实验,实证结果表明,我们提出的方法达到了最佳性能。
发布时间: 4/17/2025
查看原文
作者: Tian-Hao Zhang, Jiawei Zhang, Jun Wang, Xinyuan Qian, Xu-Cheng Yin
arXiv:2501.03181v2 Announce Type: replace-cross 摘要:人类可以通过声音来感知说话者的特性(例如身份、性别、个性和情绪),这些特性通常与声音风格一致。最近,以视觉驱动的文本转语音(TTS)学者将研究集中在真实人物的面部上,这限制了有效语音合成的应用范围,使其无法应用于具有多样角色和图像风格的大量潜在使用场景。为了解决这一问题,我们介绍了一种新颖的FaceSpeak方法。它从各种图像风格中提取出突出的身份特征和情绪表示,同时减弱了多余的信息(例如背景、服装、发色等),从而生成的语音与角色的人格特征紧密对齐。此外,为了克服多模态TTS数据的稀缺性,我们设计了一个创新的数据集,名为Expressive Multi-Modal TTS,该数据集经过仔细的策划和注释,以促进该领域的研究。实验结果表明,我们提出的FaceSpeak能够生成具有良好自然度和质量的肖像对齐的声音。
发布时间: 4/17/2025
查看原文
作者: Yudong Zhang, Ruobing Xie, Jiansheng Chen, Xingwu Sun, Zhanhui Kang, Yu Wang
arXiv:2412.16522v2 Announce Type: replace-cross 摘要:对比学习是自我监督视觉表示学习中广泛使用的技术,通常通过在同一图像上应用两种数据增强方法来生成正样本对。设计有效的数据增强策略对于对比学习的成功至关重要。受盲人摸象故事的启发,我们引入了JointCrop和JointBlur方法。这些方法通过利用两种增强参数的联合分布来生成更具挑战性的正样本对,从而使得对比学习能够获取更有效的特征表示。据我们所知,这是第一次在对比学习中显式地将两种数据增强参数的联合分布纳入其中的努力。作为一种无需额外计算开销的即插即用框架,JointCrop和JointBlur显著提高了SimCLR、BYOL、MoCo v1、MoCo v2、MoCo v3、SimSiam和Dino基线模型的性能。
发布时间: 4/17/2025
查看原文
作者: Chang-Jin Li, Jiyuan Zhang, Yun Tang, Jian Li
arXiv:2412.12144v3 宣告类型: replace-cross 摘要:个性评估,特别是通过情境判断测试(SJT),是心理研究、人才选拔和教育评价中的一项关键工具。本研究探讨了最新的大规模语言模型(LLM)GPT-4在生成中文个性情境判断测试(PSJT)方面的潜力。传统的SJT开发过程耗时且容易产生偏见,而GPT-4则提供了可扩展且高效的替代方案。进行了两项研究:第一项研究评估了提示设计和温度设置对内容效度的影响,发现使用温度设置为1.0的优化提示生成了富有创意且准确的题目。第二项研究评估了GPT-4生成的PSJT的心理测量特性,结果显示这些测试表现出令人满意的可靠性和效度,其在衡量五大人格特质方面超过了手工开发的测试。这项研究突显了GPT-4在开发高质量PSJT方面的有效性,提供了一种可扩展且创新的心理测量测试开发方法。这些发现扩大了自动项目生成的可能性,并推动了在心理学中应用LLM的边界,同时还为在资源有限的环境中简化测试开发过程提供了实践意义。
发布时间: 4/17/2025
查看原文
作者: K. J. Kevin Feng, Kevin Pu, Matt Latzke, Tal August, Pao Siangliulue, Jonathan Bragg, Daniel S. Weld, Amy X. Zhang, Joseph Chee Chang
arXiv:2412.10999v3 宣告类型: replace-cross 摘要:人类协作得益于持续的协调——规划、分配任务、分享进展并调整目标——以实现共同目标的对齐。然而,代理型AI系统通常限制用户仅预览或查看代理的计划,供其完全自主执行。虽然这可能有助于确认和修正,但它并不支持人类与AI代理之间的更深层次协作。我们介绍了Cocoa,一个系统,引入了一种新型的设计模式——互动计划——用于与代理型AI在复杂多步骤任务上的协作。Cocoa基于一项形成性研究(n=9)的设计,借鉴计算笔记本和文档编辑器的交互设计,通过共同规划和共同执行支持灵活的委托代理。使用科学研究作为样本领域,我们的实验室研究(n=16)和现场部署(n=7)发现,与强大的聊天基准相比,Cocoa在提高代理可控性的同时,不牺牲易用性。此外,研究人员认为Cocoa适用于实际项目,并将共同规划和共同执行的交错视为高效的新范式,用于人类与AI的合作。
发布时间: 4/17/2025
查看原文