LLM2D

arXiv 论文列表

作者: Hui Yang, Jiaoyan Chen, Uli Sattler
arXiv:2410.14571v2 宣告类型: 修改 摘要: OWL(Web本体语言)本体能够以标准知识图谱的形式表示关系事实和类型事实,并以描述逻辑(DL)公理的形式表示复杂的领域知识,这种本体在医疗保健和生物信息学等众多领域得到广泛应用。受知识图嵌入成功应用的启发,近年来嵌入OWL本体获得了广泛关注。目前的方法主要集中在学习原子概念和角色的嵌入,通过特别设计的评分函数来评估标准化公理。然而,它们往往忽略了复杂概念的嵌入,使得基于更复杂的公理进行推理变得困难。这种限制在诸如本体学习和本体介导查询回答等高级推理任务中降低了它们的有效性。在本文中,我们提出了一种EL++-封闭本体嵌入方法,能够通过组合方式表示DL中的任何逻辑表达式。此外,我们开发了TransBox,这是一种有效的EL++-封闭本体嵌入方法,能够处理一对多、多对一和多对多的关系。我们广泛实验的结果表明,TransBox在各种真实世界数据集上预测复杂公理方面通常能达到最先进的性能。
发布时间: 2/5/2025
查看原文
作者: Shunyu Yao, Fei Liu, Xi Lin, Zhichao Lu, Zhenkun Wang, Qingfu Zhang
arXiv:2409.16867v2 宣告类型: 替换 摘要: 归纳法在处理各种搜索和优化问题时经常被使用。设计归纳法通常需要通过领域知识进行繁琐的手工制作。近年来,已有工作将大语言模型(LLM)整合到自动归纳搜索中,利用其强大的语言和编码能力。然而,现有的研究主要以在目标问题上的最佳性能作为唯一目标,忽略了效率和可扩展性等其他重要标准。为应对这一挑战,我们提出了将归纳搜索建模为一个多目标优化问题,并考虑引入除最佳性能之外的额外实践标准。由于搜索空间的复杂性,传统的多目标优化方法难以有效地处理基于LLM的多目标归纳搜索。我们提出了第一个基于LLM的多目标归纳搜索框架——多目标进化归纳(MEoH)——以零样本的方式整合LLM生成满足多种设计标准的非支配归纳法集合。我们设计了一种新的支配-差异机制,以实现有效的种群管理和选择,该机制结合了搜索空间中的代码差异和目标空间中的支配特性。MEoH在两个著名的组合优化问题——在线背包问题(BPP)和旅行商问题(TSP)——中进行了演示。结果显示,在单次运行中自动生成了多种精英归纳法,提供了比现有方法更多的权衡选项。在提高效率最多10倍的同时,它成功实现了竞争或优越的性能。此外,我们还发现多目标搜索为归纳法设计提供了新的见解,并导致了多种不同归纳法的发现。
发布时间: 2/5/2025
查看原文
作者: Talor Abramovich, Meet Udeshi, Minghao Shao, Kilian Lieret, Haoran Xi, Kimberly Milner, Sofija Jancheska, John Yang, Carlos E. Jimenez, Farshad Khorrami, Prashanth Krishnamurthy, Brendan Dolan-Gavitt, Muhammad Shafique, Karthik Narasimhan, Ramesh Karri, Ofir Press
arXiv:2409.16165v2 宣布类型: 替换 摘要:虽然语言模型(LM)代理在多个领域,包括编程和网络浏览方面已经显示出增强的性能,但在网络安全领域的成功却受到限制。我们引入了EnIGMA,这是一种代理模型,可以自主解决网络安全竞赛(CTF)挑战。我们介绍了新的工具和界面,以提高代理模型发现和利用安全漏洞的能力,重点关注交互式终端程序。这些新颖的交互式代理工具使语言模型代理首次能够运行诸如调试器和服务器连接工具之类的交互式实用程序,这些工具对于解决这些挑战是必不可少的。对跨越四个基准的390个CTF挑战进行的实证分析表明,这些新工具和界面显着提高了代理模型的性能,实现了在NYU CTF、Intercode-CTF和CyBench上的最先进结果。最后,我们分析了数据泄漏现象,开发了新的方法来量化数据泄漏,并识别了一种我们称之为自言自语(soliloquizing)的现象——模型在不与环境交互的情况下生成虚构的观察。我们的代码和开发数据集可在以下链接获取:https://github.com/SWE-agent/SWE-agent/tree/v0.7 和 https://github.com/NYU-LLM-CTF/NYU_CTF_Bench/tree/main/development。
发布时间: 2/5/2025
查看原文
作者: Zhengzhuo Xu, Bowen Qu, Yiyan Qi, Sinan Du, Chengjin Xu, Chun Yuan, Jian Guo
arXiv:2409.03277v2 宣告类型: 替换 摘要:自动图表理解对于内容理解和文档解析至关重要。多模态大型语言模型(MLLMs)已经在特定领域对齐和微调的基础上展示了图表理解的非凡能力。然而,图表领域内的对齐训练应用仍处于探索阶段。为了解决这一问题,我们提出了ChartMoE,它使用专家混合(MoE)架构来替换传统的线性投影器以解决模态差异问题。具体地,我们通过不同的对齐任务训练多个线性连接器,这些连接器用作不同专家的基础初始化参数。此外,我们引入了包含超过90万个图表-表格-JSON-代码四元组的ChartMoE-Align数据集以执行三种对齐任务(图表-表格/JSON/代码)。结合原始连接器,我们以四种不同的方式初始化不同的专家,并采用高质量的知识学习进一步优化MoE连接器和LLM参数。广泛的实验展示了MoE连接器和我们初始化策略的有效性,例如,ChartMoE在ChartQA基准上的准确率从原来的80.48%提高到84.64%。
发布时间: 2/5/2025
查看原文
作者: Constantin Waubert de Puiseau, Fabian Wolz, Merlin Montag, Jannik Peters, Hasan Tercan, Tobias Meisen
arXiv:2409.02697v2 通告类型: 更新 摘要: 工厂作业调度问题(JSSP)及其解决方案算法在学术界和工业界已有几十年的持久关注。近年来,机器学习(ML)在推进现有的并构建新的JSSP启发式解决方案中发挥着越来越重要的作用,旨在在更短的计算时间内找到更好的解决方案。在本文中,我们基于一个最先进的深度强化学习(DRL)代理NLS构建,其可以高效且有效地控制JSSP中的大规模局部邻域搜索。特别地,我们开发了一种方法,通过在训练好的NLS代理所采取的搜索轨迹上训练决策转换器(DT)算法,进一步改进所学习的决策序列。我们的实验表明,DT成功学习了与NLS代理本身不同的局部搜索策略,在许多情况下,这些策略更为有效。在解决方案质量与可接受的搜索所需计算时间之间的权衡中,DT在可以接受更长计算时间的应用场景中尤为出色。在这种情况下,DT通过每个搜索步骤中的高质量决策弥补了由于较大的神经网络架构而导致的更长推理时间,从而实现了使用ML增强搜索解决JSSP的最新成果。
发布时间: 2/5/2025
查看原文
作者: Chufan Gao, Jathurshan Pradeepkumar, Trisha Das, Shivashankar Thati, Jimeng Sun
arXiv:2406.10292v2 宣告类型:替换 摘要:背景:全球药物发现和开发的成本超过每年2000亿美元,临床试验结果在新药的监管审批中起着关键作用,并影响患者的治疗结果。尽管临床试验结果的重要性不言而喻,但高质量的大规模临床试验结果数据并未公开,限制了临床试验结果预测模型的发展。 方法:我们介绍了临床试验结果(CTO)知识库,这是一个完全可重现、大规模(大约包含125,000项药品和生物制品临床试验)的开放源代码临床试验信息库,包括大型语言模型(LLM)对出版物的解释、不同阶段匹配的临床试验、新闻的情感分析、临床试验赞助商的股票价格以及其他与临床试验相关的指标。在此知识库的基础上,我们还对2020-2024年的部分临床试验进行了手动注释。 结果:我们通过生成高质量的临床试验结果标签对知识库的品质进行了评估,这些标签与之前发布的专家注释有很强的一致性,达到了第3期临床试验94的F1分数,所有期别的临床试验为91。此外,我们在我们手动注释的数据集上基准测试了一系列标准机器学习模型,指出了近期临床试验分布的变化和持续更新标注方法的必要性。 结论:通过分析CTO在近期临床试验中的表现,我们展示了对最近高质量临床试验结果标签的需求。我们将在https://chufangao.github.io/CTOD上向公众发布我们的知识库和标签,该知识库还将定期更新,以支持在临床试验结果研究中的持续研究,从而提供可能优化药物开发过程的见解。
发布时间: 2/5/2025
查看原文
arXiv:2403.06568v2 宣告类型: 替换 摘要: 尽管已经提出了众多MaxSAT问题的求解器,且MaxSAT Evaluations等基准环境为最先进的求解器提供了比较平台,但现有的评估通常基于给定运行时间预算内找到的最优解的质量,例如适应度。然而,仅关注特定时间预算下最终获得的解可能限制我们理解求解器在收敛过程中的行为。本文展示了经验累积分布函数可以用于跨多个问题实例和不同时间预算比较MaxSAT随机局部搜索求解器的任何时间性能。评估揭示了求解器性能的差异,并显示求解器的优势和劣势随着运行时间的不同而变化。此外,本文还展示了定量和高方差的任何时间性能评估可以指导机器(即自动配置器)搜索更好的参数设置。实验结果表明,当使用任何时间性能作为成本函数时,超参数优化工具(如SMAC)可以比基于找到的最优解适应度的指标找到更好的求解器参数设置。
发布时间: 2/5/2025
查看原文
作者: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang
arXiv:2502.02584v1 类型: cross 摘要:语言代理已成为解决复杂交互任务的有前途的解决方案之一。语言代理成功的关键因素之一是在其流程轨迹上的奖励模型,该模型在训练或推理过程中提供了宝贵的指导。然而,由于缺乏对中间交互的标注,现有的大多数工作都使用结果导向的奖励模型来优化整个轨迹上的策略,这可能导致次优策略并妨碍整体性能。为了解决这一问题,我们提出了QLASS(Q引导的语言代理逐步搜索),通过逐步估算开放语言代理中的Q值来自动生成注释。通过引入推理树和过程奖励建模,QLASS为每一步提供了有效的中间指导。借助逐步指导,我们提出了一种Q引导生成策略,使语言代理能够更好地适应长期价值,在复杂的交互代理任务模型推理中显著提高了性能。值得注意的是,即使只有几乎一半的标注数据,QLASS仍保持了强大的性能,证明了它在处理有限监督方面的效率。我们还通过定性分析演示了QLASS可以导致更有效的决策制定。我们将发布我们的代码和数据。
发布时间: 2/5/2025
查看原文
arXiv:2502.02573v1 公告类型:交叉 摘要:大型语言模型(LLMs)在多个领域展现了令人印象深刻的能力,为革新优化问题求解这一关键、普遍且复杂的领域提供了机会。本文探索了LLMs在处理顺序优化问题(SOPs)方面的能力。我们引入了WorldGen,这是一种生成不可见SOPs的动态框架,并具有可控制的复杂性,以评估LLMs的性能。我们的初步观察表明,虽然LLMs在简单的SOPs上表现良好,但随着复杂性的增加,它们的性能显着下降。受到这一发现的启发,我们回顾了关于推理的哲学假设以增强LLMs的性能。受到黑格尔辩证法框架的启发,我们提出了ACE,并展示了如何在无需重新训练或进一步微调的情况下,显著改善LLMs在SOP上下文中的性能。
发布时间: 2/5/2025
查看原文
arXiv:2502.02567v1 宣布类型: 交叉 摘要:生存分析是一种重要的工具,用于预测事件发生的时间,在医疗保健、刑事司法和金融等领域被广泛应用。和分类任务类似,生存分析也可能表现出对弱势群体的偏见,通常原因在于数据或算法本身固有的偏见。IS和CS社区的多项研究尝试解决生存分析中的公平性问题。然而,现有方法通常忽视了在预定义评估时间点上公平预测的重要性,这在很多实际应用中至关重要,因为在这些应用中,决策通常依赖于特定的时间框架。为解决这一关键的研究缺口,我们引入了一个新的公平性概念:生存分析中的相等机会(EO)公平性,该概念强调在预定义时间点上预测公平性。为了在生存分析中实现EO公平性,我们提出了一种基于条件互信息的条件互信息增强(CMIA)方法,该方法包括一个基于条件互信息的新颖公平性正则化项和一种创新的截尾数据增强技术。我们的CMIA方法能够有效平衡预测准确性和公平性,并适用于各种生存模型。我们在三个不同应用领域的多种最先进的方法中评估了CMIA方法,并且结果表明,CMIA方法在多个数据集和生存模型(例如线性Cox、深度AFT)上比其他竞争方法一致地减少了预测不平等,同时保持了良好的准确性。
发布时间: 2/5/2025
查看原文