arXiv:2409.03277v2 文档类型: 替换
摘要:自动图表理解对于内容理解和文档解析至关重要。多模态大规模语言模型(MLLMs)通过领域特定对齐和微调,在图表理解方面已经展示了令人瞩目的能力。然而,图表领域内的对齐训练应用仍然有待探索。为了解决这一问题,我们提出了ChartMoE,该模型使用专家混合架构(MoE)来替代传统的线性投影器,以弥合模态差异。具体来说,我们通过不同的对齐任务训练了多个线性连接器,这些连接器用作不同专家的基础初始化参数。此外,我们引入了包含超过900K图表-表格-JSON-代码四元组的ChartMoE-Align数据集,用于执行三项对齐任务(图表-表格/JSON/代码)。结合原始连接器,我们以四种不同的方式初始化不同的专家,并采用高质量的知识学习进一步优化MoE连接器和LLM参数。广泛的实验证明了MoE连接器和我们初始化策略的有效性,例如,ChartMoE在ChartQA基准测试中的准确性从80.48%提高到84.64%。
arXiv:2409.02697v2 公告类型: 替换
摘要: 工厂车间调度问题(JSSP)及其解决方案算法在学术界和工业界已经引起了持续几十年的兴趣。近年来,机器学习(ML)在推进现有和构建新的JSSP启发式解法方面发挥了越来越重要的作用,旨在在更短的计算时间内找到更好的解决方案。本文在最先进的神经局部搜索(NLS)深度强化学习(DRL)代理的基础上进行构建,该代理能够有效地控制JSSP中庞大的局部邻里搜索。特别是,我们开发了一种方法,利用训练过的NLS代理所采取的搜索轨迹训练决策变换器(DT)算法,以进一步改进所学的决策序列。我们的实验表明,DT成功地学习了不同于NLS代理本身的局部搜索策略,在很多情况下,这些策略更为有效。在解决方案质量与可接受的搜索所需计算时间的权衡方面,DT在可以接受较长计算时间的应用场景中表现尤其出色。在这种情况下,它通过每步决策质量的提高,弥补了由于更大型神经网络架构导致的推理时间的增加。因此,DT通过带有ML增强搜索解决了JSSP,达到了最先进的成果。
arXiv:2406.10292v2 宣告类型: 替换
摘要: 背景:药物发现和开发的全球成本超过每年200亿美元,临床试验结果在新药的监管审批中发挥着关键作用,并影响患者结果。尽管如此,高质量的临床试验结果数据并未广泛公开,限制了临床试验结果预测建模的进展。
方法:我们介绍了临床试验结果(CTO)知识库,这是一个完全可重复的、大规模(约125,000项药物和生物制品试验)的临床试验信息开源库,其中包括大型语言模型(LLM)对出版物的解释、匹配各阶段的试验、新闻的情感分析、试验赞助商的股票价格以及其他相关的试验指标。在此知识库的基础上,我们还手动标注了从2020年至2024年的某些临床试验。
结果:我们通过生成高质量的试验结果标签来评估知识库的质量,这些标签与之前发布的专家标注有着很强的一致性,3期临床试验的F1分数为94,所有阶段的F1分数为91。此外,我们在手动标注的数据集上对一系列标准机器学习模型进行了基准测试,突显了近期试验数据分布的变化及其需要持续更新的标注方法。
结论:通过分析CTO在近期试验中的性能,我们表明了需要高质量和最新的试验结果标签。我们将我们的知识库和标签发布在https://chufangao.github.io/CTOD,并将定期更新以支持临床试验结果的持续研究,为优化药物开发过程提供见解。
arXiv:2403.06568v2 宣告类型:替换
摘要:尽管已经提出了许多用于 MaxSAT 问题的求解器,并且基准环境如 MaxSAT Evaluations 提供了一个比较最先进的求解器的平台,但现有的评估通常基于在给定的运行时间预算内找到的最佳解的质量(例如,适应度)。然而,仅仅关注具体时间预算下获得的最终解可能会限制我们理解求解器在收敛过程中的行为。本文表明,经验累积分布函数可以用于比较多个问题实例和不同时间预算下 MaxSAT 随机本地搜索求解器的任何时间性能。评估揭示了求解器性能的差异,并显示了求解器的优势和劣势会随着运行时间的不同而变化。本文还展示了任何时间性能的定量评估和高方差评估可以指导机器(即自动配置器)搜索更好的参数设置。我们的实验结果表明,当使用任何时间性能作为成本函数时,超参数优化工具(即 SMAC)可以为求解器找到更好的参数设置,比使用基于找到的最佳解的质量指标时更有效。
arXiv:2502.02584v1 类型: cross
摘要: 语言代理已成为解决复杂交互任务的一种有前途的解决方案。语言代理成功的关键因素之一是在代理工作流程轨迹上的奖励模型,它在训练或推理过程中提供了宝贵的指导。然而,由于缺乏中间交互的注释,大多数现有工作使用结果奖励模型在整个轨迹上优化策略,这可能导致次优策略,从而阻碍整体性能。为了解决这个问题,我们提出了QLASS(Q引导的语言代理逐步搜索),通过逐步估计开放语言代理中的Q值来自动生成注释。通过引入推理树并进行过程奖励建模,QLASS为每个步骤提供了有效的中间指导。借助逐步指导,我们提出了一种Q引导的生成策略,使语言代理更好地适应长期价值,在复杂交互代理任务的模型推理过程中实现了显著的性能改进。值得注意的是,即使使用几乎一半的标注数据,QLASS仍能保持强大的性能,证明了其在处理有限监督时的效率。我们还通过定性分析实证证明,QLASS能够通过更有效的决策。我们将会发布我们的代码和数据。
arXiv:2502.02573v1 交叉公告类型
摘要:大型语言模型(LLMs)在众多领域展现了令人印象深刻的能力,为革新优化问题解决提供了机会,这是关键的、通用的和复杂的领域之一。本文探讨了LLMs处理顺序优化问题(SOPs)的能力。我们引入了WorldGen,这是一种动态框架,用于生成可控复杂性的未见过的SOPs,以评估LLMs的性能。初步观察结果显示,虽然LLMs在简单的SOPs上表现良好,但其性能随着复杂性的增加显著下降。受此启发,我们重新审视了关于推理的哲学假设,以提高LLMs的性能。受到黑格尔辩证法框架的影响,我们提出了ACE,展示了在无需任何重新训练或进一步微调的情况下,如何显著提高LLMs在SOP上下文中的性能。
arXiv:2502.02567v1 交叉类型
摘要:生存分析是一种用于预测事件时间的重要工具,在医疗保健、刑事司法和金融等领域得到了广泛应用。就像分类任务一样,生存分析也可能对弱势群体表现出偏见,通常这是因为数据或算法中存在的偏见。IS和CS社区的多项研究都试图解决生存分析中的公平性问题。然而,现有的方法通常忽视了在预定义的时间点上预测公平性的重要性,这对于现实中决策往往依赖于特定的时间框架的应用至关重要。为了解决这一关键研究缺口,我们引入了一个新的公平概念:生存分析中的相等机会(EO)公平性,它强调在预定义的时间点上预测公平性。为了在生存分析中实现EO公平性,我们提出了一种条件互信息增强(CMIA)方法,该方法以基于条件互信息的新型公平正则化项和创新的截尾数据增强技术为特色。我们的CMIA方法能够有效平衡预测准确性和公平性,并适用于各种生存模型。我们将在三个不同的应用领域中,将CMIA方法与其他多项前沿方法进行评估,结果显示,CMIA方法在多个数据集和生存模型(如线性COX、深度AFT)中始终能够减少预测差异,同时保持良好的准确率,并在多个方面显著优于其他竞争方法。
arXiv:2502.02562v1 交叉类型通知:
摘要:我们引入了STRING:可分离的平移不变位置编码。STRING通过一个统一的理论框架,扩展了最近提出并在大规模语言模型中广泛使用的旋转位置编码算法。重要的是,STRING仍然提供了精确的平移不变性,包括任意维度的 token 坐标,同时保持了低的计算开销。这些特性在机器人学中尤为重要,因为高效的3D token表示是关键。我们将STRING整合到使用RGB(-D)输入(颜色加上可选的深度)的视觉变压器中,展示了显著的性能提升,例如在开放词汇对象检测和机器人控制器上。我们通过严谨的数学分析补充了我们的实验,证明了我们方法的通用性。
arXiv:2502.02561v1 宣布类型: 交叉
摘要:数据驱动决策中的一个基本问题是,如何以有用的方式量化预测的不确定性,以指导下游行动。不确定性量化与决策之间的这种接口在医疗等风险敏感领域尤为重要。在本文中,我们发展了决策理论基础,将不确定性量化与预测集相结合,以实现风险规避的决策。具体而言,我们回答了三个基本问题:(1)对于风险规避的决策制定者来说,正确的不确定性量化概念是什么?我们证明,在希望优化其风险价值的决策制定者中,预测集是最优的。(2)风险规避的决策制定者应该使用哪种最优策略将预测集映射为行动?我们表明,简单的极大极小决策策略对于风险规避的决策制定者是最优的。最后,(3)我们如何为这样的决策制定者推导出最优的预测集?我们在总体条件下提供了精确表征,并在无分布自由的小样本构造中进行了说明。回答这些问题自然地引出了一个算法——风险规避校准(RAC),该算法可证明地为从预测推导出行动策略的设计提供最优策略。RAC旨在实用——能够以黑盒方式利用预测质量来增强下游性能,并安全——遵循用户定义的风险阈值,并优化用户下游性能的风险分位数。最后,我们在医学诊断和推荐系统等应用中实验证明了RAC的显著优势。具体而言,我们表明,RAC在保持安全保证的同时,提供了与现有方法相比更高的性能和更好的安全性能之间的权衡。
arXiv:2502.02544v1 宣告类型:交叉
摘要:我们解决了在多节点分布式学习中最小化真实风险的挑战。这些系统经常受到节点间和节点内标签偏移的影响,这构成了一个关键障碍,妨碍了有效优化模型性能的同时确保数据留在每个节点上。为了解决这一问题,我们提出了多功能鲁棒标签偏移(VRLS)方法,该方法增强了测试到训练标签密度比的最大似然估计。VRLS 包含了基于香农熵的正则化,并在训练过程中调整密度比,以便在测试时更好地处理标签偏移。在多节点学习环境中,VRLS 进一步通过在节点之间学习和适应密度比来扩展其能力,有效地缓解标签偏移并提高整体模型性能。在 MNIST、Fashion MNIST 和 CIFAR-10 上进行的实验显示 VRLS 的有效性,在不平衡设置中,VRLS 的表现比基线高出高达 20%。这些结果突显了 VRLS 在解决标签偏移方面提供的显著改进。我们的理论分析进一步支持了这一点,通过建立了估计误差的高概率界来支持这一观点。