提高乳腺癌检测和监测技术的追求是重大的医疗保健目标,推动了对创新成像技术和诊断方法的需求。本研究提出了一种针对微波辐射测量 (MWR) 乳腺癌检测应用的新型多层自对比模型。我们的方法包含三个不同的模型:局部 MWR (L-MWR)、区域 MWR (R-MWR) 和全局 MWR (G-MWR),每个模型都经过设计来分析乳房内不同亚区域的比较。这些模型通过联合 MWR (J-MWR) 网络紧密集成,该网络利用每个分析级别产生的自对比数据来增强检测能力。利用包含 4,932 例女性患者的数据集,我们的研究展示了我们提出的模型的有效性。值得注意的是,J-MWR 模型凭借 0.74 ± 0.018 的马修斯相关系数脱颖而出,超过了现有的 MWR 神经网络和对比方法。这些结果突出了自对比学习技术在提高基于 MWR 的乳腺癌检测过程的诊断准确性和泛化能力方面的巨大潜力。这些进展为进一步的调查和临床工作提供了相当大的希望。源代码可在以下网址获得:https://github.com/cgalaz01/self_contrastive_mwr
传统上,段落检索依赖于 TF-IDF 和 BM25 等词汇方法。最近,一些神经网络模型在性能上超越了这些方法。然而,这些模型面临着挑战,例如需要大型标注数据集以及适应新领域。本文介绍了 Poleval 2023 任务 3: 段落检索挑战的获奖解决方案,该挑战涉及检索三个领域的波兰语文本段落:琐事、法律和客户支持。然而,只有琐事领域被用于训练和开发数据。该方法使用 OKAPI BM25 算法检索文档,并使用一组公开可用的多语言交叉编码器进行重新排序。微调重新排序模型略微提高了性能,但仅在训练领域,而在其他领域则有所下降。
大型语言模型 (LLM) 在诸如摘要之类的单轮交互任务中取得了显著的成功。然而,它们在需要长期规划的多轮任务(如对话)中仍然面临挑战。先前关于多轮对话的研究将单轮从人类反馈中进行强化学习 (RLHF) 的方法扩展到多轮设置,将所有先前的对话轮次视为一个长上下文。这种方法存在协变量偏移问题:训练集中对话的先前轮次由某个参考策略生成,这意味着低训练误差不一定对应于学习者实际参与对话循环时的良好性能。为了解决这个问题,我们引入了回归相对未来 (REFUEL),这是一种高效的策略优化方法,旨在解决 LLM 中的多轮 RLHF 问题。REFUEL 使用单个模型来估计 Q 值并在自生成数据上进行训练,从而解决了协变量偏移问题。REFUEL 将多轮 RLHF 问题构建为一系列对迭代收集的数据集进行的回归任务,从而易于实现。从理论上讲,我们证明了 REFUEL 可以匹配训练集中涵盖的任何策略的性能。在经验上,我们通过使用 Llama-3.1-70B-it 模拟用户与我们的模型进行对话来评估我们的算法。REFUEL 在各种设置中始终优于 DPO 和 REBEL 等最先进的方法。此外,尽管只有 80 亿个参数,但使用 REFUEL 微调的 Llama-3-8B-it 在长多轮对话中优于 Llama-3.1-70B-it。REFUEL 的实现可以在 https://github.com/ZhaolinGao/REFUEL/ 中找到,使用 REFUEL 训练的模型可以在 https://huggingface.co/Cornell-AGI 中找到。
大型语言模型在配备外部工具和 API 调用时,作为自主代理表现出令人印象深刻的价值。然而,有效地利用它们的潜力来执行复杂任务,关键在于增强其函数调用能力。本文确定了现有函数调用模型中的一个关键差距,即在不同基准测试中性能差异很大,这通常是由于被特定的命名约定误导造成的。为了解决这个问题,我们引入了 Hammer,一个专门为设备上函数调用而设计的新型基础模型家族。Hammer 采用了一个增强的数据集,增强了模型对无关函数的敏感性,并结合了函数屏蔽技术来最大程度地减少误导。我们的实证评估表明,Hammer 不仅优于更大的模型,而且在各种基准测试中展示了强大的泛化能力,取得了最先进的结果。我们的开源贡献包括一个专门用于无关性检测的数据集、一个用于增强泛化的调整框架以及 Hammer 模型,为函数调用性能树立了新的标准。
我们开发了一个决策框架,将学习搜索或推荐引擎的排序策略问题(在双边电子商务市场中)转化为一个使用观测数据的预期奖励优化问题。作为一种价值分配机制,排序策略将检索到的项目分配到指定的槽位,以便在购物旅程的任何阶段最大化用户对槽位项目的效用。这种分配的目标反过来可以根据底层概率用户浏览模型来定义,即给定排序上下文,在呈现的项目上匹配用户意图的交互事件的预期数量。通过认识到排序作为一种干预行为的影响,以告知用户与槽位项目的交互,以及相应交互事件对市场的经济价值,我们将市场的预期奖励制定为所有呈现的排序行为的集体价值。这种公式的关键要素是上下文价值分布的概念,它不仅表示将价值归因于会话内的排序干预,而且还表示跨用户会话的市场奖励分布。我们从观测数据中建立了对市场预期奖励的经验估计,这些数据考虑了跨会话上下文的经济价值的异质性,以及从观测用户活动数据中学习的分布变化。然后可以通过使用标准贝叶斯推理技术优化经验预期奖励估计来训练排序策略。我们报告了在一个主要电子商务平台上的产品搜索排序任务的经验结果,展示了由在关于上下文价值分布的极端选择方面训练的经验奖励估计的排序策略所控制的基本权衡。
社交媒体的广泛使用突显了其对社会和个人的潜在负面影响,这些影响很大程度上是由塑造用户行为和社会动态的推荐算法驱动的。了解这些算法至关重要,但由于社交媒体网络的复杂分布式特性以及对现实世界数据的访问有限,因此具有挑战性。本研究建议使用学术社交网络作为代理来调查社交媒体中的推荐系统。通过使用图神经网络 (GNN),我们开发了一个模型,该模型将学术信息圈的预测与行为预测分离,使我们能够模拟推荐器生成的资讯圈并评估模型在预测未来合著者方面的性能。我们的方法旨在提高我们对推荐系统在社会网络建模中的作用的理解。为了支持我们工作的可重复性,我们公开发布了我们的实现:https://github.com/DimNeuroLab/academic_network_project。
我们提出了一种名为“拉回流匹配”(PFM)的新框架,用于数据流形上的生成式建模。与现有方法不同,现有方法假设或学习限制性的封闭形式流形映射来训练黎曼流匹配(RFM)模型,PFM 利用拉回几何和等距学习来保留底层流形的几何形状,同时允许在潜在空间中进行高效的生成和精确的插值。这种方法不仅促进了数据流形上的封闭形式映射,而且还允许使用数据和潜在流形上的假设度量来设计潜在空间。通过使用神经 ODE 增强等距学习并提出一个可扩展的训练目标,我们获得了一个更适合插值的潜在空间,从而提高了流形学习和生成性能。我们通过合成数据、蛋白质动力学和蛋白质序列数据的应用证明了 PFM 的有效性,生成了具有特定性质的新蛋白质。这种方法在药物发现和材料科学领域显示出巨大的潜力,在这些领域,生成具有特定性质的新样本非常重要。
近年来,大型语言模型 (LLMs) 成功应用于函数建模任务。然而,其成功的背后原因尚不清楚。本文提出了一种新的评估框架,以全面评估 LLMs 的函数建模能力。通过采用函数建模的贝叶斯视角,我们发现 LLMs 在理解原始数据中的模式方面相对较弱,但在利用有关该领域的先验知识方面表现出色,从而对底层函数有了深刻的理解。我们的研究结果为 LLMs 在函数建模中的优势和局限性提供了新的见解。
本文介绍了 FAMMA,一个用于金融多语言多模态问答 (QA) 的开源基准测试。我们的基准测试旨在评估多模态大型语言模型 (MLLMs) 在回答需要高级金融知识和复杂推理的问题的能力。它包含 1,758 个从大学教科书和考试中精心收集的问答对,涵盖金融的 8 个主要子领域,包括公司金融、资产管理和金融工程。一些问答对是用中文或法语写成的,而大多数是用英语写成的。这些问题以混合格式呈现,结合文本和异构图像类型,例如图表、表格和图表。我们在我们的基准测试上评估了一系列最先进的 MLLMs,我们的分析表明 FAMMA 对这些模型构成了重大挑战。即使是 GPT-4o 和 Claude-35-Sonnet 等先进系统也只达到了 42% 的准确率。此外,开源 Qwen2-VL 远远落后于其专有同行。最后,我们探索了 GPT o1 风格的推理链以增强模型的推理能力,这显着改善了错误校正。我们的 FAMMA 基准测试将促进未来开发金融 QA 专家系统方面的研究。排行榜可在 https://famma-bench.github.io/famma/ 获取。
为了改进人类偏好对齐训练,现有研究开发了许多包含标注为“更偏好”或“不太偏好”的偏好对的偏好数据集。这些偏好对通常用于通过奖励建模将人类偏好编码成单个数值,该数值在从人类反馈中进行强化学习 (RLHF) 时充当奖励信号。然而,将这些人类偏好表示为数值会使这些偏好的分析变得复杂,并限制其在 RLHF 以外的更广泛应用。相反,在这项工作中,我们引入了一个偏好表示学习任务,旨在构建更丰富、更结构化的的人类偏好表示。我们进一步开发了一个更通用的框架,即通过偏好对学习人类偏好的表示(即 LRHP),该框架超越了传统的奖励建模,以解决这一任务。我们在两个下游任务中验证了偏好表示的效用:偏好数据选择和偏好边际预测。基于表示中的人类偏好,我们在两个任务中都取得了良好的性能,显著优于基线。