arXiv:2505.02763v1 交叉类型公告
摘要:法律实践要求严格遵守程序规则。在美国,没有哪一套规则比《蓝皮书:统一引注系统》(The Bluebook: A Uniform System of Citation)中的规则更为复杂。遵守这套系统中长达五百多页的繁复格式指示是数千名学生法律评论编辑的职责所在,也是全世界律师们的心头之患。为了评估大型语言模型(LLMs)是否能够遵守这样的复杂系统,我们构建了一个包含866个蓝皮书任务的原始数据集,并测试了来自OpenAI、Anthropic、Google、Meta和DeepSeek的旗舰LLMs。结果显示(1)这些模型只有69%-74%的时间能够生成完全符合蓝皮书规范的引注,(2)针对蓝皮书底层规则进行上下文学习只能将准确性提高到77%。这些结果警示我们,在程序遵守至关重要的法律领域,不宜直接使用现成的LLMs来自动化相关工作。
arXiv:2505.02737v1 文本类型:交叉学科
摘要:最近,在大规模语言模型(LLMs)方面取得的进展使它们成为了自然语言处理任务的重要解决方案。值得注意的是,它们可以通过零样本或少样本的方式解决这些问题,从而无需训练或微调特定任务的模型。然而,LLMs 面临一些挑战,包括幻觉以及训练数据中存在的过时知识或特定领域的缺失信息。这些问题通过重新训练模型也无法轻易解决,因为这既耗时又昂贵。为了缓解这些问题,已提出了知识图谱(KGs)作为结构化的外部信息源,以增强LLMs。基于这一理念,本文利用KG中实体类的分层表示逐渐缩小候选空间并丰富实体描述,从而增强输入提示的事实性知识。在流行的实体消歧(ED)数据集上的评估表明,所提出的方法优于未增强和仅描述增强的LLMs,并且在适应性方面也优于特定任务模型。此外,我们进行了错误分析,并讨论了所利用的KG语义表达性对ED性能的影响。
arXiv:2505.02712v1 交叉类型: 交叉
摘要: 细胞重编程,即通过人工方式将一种细胞类型转换为另一种,由于其在治疗复杂疾病方面的潜在价值,正吸引着越来越多的研究关注。然而,通过传统的实验室实验发现重编程策略受到长时间投入和高昂成本的限制。在本研究中,我们探索使用深度强化学习(DRL)来控制异步更新模式下的复杂生物系统布尔网络模型,如基因调控网络和信号通路网络。我们基于细胞重编程的背景,提出了布尔网络模型的一种新型控制问题。为了促进该方法的可扩展性,我们考虑了我们之前引入的伪吸引子概念,并改进了伪吸引子状态的有效识别程序。最后,我们设计了一种计算框架来解决控制问题。为了利用生物系统的结构,我们将图神经网络与图卷积结合到DRL代理学习的动作-价值函数的近似器中。对文献中多种大型实际生物网络的实验表明,该方法具有可扩展性和有效性。
arXiv:2505.02694v1 Announce Type: cross
摘要:在临终关怀中进行严重疾病沟通(SIC)面临情感压力、文化障碍以及在保持希望与诚实之间的平衡等方面的挑战。尽管SIC非常重要,但临床医生唯一可用的练习SIC的方式之一是使用标准化病人,这种方式昂贵、耗时且不灵活。在本文中,我们介绍了一种基于AI的标准化病人模拟和自动化反馈系统——SOPHIE。SOPHIE结合了大型语言模型(LLMs)、一个逼真的虚拟化身以及基于临床文献的个性化自动化反馈,为用户提供远程、按需的SIC培训。在与医疗卫生学生和专业人士进行的随机对照研究中,SOPHIE的用户在三个关键的SIC领域(同理心、明确表达和增强患者能力)上表现出显著的改进。这些结果表明,基于AI的工具可以增强复杂的人际沟通技能,提供可扩展且易于访问的解决方案,以解决临终关怀中临床医生教育的关键缺口。
arXiv:2505.02659v1 类型: cross
摘要: 大型语言模型(LLMs)在生成合成表格数据方面显示出了前景,但现有方法难以保留复杂的特征依赖关系,尤其是在分类变量之间。本文介绍了一种概率驱动的提示方法,利用LLMs估计条件分布,从而实现更准确和可扩展的数据合成。结果突显了提示概率分布以增强LLM生成的表格数据的统计准确性的潜力。
arXiv:2505.02655v1 交叉公告类型:预测方法
摘要:通过利用通道内自我注意力,Transformer 模型在多变量时间序列预测中展现了强大的性能。然而,这种方法在计算时间特征时缺乏时间约束,也没有有效利用累积历史序列。为解决这些限制,我们提出了带有累积历史状态的结构化通道 Transformer (SCFormer)。SCFormer 为所有线性变换引入了时间约束,包括查询、键和值矩阵,以及 Transformer 中的全连接层。此外,SCFormer 使用高阶多项式投影运算符 (HiPPO) 来处理累积历史时间序列,使模型在预测时能够利用超出前瞻窗口范围的信息。在多个真实世界数据集上的广泛实验表明,SCFormer 显著优于主流基线,展示了其在增强时间序列预测方面的效果。代码可以在 https://github.com/ShiweiGuo1995/SCFormer 公开获取。
arXiv:2505.02649v1 声明类型:交叉
摘要:眼球运动可能增强谎言检测器的稳健性,但这一领域仍处于研究不足的状态。本研究评估了人工智能模型(使用注视、眼跳、眨眼和瞳孔大小)在跨两个数据集中的隐含信息测试中检测欺骗的有效性。第一个数据集使用 Eyelink 1000 收集,包含了一项计算机实验中的眼球运动数据,87 名参与者揭示、隐瞒或假装了一张先前选择的卡片的价值。第二个数据集使用 Pupil Neon 收集,涉及 36 名参与者完成类似的任务,但面对一名实验员。XGBoost 在二分类任务(揭示 vs. 隐瞒)中达到了高达 74% 的准确率,并在更具挑战性的三分类任务(揭示 vs. 隐瞒 vs. 装假)中达到了 49% 的准确率。特征分析确定了眼跳的数量、持续时间、幅度和最大瞳孔大小是欺骗预测最重要的特征。这些结果表明,使用眼球运动和人工智能来增强谎言检测器的可行性,并鼓励未来的研究来改进这一方法。
arXiv:2505.02640v1 类型: cross
摘要:物联网(IoT)系统越来越多地在设备必须实时响应同时管理不断变化的资源限制(包括能量和带宽)的环境中运行。然而,当前的方法在处理随时间演变的操作约束场景时往往不够有效。为了应对这些限制,我们提出了一种专为具有动态操作限制的物联网应用设计的新颖预算化多臂老虎机框架。我们的模型引入了一个衰减的违规预算,允许在学习过程早期有限的约束违规,并逐渐在时间上加强合规性。我们提出了预算化的上确信边界(Upper Confidence Bound, UCB)算法,该算法能够自适应地在性能优化和随时间变化的约束条件下的合规性之间进行平衡。我们提供了理论保证,证明了预算化的UCB算法在整个学习时间范围内实现了亚线性后悔和对数级约束违规。在无线通信场景下的广泛模拟表明,我们的方法比标准的在线学习方法能够更快地适应并更好地满足约束条件。这些结果突显了该框架在构建适应性强、资源感知型物联网系统方面的潜力。
arXiv:2505.02639v1 宣传类型:跨领域
摘要:化学反应和逆合成预测是药物发现中的基本任务。近年来,大规模语言模型(LLMs)在许多领域显示出潜力。然而,直接将LLMs应用于这些任务面临两大挑战:(i)缺乏大规模的化学合成相关指令数据集;(ii)忽略了现有微调策略中反应和逆合成预测之间的密切关联。为了解决这些挑战,我们提出了一种名为ChemDual的新颖LLM框架,以实现精确的化学合成。具体而言,考虑到获取反应和逆合成数据的成本较高,ChemDual将分子的反应和逆合成视为相关重组和碎片化过程,并构建了一个包含440万条指令的大规模数据集。此外,ChemDual引入了一种增强的LLaMA,配备了多尺度标记器和双任务学习策略,以联合优化重组和碎片化过程以及反应和逆合成预测之间的任务。在Mol-Instruction和USPTO-50K数据集上的广泛实验表明,ChemDual在反应和逆合成预测方面均取得了最先进的性能,优于现有的常规单任务方法和通用开源LLM。通过分子对接分析,ChemDual生成了具有多样性和强蛋白结合亲和力的化合物,进一步突显了其在药物设计方面的强大潜力。
arXiv:2505.02627v1 类别: cross
摘要: 组合泛化是人工智能中的一个关键性质,使模型能够处理已知组件的新组合。虽然大多数深度学习模型缺乏这种能力,但某些模型在特定任务中取得成功,这表明存在控制条件。本文推导了神经网络中组合泛化的必要且充分条件。概念上,该条件要求(i) 计算图与真正的组合结构相匹配,以及(ii) 组件在训练中仅包含足够多的信息。该条件由数学证明支持。这一标准结合了架构设计、正则化和训练数据属性的方面。精心设计的最小化示例展示了该条件的直观理解。我们还讨论了该条件在训练前评估组合泛化的潜力。这项工作是关于神经网络中组合泛化的基础理论研究。