自动生成模型评估的有效性通常通过与使用相关性指标的人工评估进行比较来衡量。然而,诸如克里彭多夫的 $\alpha$ 和兰道夫的 $\kappa$ 等指标最初是为了衡量人工标注的可靠性而设计的,它们对人类行为和标注过程做出了假设。在本文中,我们展示了 *依赖单个聚合相关性分数* 如何掩盖人类行为和自动评估方法(包括 LLM-as-a-Judge)之间的基本差异。具体来说,我们证明了当具有变异或不确定性的人工标签样本比例(在人工评估期间收集)相对较高时,机器标签(由自动评估方法生成)可能表面上看起来与人工多数标签具有相似的或更好的相关性,相比于人与人 (HH) 之间的相关性。这可能会产生自动评估足够准确以近似人工多数标签的误导性印象。然而,随着具有始终一致人工标签的样本比例增加,机器标签与人工多数标签之间的相关性下降,低于 HH 相关性。基于这些发现,我们首先提出根据人工标签不确定性对结果进行分层,以提供对自动评估性能更稳健的分析。其次,认识到不确定性和变异是基于感知的人工评估(例如涉及态度或偏好的评估)所固有的,我们针对此类场景引入了一个新的指标 - *感知的 binned 杰森-香农散度*,以更好地衡量自动评估的有效性。第三,我们介绍了可视化技术 - *感知图表*,以比较自动评估的优缺点,并适当地将相关性指标进行背景化。
本文探讨了基于人类的驾驶员支持问题。如今,驾驶员辅助系统帮助用户在许多驾驶情况下安全行驶。然而,这些系统并没有充分利用从感知人类驾驶员那里获得的丰富信息。因此,本文提出了一种基于人类的风险模型,该模型使用驾驶员信息来改进驾驶员支持。与现有技术相比,我们提出的风险模型结合了 a) 基于驾驶员错误的当前驾驶员感知,例如驾驶员忽视其他车辆(即注意错误),以及 b) 驾驶员个性化,例如驾驶员是防御性的还是自信的。在对多个交互式驾驶场景进行的广泛模拟中,我们表明,与不使用人类驾驶员信息的基线风险模型相比,我们新颖的基于人类的风险模型实现了更早的预警时间和更少的预警错误。
大型语言模型 (LLMs) 已经展现出非凡的能力,但也带来了与生成有毒或有害内容相关的风险。这项工作介绍了精准知识编辑 (PKE),这是一种建立在现有知识编辑方法基础上的先进技术,可以更有效地识别和修改 LLM 中的有毒参数区域。通过利用神经元权重跟踪和激活路径追踪,与之前的去毒实例神经元修改 (DINM) 等方法相比,PKE 在有毒内容管理方面实现了更精细的粒度。我们的实验表明,PKE 显着降低了各种模型(包括 Llama2-7b 和 Llama-3-8b-instruct)的攻击成功率 (ASR),同时保持了模型的整体性能。此外,我们还在实验中比较了一些闭源模型(gpt-4-0613 和 Claude 3 Sonnet)的性能,发现使用我们的方法调整的模型在安全性方面远远超过了闭源模型。这项研究为使 LLM 更安全、更可靠地应用于现实世界应用做出了贡献。
高效的医患互动是疾病诊断成功的关键因素之一。在对话过程中,医生可以查询补充诊断信息,例如患者的症状、既往手术史以及其他与医疗证据数据(检验结果)无关的信息,以增强疾病诊断。然而,此过程通常耗时且效率低下,可以通过计算机辅助系统进行优化。因此,我们提出了一种诊断对话系统来自动化患者信息收集流程。通过利用病史和对话逻辑,我们的对话代理,尤其是医生代理,可以提出多轮临床问题,以有效收集最相关的疾病诊断信息。此外,得益于我们的两阶段推荐结构、精心设计的排名标准和交互式患者代理,我们的模型能够克服对话生成中的探索不足和缺乏灵活性的挑战。我们在真实世界医疗对话数据集上的实验结果表明,我们的模型可以生成模仿真实医生对话风格的临床问题,具有高效的流畅性、专业性和安全性,同时有效地收集相关疾病诊断信息。
大型语言模型(LLMs)已对跨学科的各种科学任务产生了变革性影响,包括生物学、化学、医学和物理学。然而,确保这些模型在科学研究中的安全一致性仍然是一个未充分探索的领域,现有的基准主要关注文本内容,而忽略了分子、蛋白质和基因组语言等关键的科学表示。此外,LLMs 在科学任务中的安全机制研究不足。为了解决这些局限性,我们引入了 SciSafeEval,这是一个全面的基准,旨在评估 LLMs 在一系列科学任务中的安全一致性。SciSafeEval 涵盖多种科学语言——包括文本、分子、蛋白质和基因组——并涵盖广泛的科学领域。我们在零样本、少样本和思维链设置中评估 LLMs,并引入了一个“越狱”增强功能,该功能挑战配备安全护栏的 LLMs,严格测试它们抵御恶意意图的防御能力。我们的基准在规模和范围上都超过了现有的安全数据集,为评估 LLMs 在科学环境中的安全性和性能提供了强大的平台。这项工作旨在促进 LLMs 的负责任开发和部署,促进与科学研究中的安全和道德标准保持一致。
尽管语言模型的有效性不断提高,但它们的推理能力仍然不发达。特别是,通过反事实问答进行的因果推理是缺乏的。这项工作旨在弥合这一差距。我们首先推导出新的指标,平衡事实问题和反事实问题的准确性,与传统的仅基于事实的指标相比,更全面地反映了语言模型的推理能力。其次,我们提出了几种微调方法,旨在根据所提出的指标,引出更好的推理机制。最后,我们在各种现实场景中评估了微调后的语言模型的性能。特别是,我们研究了我们的微调方法在多大程度上系统性地比基线模型在需要归纳和演绎推理能力等问题的泛化能力上有所改进。
我们通过引入 FutureFill 来解决序列预测模型中高效的自回归生成问题:一种适用于基于卷积算子的任何序列预测算法的快速生成方法。我们的方法将生成时间需求从与上下文长度线性相关降低到平方根相关。此外,FutureFill 只需要一个由生成令牌数量决定的预填充缓存,这比标准卷积和注意力模型的缓存需求更小。我们通过实验验证了我们的理论发现,证明了在合成生成任务中的正确性和效率提升。
法律接案,即确定申请人是否符合免费法律援助计划资格的过程,需要大量的时间和资源。部分原因是资格标准细致入微,开放性强,并且需要随着拨款的开始和结束而频繁修订。本文探讨了使用大型语言模型(LLM)来减轻这种负担。我们描述了一个数字接案平台,它将逻辑规则与 LLM 相结合,以提供资格建议,并评估了 8 种不同 LLM 执行此任务的能力。我们发现这种方法有望帮助缩小司法获取差距,最佳模型的 F1 得分为 0.82,同时最大限度地减少了假阴性。
近年来,Transformer 模型在非侵入式负荷监测 (NILM) 应用中展现出了令人印象深刻的性能。尽管取得了成功,但现有研究尚未深入探讨各种超参数对模型性能的影响,而这对于推动高性能 Transformer 模型的发展至关重要。本研究进行了一系列全面的实验,以分析这些超参数在住宅 NILM 环境中的影响。该研究深入探讨了注意力层隐藏维度数量、注意力层数量、注意力头数量和 dropout 比率对 Transformer 性能的影响。此外,研究还探索了掩蔽率在 BERT 风格的 Transformer 训练中的作用,详细调查了其对 NILM 任务的影响。基于这些实验,选出了最佳超参数,并使用它们训练了 Transformer 模型,该模型超越了现有模型的性能。实验结果为优化 Transformer 架构提供了宝贵的见解和指导,旨在提高其在 NILM 应用中的有效性和效率。预计这项工作将为未来研究和开发更强大、更有效的 NILM Transformer 模型奠定基础。
近年来,研究表明,通过音频编码提示大型语言模型可以解锁语音识别能力。然而,现有技术难以有效扩展,特别是在处理长形式流式音频输入时——它们不仅在训练中看到的音频长度之外难以推断,而且由于注意力机制的二次成本,计算效率低下。
在这项工作中,我们介绍了 SpeechLLM-XL,这是一种用于流式语音识别的线性扩展解码器模型。我们使用有限的注意力窗口以可配置的块处理音频,以减少计算量,并且每个音频块的文本标记以自回归的方式生成,直到预测到 EOS。在训练期间,使用从编码器输出估计的 CTC 强制对齐将转录分割成块。具有 1.28 秒块大小的 SpeechLLM-XL 在 LibriSpeech 测试 clean/other 上实现了 2.7%/6.7% 的 WER,并且在比训练语句长 10 倍的长形式语句上没有显示出质量下降。