LLM2D

arXiv 论文列表

大型语言模型(LLMs)在许多自然语言理解和生成任务中展现了卓越的能力。然而,个性化问题仍然是一个备受追捧的特性,尤其是在对话系统涉及多个来源的情况下。为了更好地规划和整合多个来源以生成个性化响应,我们首先将其分解为三个子任务:知识源选择、知识检索和响应生成。随后,我们提出了一种新颖的统一多源检索增强生成系统(UniMS-RAG)。具体而言,我们在训练过程中将这三个子任务以不同的形式统一到相同的序列到序列范式中,通过使用称为行为标记和评估标记的特殊标记,自适应地检索证据并按需评估相关性。使语言模型生成行为标记有助于与各种知识源进行交互,使其能够根据不同的任务需求调整行为。同时,评估标记衡量对话上下文与检索证据之间的相关性得分。此外,我们精心设计了一种自精炼机制,通过考虑1)生成响应与检索证据之间的一致性得分;2)相关性得分,来迭代精炼生成的响应。在两个个性化数据集(DuLeMon和KBP)上的实验表明,UniMS-RAG在知识源选择和响应生成任务中以统一的方式作为检索器,达到了最先进的性能。我们还提供了广泛的分析和讨论,以期为个性化对话系统提供新的视角。
发布时间: 9/20/2024
查看原文
arXiv:2401.10745v2 公告类型: 替换-交叉 摘要: 鉴于ChatGPT、LaMDA及其他大型语言模型(LLMs)的成功,科技行业及其他领域对LLMs的开发和使用有所增加。尽管LLMs尚未达到超越人类智能的水平,但终将有一天会达到。此类LLMs可称为高级LLMs。目前,由于我们尚未达到这一阶段,针对高级LLMs的伦理人工智能(AI)原则和指南的使用有限。然而,这是一个问题,因为一旦我们达到这一阶段,我们将无法充分准备好以伦理和最佳方式应对其后果,这将导致不希望和意外的后果。本文通过讨论可用于应对高度高级LLMs的伦理AI原则和指南来解决这一问题。
发布时间: 9/20/2024
查看原文
arXiv:2401.10268v2 公告类型: 替换-交叉 摘要: 人工智能(AI)在工业界和学术界都经历了快速的发展。然而,工业界近期的显著进展震惊了整个领域,促使我们重新审视学术研究在这一进程中的角色。在此,我们分析了过去25年间由这两种环境产生的AI的影响力和类型,并揭示了若干模式。我们发现,完全由工业界研究人员组成的团队发表的文章往往获得更多关注,更有可能被高度引用并具有引用破坏性,且多次更有可能产生最先进的模型。相比之下,完全由学术团队发表的AI研究占据了大部分,且倾向于产生更高新颖性的工作,单篇论文具有多次更高的可能性表现出非传统和非典型的特征。工业界和学术界各自的影响力-新颖性优势在控制了子领域、团队规模、资历和声誉后依然稳健。我们发现,学术-工业界合作产生的成果总体上最具影响力,但新颖性水平不及学术团队。综上所述,我们的研究揭示了学术界和工业界在推动AI进步中各自独特且几乎不可替代的贡献。
发布时间: 9/20/2024
查看原文
多模态情感识别(MER)在实际场景中面临显著挑战,尤其是在不同模态数据存在缺失或不完整的情况下。为克服这些挑战,研究人员致力于在训练阶段模拟不完整条件,以增强系统的整体鲁棒性。传统方法通常涉及丢弃数据或用零向量替代数据片段来近似这些不完整性。然而,这些方法既不能准确反映现实世界的情况,也无法充分解决噪声数据可用性的问题。例如,模糊的图像不能简单地用零向量替换,同时仍保留信息。为解决这一问题并开发更精确的MER系统,我们引入了一种新的噪声鲁棒MER模型,该模型能有效从噪声数据中学习鲁棒的多模态联合表示。该方法包括两个关键组件:首先,一个噪声调度器调整数据中噪声的类型和级别,以模拟各种现实的不完整情况。其次,采用基于变分自编码器(VAE)的模块从噪声输入中重建这些鲁棒的多模态联合表示。值得注意的是,噪声调度器的引入使得探索现有方法无法实现的一种全新类型的不完整数据条件成为可能。在基准数据集IEMOCAP和CMU-MOSEI上的广泛实验评估证明了噪声调度器的有效性以及我们提出的模型的优异性能。我们的项目已在https://github.com/WooyoohL/Noise-robust_MER公开发布。
发布时间: 9/20/2024
查看原文
大型语言模型(LLMs)可以通过事后解释或思维链(Chain-of-Thought, CoT)解释来阐明其预测。然而,LLM可能会编造出听起来合理但实际上与其内在推理不符的解释。最近的研究设计了旨在评判事后或CoT解释的忠实度的测试。在这项工作中,我们认为这些忠实度测试并未衡量模型内部工作机制的忠实度,而是衡量其在输出层面的自我一致性。我们的贡献有三方面:i) 我们明确了在模型可解释性视角下忠实度测试的地位,将其重新定义为自我一致性测试。我们通过ii) 构建一个比较一致性库来强调这一评估,该库首次在11个开放的LLM和5个任务的共同基准上比较了现有测试——包括iii) 我们新的自我一致性度量CC-SHAP。CC-SHAP是一种细粒度的度量(而非测试),用于评估LLM的自我一致性。它比较了模型输入如何影响预测答案以及生成解释的过程。我们的细粒度CC-SHAP指标允许iii) 比较LLM在做出预测时的行为,并深入分析其他一致性测试的影响,这使我们更接近模型内部,而不仅仅是面向表面的输出测试,从而向衡量忠实度迈进了一步。我们的代码可在\url{https://github.com/Heidelberg-NLP/CC-SHAP}获取。
发布时间: 9/20/2024
查看原文
目标:我们的目的是确定在稳态跑步期间使用惯性测量单元(IMUs)收集的数据是否可以用于估计地面反作用力(GRFs),并通过轻量级机器学习方法推导出生物力学变量(例如,接触时间、冲量、速度变化)。相比之下,使用长短期记忆网络(LSTMs)进行最先进的估计在边缘设备上存在推理时间过长的问题,需要昂贵的训练和超参数优化,并且结果是黑箱模型。方法:我们提出了一种新颖的轻量级解决方案,即奇异值分解嵌入回归(SER),使用IMU数据和GRF数据的奇异值分解嵌入之间的线性回归。我们还比较了包括SER和k近邻(KNN)回归在内的轻量级解决方案与最先进的LSTMs。结果:我们进行了广泛的实验,以评估这些技术在多种场景和IMU信号组合下的表现,并量化了预测GRFs和生物力学变量的估计误差。我们使用了来自不同运动员、同一运动员或两者的训练数据,并探索了不同位置(骶骨和小腿)传感器加速度和角速度数据的使用。结论:我们的结果表明,轻量级解决方案如SER和KNN可以与LSTMs同样准确或更准确。使用个人数据减少了所有方法的估计误差,特别是对于大多数生物力学变量(与GRFs相比);此外,这种增益在轻量级方法中更为显著。意义:GRFs的研究用于表征个体在跑步等运动中经历的机械负荷,这在临床上可用于识别有应力相关损伤风险的运动员。
发布时间: 9/20/2024
查看原文
arXiv:2409.12567v1 公告类型: 交叉 摘要: 神经损伤,包括脑部和脊髓损伤,是全球年轻成年人残疾和死亡的主要原因之一。评估机械损伤后直接损害的一种方法是模拟机械事件后神经细胞功能缺陷。在本研究中,我们使用了一个耦合的机械电生理模型,该模型具有多个需要根据实验结果进行校准的自由参数。校准过程通过进化算法(差分进化,DE)进行,该算法需要在六个不同的损伤案例上评估每种参数配置,每个案例计算需要几分钟。为了最小化DE参数调整的模拟时间,我们使用了一个简化的触发过程来拉伸一个固定直径的单个轴突,以加速计算。然后,该模型被用于优化更现实的独立轴突束的参数,这在单处理器计算机上运行是不切实际的。为此,我们开发了一个基于OpenMP的并行实现,该实现运行在多处理器上,充分利用了所有可用的计算能力。并行DE算法获得了良好的结果,在短时间内超过了已发表的手动校准的最佳效果。尽管无法完全捕捉实验结果,但所得到的神经模型提供了一个复杂的平均框架,能够模拟轴突束中逐渐的功能改变。
发布时间: 9/20/2024
查看原文
arXiv:2409.12538v1 公告类型: 交叉 摘要: 开发新颖的跨学科研究想法通常需要来自不同领域专家的讨论和反馈。然而,由于领域专家的稀缺性,及时获得输入是具有挑战性的。最近在大语言模型(LLM)研究中的进展表明,利用LLM模拟的专家角色来支持研究构思是可行的。在本研究中,我们介绍了PersonaFlow,一个基于LLM的系统,使用角色模拟来支持跨学科科学发现的构思阶段。我们的研究结果表明,在构思过程中使用多个角色显著提高了用户感知的结果质量(例如,批评的相关性、研究问题的创造性),而不会增加认知负担。我们还发现,用户的角色定制互动显著增强了他们对生成想法的控制感和记忆。基于这些发现,我们讨论了潜在的伦理问题,包括过度依赖和认知偏见,并提出了在人类专家不可及的情况下利用LLM模拟的专家角色支持研究构思的设计启示。
发布时间: 9/20/2024
查看原文
arXiv:2311.00207v2 公告类型: 替换-交叉 摘要: 机器学习(ML)在通过整合端到端无线通信系统的所有物理层模块来实现联合收发器优化方面发挥了关键作用。尽管已有多种针对基于ML的无线系统的对抗性攻击,但现有方法并未提供一个全面的视角,包括源数据的多模态性、常见的物理层协议以及无线领域的约束。本文提出了Magmaw,一种新颖的无线攻击方法,能够为通过无线信道传输的任何多模态信号生成通用对抗性扰动。我们进一步引入了针对下游应用的对抗性攻击的新目标。我们采用了广泛使用的防御措施来验证Magmaw的鲁棒性。为了进行概念验证评估,我们构建了一个使用软件定义无线电系统的实时无线攻击平台。实验结果表明,即使在强大的防御机制下,Magmaw也能导致显著的性能下降。此外,我们通过两个案例研究验证了Magmaw的性能:加密通信信道和基于信道模态的ML模型。
发布时间: 9/20/2024
查看原文
arXiv:2310.05566v3 公告类型: 替换-交叉 摘要: 集成学习通过在同一机器学习任务上利用多个模型(即弱学习器)来提升预测性能。基本的集成方法对弱学习器的输出进行平均,而更复杂的方法则在弱学习器的输出与最终预测之间堆叠一个机器学习模型。本文将上述两种框架融合在一起。我们引入了一种聚合f-平均(AFA)浅层神经网络,该网络建模并结合了不同类型的平均值,以实现弱学习器预测的最优聚合。我们强调其可解释的架构和简单的训练策略,并展示了其在少样本类增量学习问题上的良好性能。
发布时间: 9/20/2024
查看原文