arXiv:2408.06931v2 宣告类型: replace-cross
摘要:目前提高语言模型性能的趋势似乎主要是通过增加参数数量(例如,当前最好的GPT4模型大约有1.7万亿个参数)或输入模型的训练数据量来实现的。然而,这种方法带来了计算资源和能源成本的显著增加,这些都损害了AI解决方案的可持续性,同时也存在隐私和误用的风险。在这篇论文中,我们介绍了Erasmian语言模型(ELM),一个针对特定场景的小型模型,拥有9亿个参数,由鹿特丹伊拉斯谟大学预训练并微调。我们展示了该模型在教室场景中进行论文写作时的表现适中,并且在该场景下的相关科目中实现了优越的性能。这对广泛机构和组织具有重要意义,表明针对特定场景的语言模型可能是资源受限且对隐私敏感的应用场景的一种可行替代方案。
arxiv:2407.16615v2 通知类型: 替换-交叉
摘要: 法律文本的标注和分类是实证法律研究的核心组成部分。传统上,这些任务通常委派给受过训练的研究助理完成。受语言模型进步的启发,实证法律学者越来越多地转向提示商业模型,希望这将缓解人类标注的巨大成本。尽管使用日益增长,但我们对如何最好地利用大型语言模型进行法律标注的理解仍然有限。为弥合这一差距,我们提出了CaselawQA,这是一个基准,包括260项法律标注任务,几乎全部是机器学习社区的新任务。我们展示了商业模型,如GPT-4.5和Claude 3.7 Sonnet,实现了非平凡但高度变异性精度,通常未能达到法律工作所需的性能水平。随后,我们展示了微调的少量轻量级模型优于商业模型。通常几百到一千个带标签的示例就足以实现更高的准确性。我们的工作指出了一个替代主流做法——提示商业模型的可行替代方案。对于具有部分可用标记数据的具体法律标注任务,研究者更有可能使用一个微调的开源模型。
arXiv:2407.15192v2 公告类型: replace-cross
摘要:近年来,层次多标签分类(HMC)的最新进展,特别是基于神经符号的方法,通过在训练过程中对神经网络模型施加约束,展示了改进的一致性和准确性。然而,这样的工作假设这些约束在先验存在。在本文中,我们放松了这一强假设,并提出了一种基于错误检测规则(EDR)的方法,该方法允许学习有关机器学习模型的失败模式的可解释规则。我们展示了这些规则不仅在检测机器学习分类器出错时有效,而且可以作为HMC的约束,从而即使没有提供这些约束,也能恢复可解释的约束。我们展示了我们的方法在检测机器学习错误和恢复约束方面的有效性,具有抗噪声性,并且可以在包括新引入的军事车辆识别数据集在内的多个数据集上作为神经符号模型的知识来源。
arXiv:2407.12022v3 公告类型: 替换交叉
摘要:最近,大规模语言模型(LLMs)已经展示了卓越的性能,激励研究人员探索其在自动化寄存器传输级(RTL)代码生成以及提高硬件设计效率方面的应用。然而,现有对LLMs进行RTL生成调整的方法通常在固定数据集上进行,这没有充分激发LLMs的能力,并且需要大量的参考资料数据,获取这些数据代价高昂。为解决这些问题,我们创新性地引入了一种迭代训练范式,称为ITERTL。在每次迭代中,从上一个循环中训练的模型中抽取样本。然后,这些新样本用于当前循环中的训练。此外,我们引入了一种插拔式数据过滤策略,从而使模型能够生成高质量、自包含的代码。我们的模型超越了GPT4和最先进的开源模型,在VerilogEval-human基准测试中实现了令人瞩目的53.8%的pass@1率。在数据量和质量相似的条件下,我们的方法显著优于基线。广泛的实验验证了所提出方法的有效性。
arXiv:2407.03004v2 宣布类型: replace-cross
摘要:大型语言模型(LLMs)已被证明能够编码临床知识。然而,许多评估工作依赖于结构化的问答基准,忽视了在现实世界环境中解析和推理未结构化的临床叙述所面临的诸多关键挑战。利用自由文本临床描述,我们介绍了一种名称为SemioLLM的评估框架,该框架在癫痫的核心诊断任务上评估了6个最先进的模型(GPT-3.5、GPT-4、Mixtral-8x7B、Qwen-72B、LlaMa2、LlaMa3)。利用一个包含1,269个癫痫发作描述的数据库,我们展示了大多数LLMs能够在脑部癫痫发作起始区的概率预测方面生成准确且自信的结果。经过提示工程处理后,大多数模型的性能能达到临床医生的水平,带有专家指导的推理过程导致了最一致的改进。性能还受到了临床上下文模仿、叙述长度和语言环境(分别导致13.7%、32.7%和14.2%的性能差异)的强烈影响。然而,对推理输出的专家分析显示,正确的预测可能基于虚构的知识和缺乏可靠的来源引用,这突显了在临床使用中提高LLMs可解释性的需求。总体而言,SemioLLM提供了一个可扩展、领域适应的框架,用于评估临床学科中含糊的口头描述编码诊断信息的LLMs。通过确定最先进的模型的优点和局限性,我们的研究支持了开发在临床中稳健且全球适用的AI系统的努力,用于医疗保健。
arXiv:2406.15231v3 宣传类型:替换交叉
摘要:近年来,使用大型语言模型(LLMs)生成音乐内容,尤其是歌词,变得越来越流行。这些进展为艺术家提供了有价值的工具,提升了他们的创作过程,但也引发了关于版权侵权、消费者满意度和内容垃圾邮件的担忧。先前的研究已经探索了各种领域的内容检测。然而,没有任何工作集中在音乐中的文本模式——歌词上。为弥补这一空白,我们收集了一个多样化的数据集,其中包括多种语言、音乐类型和艺术家的真实和合成歌词。生成管道通过人类和自动化方法都得到了验证。我们对现有的一些合成文本检测方法在歌词上的表现进行了全面评估,这是一个之前未被探索的数据类型。我们还研究了如何通过无监督领域适应将表现最好的特征适应到歌词中。遵循音乐和工业约束,我们研究了这些方法在不同语言下的一般化能力、随着数据可用性的扩展、处理多语言内容以及在少量样本中的表现情况。我们的研究结果显示出可行的结果,这些结果可以为AI生成音乐的政策决策提供信息,并增强用户的透明度。
arXiv:2406.15222v4 宣告类型: replace-cross
摘要:在急性胸痛患者中准确及时地诊断急性主动脉综合征(AAS)仍然是一个临床挑战。在疑似AAS患者中,主动脉CT血管造影(CTA)是首选的成像方案。然而,由于中国在经济和工作流程方面的限制,大多数疑似患者最初接受非对比CT作为初始影像学检测,而CTA则用于高风险患者。本文中,我们提出了一种基于人工智能的警告系统iAorta,该系统使用非对比CT对中国AAS进行识别,显示出极高的准确性并为临床医生提供可解释的警告。iAorta通过全面的逐步研究进行了评估。在多中心回顾性研究(n=20,750)中,iAorta实现了平均受试者操作特征曲线下面积(AUC)为0.958(95%CI 0.950-0.967)。在大规模真实世界研究(n=137,525)中,iAorta在各种非对比CT协议中表现出一致的高性能,灵敏度为0.913-0.942,特异度为0.991-0.993。在前瞻性对照研究(n=13,846)中,iAorta展示了显著缩短正确诊断路径时间的能力。对于我们进行的前瞻性试点部署,iAorta在15,584例连续急性胸痛患者中正确识别出了21名患有AAS的患者,并且这些21例AAS阳性患者的平均诊断时间为102.1(75-133)分钟。最后,iAorta有助于避免在资源受限地区和无法或未接受静脉对比剂检查的患者中因非对比CT是不可避免的初始或唯一影像学测试而导致的AAS的延迟或漏诊。
arXiv:2406.12413v2 宣告类型: 替换-交叉
摘要: 我们研究了一种将不可分割的商品集合分配给具有加性评价函数的代理集合的问题,目标是实现任意商品近似不嫉妒($\alpha$-EFX)。关于该问题的最新结果包括:(a)当代理人数不超过三个时;(b)代理人的评价函数最多只能取两个值时;(c)代理人的评价函数可以用图表示时,存在精确的EFX分配。对于$\alpha$-EFX,已知当代理人的评价函数为加性时,存在0.618-EFX分配。在本文中,我们表明,在以下情况下存在$\frac{2}{3}$-EFX分配:(a)代理人数不超过七个;(b)代理人的评价函数最多只能取三个值;(c)代理人的评价函数可以用多重图表示。我们的结果可以从两个方面进行解释。首先,通过将EFX的概念放宽到$\frac{2}{3}$-EFX,我们得到了严格泛化已知存在精确EFX分配的设置的结果。其次,通过对设置施加限制,我们设法突破了0.618的障碍,实现了$\frac{2}{3}$的近似保证。因此,我们的结果推动了近似EFX分配存在性和计算性的边界,并为精确EFX分配的存在性问题提供了见解。
arXiv:2406.00622v2 宣告类型: replace-cross
摘要:对于视觉-语言模型(VLMs),理解视频中三维场景中对象及其相互作用的动态属性对于有效推理高层时间性和动作语义至关重要。尽管人类可以通过构建三维和时间(4D)世界的表示来善于理解这些属性,但当前的视频理解模型在提取这些动态语义方面存在困难,这可能是由于这些模型在缺乏4D场景知识的情况下使用跨帧推理造成的。在这项工作中,我们引入了DynSuperCLEVR,这是第一个专注于理解三维物体动态属性的语言理解的视频问答数据集。我们关注四个维度场景内的三个物理概念——速度、加速度和碰撞。进一步生成了三种类型的问题,包括关于这些四个维度动态属性不同方面的事实查询、未来预测和反事实推理。为了进一步证明明确的场景表示在回答这些四个维度动力学问题中的重要性,我们提出了NS-4DPhysics,这是一种结合了4D动态属性物理先验和视频明确场景表示的神经符号视频问答模型。我们的方法不是直接从视频文本输入中回答问题,而是首先使用一个由物理先验驱动的三维生成模型估计4D世界状态,然后基于4D世界状态使用神经符号推理回答问题。在DynSuperCLEVR中的所有三种类型问题上的评估结果显示,以往的视频问答模型和大型多模态模型在回答4D动态问题时存在困难,而我们的NS-4DPhysics显著优于以往的最先进模型。我们的代码和数据发布在https://xingruiwang.github.io/projects/DynSuperCLEVR/。
arXiv:2405.20770v4 公告类型: replace-cross
摘要:在过去两年中,大型语言模型(LLMs)的应用快速发展。虽然这些LLMs提供了很大的便利,但也引发了安全方面的担忧,因为它们容易受到精心设计的文本扰动的对抗攻击。在这篇论文中,我们介绍了一种新的防御技术——大规模语言模型哨兵(LLAMOS),该技术旨在通过在将对抗性文本示例输入目标LLM之前对其进行净化,来增强LLM的对抗鲁棒性。我们的方法包括两个主要组成部分:a) 代理指令,它可以模拟一个新的代理进行对抗防御,通过最小修改字符来保持句子的原始含义,同时抵御攻击;b) 防护指导,它提供了修改干净或对抗性示例的策略,以确保目标LLM的有效防御和准确输出。值得注意的是,防御代理即使不学习对抗性示例也表现出 robust 的防御能力。此外,我们还进行了一次引人注目的对抗实验,在其中我们开发了两个代理,一个用于防御,一个用于攻击,并让它们相互对抗。在对抗互动中,两个代理都未能完全击败对方。我们在开源和封闭源LLM上的广泛实验表明,我们的方法有效地抵御了对抗性攻击,从而增强了对抗鲁棒性。