arXiv:2409.13989v1 公告类型: 交叉 摘要: 人们对大型语言模型(LLMs)在化学领域中的作用越来越感兴趣,这导致了对专门针对化学领域的LLMs基准测试的开发,以评估LLMs在各种类型和复杂度的化学任务中的表现。然而,现有的基准测试未能充分满足化学研究专业人员的特定需求。为此,我们提出了\textbf{\textit{ChemEval}},它提供了一个全面的评估框架,涵盖了广泛的化学领域任务。具体而言,ChemEval确定了化学中的4个关键递进层次,评估了LLMs在12个维度上的表现,涉及42个不同的化学任务,这些任务基于开源数据和化学专家精心设计的数据,确保任务具有实际价值并能有效评估LLMs的能力。在实验中,我们在零样本和少样本学习情境下对12个主流LLMs进行了评估,其中包括精心挑选的示范示例和精心设计的提示。结果显示,尽管像GPT-4和Claude-3.5这样的通用LLMs在文献理解和指令遵循方面表现出色,但在需要高级化学知识的任务中表现不佳。相反,专门的LLMs在化学能力方面有所增强,但在文学理解方面有所减弱。这表明,当处理化学领域的复杂任务时,LLMs具有显著的提升潜力。我们相信,我们的工作将有助于探索其在推动化学进步方面的潜力。我们的基准测试和分析将在{\color{blue} \url{https://github.com/USTC-StarTeam/ChemEval}}上提供。
arXiv:2409.13980v1 公告类型: 交叉 摘要: 视觉-语言(VL)研究的最新进展为复杂视觉推理提出了新的基准,挑战了模型的先进推理能力。传统的视觉-语言模型(VLMs)在视觉感知任务中表现出色,但在复杂推理场景中表现不佳。相反,大型语言模型(LLMs)展示了强大的文本推理能力,但缺乏视觉敏锐度。为了弥合这一差距,我们提出了复杂视觉推理大型语言模型(CVR-LLM),利用VLMs的视觉感知能力和LLMs的广泛推理能力。与最近需要投影层的多模态大型语言模型(MLLMs)不同,我们的方法通过迭代自精炼循环将图像转换为详细的、上下文感知的描述,并利用LLMs的文本知识进行准确预测,无需额外训练。我们还引入了一种新颖的多模态上下文学习(ICL)方法,以增强LLMs的上下文理解和推理能力。此外,我们引入了链式比较(CoC),一种逐步比较技术,能够对比预测的各个方面。我们的CVR-LLM在广泛的复杂视觉推理任务中进行了首次全面研究,并在所有任务中达到了最先进的性能。
arXiv:2409.13976v1 公告类型: 交叉 摘要: 视频修复技术能够在帧内实现无缝的内容移除和替换,但滥用时会带来伦理和法律风险。为了缓解这些风险,检测修复视频中的篡改区域至关重要。以往的检测方法通常仅关注从空间和时间维度派生的特征,这限制了它们的效果,因为忽略了不同修复算法特有的频率特征。在本文中,我们提出了频域洞察网络(FDIN),通过结合频域的洞察力显著提高了检测精度。我们的网络具有自适应频带选择响应模块,用于识别各种修复技术特有的频率特征,以及基于快速傅里叶卷积的注意力模块,用于识别修复区域中的周期性伪影。利用3D ResBlocks进行时空分析,FDIN逐步从广泛评估到详细定位,逐步提高检测精度。在公共数据集上的实验评估表明,FDIN达到了最先进的性能,为视频修复检测设定了新的基准。
arXiv:2409.13975v1 公告类型: 交叉 摘要: 变压器神经网络(TNN)已被广泛应用于各种领域,包括自然语言处理(NLP)、机器翻译和计算机视觉(CV)。其广泛采用主要归功于其多头自注意力块在从序列数据中提取关键特征方面的卓越性能。多头自注意力块之后是前馈神经网络,在引入非线性以帮助模型学习复杂模式方面起着至关重要的作用。尽管TNN很受欢迎,但针对这两个关键块的硬件加速器数量有限。大多数先前的工作都集中在不适合流行TNN变体的稀疏架构上。本文介绍了\textit{ProTEA},一种针对大多数最先进变压器编码器的密集计算量身定制的运行时可编程加速器。\textit{ProTEA}旨在通过最大化并行性来减少延迟。我们引入了一种高效的大矩阵分块方法,可以将内存和计算资源分布到FPGA内的不同硬件组件中。我们在Xilinx Alveo U55C高性能数据中心加速卡上对\textit{ProTEA}进行了运行时评估。实验结果表明,\textit{ProTEA}可以承载多种流行的变压器网络,并在多头自注意力块中分块大小为64、前馈网络块中分块大小为6时,在配置了8个并行注意力头、12层和768维嵌入的U55C上实现接近最佳性能。比较结果显示,\textit{ProTEA}比NVIDIA Titan XP GPU快2.5倍。结果还显示,与当前最先进的定制FPGA加速器相比,它实现了1.3到2.8倍的加速。
传统知识图谱或广义上的关系数据上的查询回答是数据管理中最基本的问题之一。受现代知识图谱不完整性的启发,一种新的查询回答设置应运而生,其目标是在知识图谱中预测可能不存在但存在于其完整版本中的答案。本文提出了一种名为AnyCQ的图神经网络模型,该模型能够在训练后对任何知识图谱上的任何合取查询进行答案分类。我们的框架核心是一个使用强化学习目标训练的图神经网络模型,用于回答布尔查询。我们的方法和问题设置在多个维度上与现有的查询回答研究不同。首先,我们关注查询答案分类问题:给定一个查询和一组可能的答案,根据完整知识图谱将这些答案分类为真或假。其次,我们研究查询答案检索问题:给定一个查询,检索相对于完整知识图谱的答案,或确定不存在正确答案。AnyCQ在简单、小规模实例上训练后,能够泛化到任意结构的大型查询,可靠地分类和检索现有方法失败的样本答案,这在新的具有挑战性的基准测试中得到了实证验证。此外,我们展示了AnyCQ模型在配备相关链接预测器时,能够有效地迁移到分布外的知识图谱,突显了其作为通用查询回答引擎的潜力。
arXiv:2409.13941v1 公告类型: 交叉 摘要: 我们利用各种类型的汽车图像,组合成鸟或狮子等动物的图像,以环境保护为主题,最大化单张合成图像中的汽车信息量,并提高人们对环境挑战的认识。我们提出了一种新颖的图像交互方式,通过艺术化的马赛克图像,使用简单的“点击并显示”操作,展示马赛克图像中的瓦片图像与相应原始汽车图像之间的交互切换,这些图像将自动保存在桌面上。我们构建了一个名为TalkMosaic的多模态自定义GPT,通过整合汽车图像信息及相关知识到ChatGPT中。通过上传原始汽车图像到TalkMosaic,我们可以就给定的汽车图像提问,并高效地获得相应答案,例如在哪里购买符合高环保标准的汽车轮胎。我们深入分析了如何使用稀疏注意力和量化技术加速多模态LLM的推理,提出了概率性FlashAttention(PrFlashAttention)和阶梯自适应量化(SAQ)方法。实现的原型展示了所提出方法的可行性和有效性。
arXiv:2409.13940v1 公告类型: 交叉 摘要: 本文提出了一种在学习和推断用户偏好时引入用户输入的新技术。在尝试为黑箱机器学习模型的用户提供可操作的补救措施时,我们通常希望考虑他们对修改每个特征难易程度的个人偏好。这些补救措施算法通常需要一个详尽的元组集合,将每个特征与其修改成本关联起来。由于直接通过调查人类获取这些成本是困难的,本文提出使用Bradley-Terry模型,通过非详尽的人类比较调查自动推断特征成本。我们建议用户仅提供对整个补救措施的比较输入,包括所有候选特征修改,确定哪些补救措施相对于其他措施更容易实施,而无需明确量化其成本。我们展示了使用MAP估计高效学习个体特征成本的方法,并表明这些非详尽的人类调查,即使不一定包含每个特征对比较的数据,也足以学习一个详尽的特征成本集合,其中每个特征都与一个修改成本相关联。
arXiv:2409.13935v1 公告类型: 交叉 摘要: 本研究探讨了大语言模型(LLMs)在创作个性化“镜像故事”方面的有效性,这些故事能够反映并引起读者身份的共鸣,解决了文学作品中缺乏多样性的重大问题。我们提出了MirrorStories,这是一个包含1500个个性化短篇故事的语料库,通过整合姓名、性别、年龄、种族、读者兴趣和故事道德等元素生成。我们证明,LLMs能够有效地将多样化的身份元素融入叙事中,人类评估者能够以高准确度识别故事中的个性化元素。通过26位不同背景的人类评委的全面评估,我们将MirrorStories与通用叙事进行了比较。我们发现,个性化LLM生成的故事不仅在所有参与度指标上均优于通用的人类撰写和LLM生成的故事(在5分制中平均评分为4.22对3.37),而且在保持预期道德的同时实现了更高的文本多样性。我们还提供了包括偏见评估和研究个性化故事中整合图像潜力的分析。
arXiv:2409.13928v1 公告类型: 交叉 摘要: 我们研究了在指令微调模型能够访问辅助函数来实现某个函数时,基于代码预训练语言模型的代码生成行为。我们设计了几种方式,通过将辅助函数添加到查询中或提供响应前缀,来将利用辅助函数的能力与指令跟随能力结合起来。我们的实验结果显示,将基础模型的辅助函数利用能力与指令跟随能力相结合是有效的。特别是,采用我们方法的开源语言模型的性能超过了最近强大的专有语言模型,即gpt-4o。
尽管大型语言模型(LLMs)在医学领域具有潜力,但它们可能生成缺乏支持证据或基于幻觉证据的响应。虽然检索增强生成(RAG)是解决这一问题的流行方法,但很少有研究在下游领域特定应用中实施和评估RAG。我们开发了一个包含70,000份眼科特定文档的RAG管道,该管道在推理时检索相关文档以增强LLMs。在一项针对长篇消费者健康问题的案例研究中,我们系统地评估了包括超过500条参考文献的LLMs响应,这些响应来自100个问题,由10位医疗专业人员进行评估。评估重点在于证据的事实性、证据的选择和排序、证据的归属以及答案的准确性和完整性。没有RAG的LLMs总共提供了252条参考文献,其中45.3%是幻觉的,34.1%包含轻微错误,20.6%是正确的。相比之下,使用RAG的LLMs显著提高了准确性(54.5%是正确的)并降低了错误率(18.8%有轻微幻觉,26.7%有错误)。RAG检索的前10份文档中有62.5%被选为LLM响应中的顶级参考文献,平均排名为4.9。使用RAG还改善了证据归属(从1.85增加到2.49,P<0.001),尽管在准确性(从3.52降至3.23,P=0.03)和完整性(从3.47降至3.27,P=0.17)方面略有下降。结果表明,LLMs在响应中经常表现出幻觉和错误的证据,这引发了医学领域下游应用的担忧。RAG显著减少了此类证据的比例,但仍面临挑战。