arXiv:2502.09609v1 类别: cross
摘要: 我们提出了混合分数训练 (SMT),这是一个通过最小化一类称为 $\alpha$-斜Jensen-Shannon 散度来训练一步生成模型的新框架。其核心在于,SMT 估计了真实样本和生成样本在多个噪声水平下的混合分布分数。类似于一致性模型,我们的方法同时支持从零开始训练 (SMT) 和通过预训练的扩散模型进行蒸馏,我们称之为混合分数蒸馏 (SMD)。SMT/SMD 实现简单,需要极少的超参数调整,并确保训练的稳定性。在CIFAR-10 和 ImageNet 64x64 上的实验表明,SMT/SMD 在现有方法中具有竞争力,并且甚至可以超越现有方法。
arXiv:2502.09606v1 宣告类型: cross
摘要:通过对arXiv论文摘要进行统计分析,我们报告了在ChatGPT指出某些词语(例如"delve")被过度使用后不久,这些词语的频率出现了显著下降。另一方面,ChatGPT偏爱的某些词语,如"significant",其频率反而继续增加。这些现象表明,一些学术论文的作者已经调整了他们对大型语言模型(LLMs)的使用方式,例如,通过选择模型输出或对生成的内容进行修改。这种人类与LLM之间的共生和合作为在现实场景中检测机器生成的文本带来了额外的挑战。通过检查单词频率来估计LLMs对学术写作的影响仍然是可行的,应该更多关注那些已经频繁使用的词语,包括那些频率下降的词语。
arXiv:2502.09604v1 交叉类型公告
摘要: 我们介绍了SelfCite,这是一种新颖的自监督方法,用于使大型语言模型(LLM)生成其生成响应中陈述的高质量、细粒度的句子级引用。与仅依赖昂贵且劳动密集型的标注不同,SelfCite 利用了LLM自身通过上下文消融提供的奖励信号:如果需要引用,则从上下文中移除被引用的文本应阻止相同响应的生成;如果引用充足,则仅保留被引用的文本应保持相同的响应。这种奖励信号可以引导推理时的最优N采样策略,显著提高引用质量,并可以直接用于偏好优化,以直接微调模型以生成更好的引用。通过在LongBench-Cite基准上的五个长文问答任务中将引用F1提高到高达5.3个点,证明了SelfCite的有效性。
arXiv:2502.09567v1 交叉类型公告:
摘要:我们引入了MorphNLI,这是一种模块化的逐步方法,用于自然语言推理(NLI)。在将前提-假设对分类为{蕴含、矛盾、中立}时,我们使用语言模型生成必要的编辑,逐步转换(即,拟合)前提为假设。然后,使用现成的NLI模型跟踪这些原子变化如何使蕴含逐步发展,并将这些中间标签聚合为最终输出。我们展示了我们提出的方法在现实世界的跨域设置中的优势,其中我们的方法在所有情况下都优于强大的基线模型,改进幅度高达12.6%(相对)。此外,我们提出的方法是可解释的,因为原子编辑可以用于理解整体的NLI标签。
arXiv:2502.09532v1 类型: cross
摘要: 近年来生成AI的进步催生了新型写作助手的普及。这类系统通常依赖多语言大型语言模型(LLMs),使全球工作者能够在不同语言下修改或创建多样的内容。然而,有大量的证据表明,多语言LLMs在不同语言中的表现存在差异。使用多语言写作助手进行多种语言创作的用户因此可能面临输出质量的不一致性。重要的是,近期的研究表明,人们往往会跨独立任务泛化算法错误,违反了行为选择独立性的公理。在这篇论文中,我们分析了在慈善广告写作任务中,用户使用新型写作助手的行为是否受到AI在第二种语言中表现的影响。此外,我们量化了这些模式如何转化为生成慈善广告的说服力,以及人们关于LLM使用来源的信念在捐赠决策中的作用。我们的结果显示,接触到基于LLM的写作助手的作者违反了选择独立性,因为先接触过西班牙语LLM会减少后续使用英语LLM的利用。虽然这些模式并未直接影响生成广告的整体说服力,但人们对广告来源(人类还是AI)的信念确实产生了影响。特别是,相信自己阅读了AI生成广告的西班牙语女性参与者强烈调整了捐赠行为。此外,人们通常无法充分区分人类生成和LLM生成的广告。我们的工作对多语言LLM作为辅助代理的设计、开发、整合和采纳具有重要意义,尤其是在写作任务中。
arXiv:2502.09511v1 类型: cross
摘要:关于分子的生成任务,包括但不限于分子生成,对于药物发现和材料设计至关重要,并且一直吸引了显著的关注。近年来,扩散模型作为一种令人印象深刻的深度生成模型类别出现,激发了广泛的研究,并导致了对其在分子生成任务中应用的大量研究。尽管相关工作层出不穷,但在这一领域仍缺乏最新的和系统性的综述。特别是由于扩散模型形式的多样性、分子数据模态以及生成任务类型的不同,研究景观难以导航,阻碍了理解并限制了该领域的增长。为了解决这个问题,本文对基于扩散模型的分子生成方法进行了全面的综述。我们从方法论形式、数据模态和任务类型等角度系统地回顾了研究成果,提出了一种新的分类体系。该综述旨在促进对该领域的理解和进一步繁荣发展。相关论文的摘要汇总在:https://github.com/AzureLeon1/awesome-molecular-diffusion-models。
arXiv:2502.09503v1 宣传类型:交叉
摘要:Transformer架构已经改变了AI应用,但仍然很难为缺乏低级实现知识的领域专家定制。我们引入了AttentionSmithy,这是一种模块化软件包,通过将关键组件分解为可重用的构建块——注意力模块、前馈网络、规范化层和位置编码——简化了transformer的创新。用户无需大量编程即可快速原型制作和评估transformer变体。我们的框架支持四种位置编码策略,并与神经架构搜索集成以实现自动设计。我们通过在资源受限条件下复制原始的transformer并结合位置编码来优化翻译性能,验证了AttentionSmithy的有效性。此外,我们展示了它在基因特定建模中的适应性,实现了超过95%的细胞类型分类精度。这些案例研究突显了AttentionSmithy加速跨领域研究的潜力,特别是通过消除框架实现障碍。
arXiv:2502.09497v1 类别: cross
摘要: 自动作文评分(AES)为学生作文打分,减轻了教师的评分负担。由于写作任务的灵活性和多样性,开发一个能够处理多样性主题作文的评分系统颇具挑战性。现有的方法通常分为两类:监督特征基方法和大型语言模型(LLM)基方法。监督特征基方法通常能实现更高的性能,但需要资源密集型的训练。相比之下,LLM基方法在推理过程中计算效率较高,但往往会表现为较低的性能。本文通过将语言特征融入到LLM基评分系统中,结合了这两种方法。实验结果表明,这种混合方法在领域内和领域外写作提示下都优于基准模型。
arXiv:2502.09495v1 宣告类型: 交叉
摘要: 分析发展项目对于理解捐赠方援助策略、受援方优先事项以及评估发展融资能力以通过实地行动解决发展问题至关重要。在这个领域,经济合作与发展组织(OECD)债务人报告系统(CRS)数据集是一个参考数据源。该数据集提供了来自各个领域的大量项目叙事(约500万个项目)。虽然OECD CRS提供了丰富的关于发展策略的信息,但由于其基于捐赠者自我申报的主要目标和预定义的工业部门的报告过程,它在提供项目目的方面存在不足。本研究采用了一种新的方法,结合了机器学习(ML)技术,特别是自然语言处理(NLP),并使用了一种创新的Python主题建模技术BERTopic,根据项目叙事描述将发展项目进行分类(聚类)和标签化。通过揭示现有的但未被发现的发展融资主题,这种人工智能应用可以更好地理解捐赠方优先事项,总体发展资金情况,并提供分析公共和私营项目叙事的方法。
arXiv:2502.09487v1 交叉公告类型
摘要:情绪状态影响人类的行为和认知,导致多样的思维轨迹。类似地,大型语言模型(LLMs)展示了在广泛情境(提示)下响应一致性的出色水平。我们利用这些相似性来建立一种量化心理状态的框架。我们的方法利用了自陈问卷的优势,因为这些问卷对共现响应模式具有内在的敏感性,能够可靠地评估这些状态。具体而言,我们招募了422名参与者,以研究LLM(Mistral-7B-OpenOrca)如何量化抑郁症等异质性情绪状态,这些状态是通过参与者对抑郁问卷的开放性回答来测量的。我们展示了在给定参与者开放性回答的情况下,LLM对保留的多项选择题的回答与真实问卷评分存在强烈的正相关(r:0.52-0.84),这表明LLM能够在情绪表示的基础上进行泛化。我们探讨了这些表示与因子分析之间的联系。使用岭回归,我们发现LLM隐藏状态中的抑郁相关子空间。我们展示了这些子空间可以预测参与者的“抑郁”和“躯体和情绪困扰”因子分数,以及自杀严重程度。总体而言,LLM可以提供心理状态的量化指标。这些指标的可靠性取决于我们向参与者提问的信息量。正确使用这种方法,可以在各种环境中补充心理状态评估。