arXiv:2406.14230v3 宣布类型: replace-cross
摘要: 警告:包含有害模型输出。
尽管取得了显著进步,但大型语言模型(LLMs)生成有害和不道德内容的可能性仍然构成了关键挑战。衡量LLMs的价值对齐变得对于其监管和负责任的应用至关重要。尽管已经构建了许多基准来评估LLMs中的社会偏见、毒性和伦理问题,但那些静态基准在测试时间效应方面存在问题,随着模型的迅速进化,现有基准可能会渗入训练数据或饱和,从而高估不断发展的LLMs。为了解决这一问题,我们提出了GETA,一种基于测量理论中自适应测试方法的新颖生成式发展测试方法。与依赖于静态试题库的传统自适应测试方法不同,GETA 通过动态生成针对模型能力定制的试题来探测LLMs的潜在道德边界。GETA 与LLMs共同进化,通过学习试题难度和模型价值一致性的联合分布,从而有效解决测试时间效应问题。我们使用GETA 对各种流行的LLMs进行了评估,并展示了以下结果:1) GETA 能够动态生成难度定制的试题;2) GETA 的评估结果与模型在未见过的OOD和i.i.d. 项目上的性能更为一致,为未来的评估范式奠定了基础。
arXiv:2406.10244v2 宣告类型: replace-cross
摘要:基于Transformer的模型在序列推荐系统(SRS)中获得了显著的关注,这是因为它们能够有效地捕捉用户-项目交互。然而,这些模型通常面临计算成本高和推理速度慢的问题。同时,现有的高效SRS方法在将高质量的语义和位置信息嵌入潜在表示方面也遇到困难。为了解决这些问题,本文提出了一种轻量级且高效的SRS方法GLINT-RU,它利用一个单层密集选择性门控循环单元(GRU)模块来加速推理。通过引入密集选择性门控机制,GLINT-RU 自适应地捕获时间依赖性和精细的位置信息,生成高质量的潜在表示。此外,一个并行混合法块将精细的位置特征注入用户-项目交互,提高了推荐质量和效率。在三个数据集上的大量实验表明,GLINT-RU 在预测准确性和推理速度方面均优于基于RNN、Transformer、MLP和SSM的基线方法。这些结果确立了GLINT-RU 作为SRS的一种强大而高效的解决方案的地位。
arXiv:2406.08472v3 宣布类型: 交叉替换
摘要:获取复杂行为对于人工智能代理至关重要,但在高维度环境中学习这些行为面临着巨大的挑战,因为搜索空间极为庞大。传统的强化学习(RL)需要大量的手动努力来构建奖励函数。逆强化学习(IRL)可以从专家演示中发现奖励函数,但这一过程通常耗费大量计算资源。模仿学习(IL)提供了一种更高效的替代方案,直接将代理的行为与专家演示进行比较;然而,在高维度环境中,这种直接比较提供的反馈不足,不利于有效学习。我们提出了 RILe(强化模仿学习),这是一种结合了模仿学习和逆强化学习优点的框架,能够高效地学习密集奖励函数,并在高维度任务中实现出色的表现。RILe 使用了一个新颖的训练-学生框架:训练器学习一个自适应奖励函数,而学生使用这个奖励信号来模仿专家行为。随着学生的进化,训练器动态调整其指导,为学习的不同阶段提供详细的反馈。我们的框架在直接模仿无法复制复杂行为的高维度任务中产生了高性能策略。我们验证了 RILe 在具有挑战性的机器人动力学任务中的有效性,结果显示它显著优于现有方法,并在多种设置中实现了接近专家的表现。
arXiv:2406.08411v2 通告类型: replace-cross
摘要:本研究是首批利用GPT-4开发不同类型的生成人工智能(GenAI)聊天机器人,以向佛罗里达州的黑人、西班牙裔和白人居民传达飓风准备信息的研究之一。基于计算机是社会行为者以及灾难脆弱性和文化定制相关文献的范式,我们对441名佛罗里达州的黑人、西班牙裔和白人居民进行了被试间实验。研究结果表明,具有不同语调形式和文化定制的GenAI聊天机器人对它们友好性和可信度的感知有显著影响,而这些感知又与飓风准备结果相关。这些结果突显了使用GenAI聊天机器人提高多样化社区灾害准备能力的潜力。
arXiv:2406.05754v2 宣布类型: replace-cross
摘要: 本文通过分析及相关偏微分方程的实验,研究了在对抗环境下基于专家建议的在线机器学习预测问题。这是一个涉及每步决策由$n$位专家提供的信息的两人重复博弈问题。当步骤数量很大时,该游戏的连续极限是一个退化椭圆方程,其解编码了两玩家的最优策略。我们通过利用方程和解中的对称性,发展了一种数值方法,以大幅减少计算域的规模来逼近该方程在相对高维数($n\leq 10$)上的解。根据我们的数值结果,我们提出了一些关于各种对抗策略优劣性的猜想,特别是关于COMB策略的非最优性。
arXiv:2406.05189v2 通知类型: replace-cross
摘要:本文探讨了由于COVID-19大流行导致糖尿病病例急剧增加而引发的日益严重的关注,以及随之而来的医疗资源的压力。研究旨在构建一种预测模型,以量化影响糖尿病住院患者住院时间的因素,为医院管理者提供改进患者管理策略的见解。文献回顾突出了糖尿病患病率的增加,并强调了继续关注和分析城乡在医疗服务可及性方面的差异的必要性。国际研究表明,与糖尿病相关的住院和并发症相关的经济影响和医疗负担,强调了有效管理策略的重要性。方法采用了定量方法,利用了从1999年到2008年美国医院10,000例糖尿病住院案例的数据集。利用广义线性模型(GLM)等预测建模技术,基于患者人口统计学、入院类型、医疗史和治疗方案来构建预测住院时间的模型。结果突出了年龄、医疗史和治疗方案对糖尿病住院患者住院时间的影响。尽管模型存在一些局限性,如残差分析中的异方差性和偏离正态的偏差,但研究发现为医院管理者在患者管理方面提供了宝贵的见解。本文最后提出了未来研究的建议,以解决模型局限性,并探讨预测模型对医疗管理策略的影响,确保公平的患者护理和资源分配。
arXiv:2406.04848v3 通告类型: replace-cross
摘要:训练认证鲁棒神经网络是一项重要但具有挑战性的工作。虽然提出了许多确定性认证训练的算法,但它们通常是在不同训练计划、认证方法和系统性欠调参的情况下进行评估的,使得难以比较它们的性能。为了解决这一挑战,我们引入了CTBench,这是一个统一的库和高质量的基准,用于在公平设置和系统性调优的超参数下评估所有算法。我们展示如下:(1) CTBench中的几乎所有算法在算法改进幅度上均超过了文献中报告的性能,从而建立了新的最优水平;(2) 当我们通过公平的训练计划、公平的认证方法和合适调参的超参数增强过时的基础算法时,近期算法声称的优势显著下降。基于CTBench,我们提供了对当前认证训练状态的新见解,包括:(1) 认证模型具有较少分化的损失曲面;(2) 认证模型分享许多错误;(3) 认证模型具有更稀疏的激活;(4) 聪明地减少正则化对于大半径的认证训练至关重要;(5) 认证训练有望提高分布外泛化能力。我们相信CTBench将作为未来认证训练研究中的基准和测试平台。
arXiv:2405.19317v4 公告类型: replace-cross
摘要:本文研究了固定预算最佳臂识别(BAI)中的渐近局部最小最大优化算法。我们提出了广义Neyman分配(GNA)算法,并展示了其在小差距区域下,错认最佳臂的概率的最坏情况上界与最坏情况下界完全一致。我们的下界和上界是精确匹配的,包括小差距区域内的常数项。GNA算法推广了双臂赌博机的Neyman分配(Neyman, 1934;Kaufmann等, 2016),并改进了现有的BAI算法,如Glynn & Juneja(2004)提出的算法。通过提出渐近最小最大优化算法,我们解决了BAI(Kaufmann, 2020)和治疗选择(Kasy & Sautmann, 202)中的长期开放问题,通过对分布的分类限制到小差距区域。
arXiv:2405.18731v4 宣告类型: replace-cross
摘要:最近的研究表明,在解决反散射问题(ISPs)时,将场型迭代方法与深度学习(DL)技术集成具有潜在的应用前景。本文提出了一种新型变分布林迭代网络,名为VBIM-Net,以显著提高结构合理性和反演质量来解决全波ISPs。所提出的VBIM-Net通过多层子网络模拟了变分布林迭代方法(VBIM)中总电场和对比度的交替更新。我们将在每个子网络中嵌入对比度变化的解析计算,将散射场残差转换为近似的对比度变化,然后通过U-Net增强它,从而避免现有方法中匹配测量维度和网格分辨率的要求。每个子网络输出的总场和对比度在VBIM-Net的损失函数中受到监督,对子网络中的变量施加软物理约束,这有利于模型的表现。此外,我们设计了一种额外噪声增强的训练方案以提高模型的稳定性。通过合成数据和实验数据的广泛数值结果验证了所提出的VBIM-Net的反演质量、泛化能力和鲁棒性。这项工作可能为设计高效的场型DL方案提供一些新的启示。
arXiv:2405.18065v2 任务类型: replace-cross
摘要: 视觉位置识别(VPR)任务是预测查询图像在带有地理标注的图像数据库中的位置。最近关于VPR的研究强调了使用如DINOv2这样的预训练基础模型对于VPR任务的重要优势。然而,这些模型通常被认为在没有针对VPR的特定数据进一步微调的情况下是不够的。在本文中,我们提出了一种有效的方法来利用基础模型在VPR中的潜力。我们展示了来自自注意力层提取的特征可以在零样本设置中作为强大的重排序器发挥重要作用。我们的方法不仅超越了之前的零样本方法,而且还引入了与多种监督方法竞争的结果。我们进一步展示了利用内部ViT层进行池化的单阶段方法可以生成全局特征,这些特征达到了领先水平,且特征压缩度惊人地达到了128D。此外,整合我们的局部基础特征进行重排序进一步放大了这一性能差距。我们的方法还展示了出色的鲁棒性和泛化能力,设定了新的领先性能标准,同时能够处理遮挡、昼夜转换和季节变化等具有挑战性的条件。