arXiv:2502.00094v2 宣布类型: replace-cross
摘要:在大规模语言模型(LLMs)及其演进为大规模多模态模型(LMMs)的快速发展中,英语和中文等高资源语言取得了显著进展。虽然阿拉伯语LLMs已经取得了显著的进展,但阿拉伯语LMMs仍然鲜有人涉足,通常仅聚焦于语言和视觉理解的少数具体方面。为填补这一空白,我们提出了AIN(阿拉伯包容性多模态模型),旨在全面胜任各种领域。AIN 是一种英阿双语LMM,能够在英语和阿拉伯语上表现出色,利用精心构建的360万个高质量的阿拉伯-英语多模态数据样本。AIN 在阿拉伯语方面表现出最先进的性能,同时在英语语言的视觉能力方面也表现出色。在近期包括多幅图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物病害及基于遥感的土地利用理解在内的38个子领域的CAMEL-Bench基准测试中,我们的AIN 在7B模型上表现出更强的能力,平均在8个领域和38个子领域中,绝对提升了3.4%的GPT-4o性能。AIN 的优越能力使其成为了增强阿拉伯语使用者在各种应用中使用的先进多模态生成AI工具的重要一步。
arXiv:2502.00047v2 宣布类型: 替换-交叉
摘要:神经网络中的二值和稀疏三值权重可以实现更快的计算和更轻量的表现形式,从而使其能够在计算能力有限的边缘设备上使用。与此同时,传统的RNNs对其循环权重的变化非常敏感,这使这些权重的二值化和三值化变得固有地具有挑战性。到目前为止,还没有方法成功实现了传统RNN权重的二值化或三值化。我们提出了一种新的方法,利用Hadamard矩阵的特性,对二值和稀疏三值正交矩阵的一个子集进行参数化。这种方法使得能够训练出具有二值和稀疏三值循环权重的正交RNN(ORNN),有效地创建了一类特定的二值和稀疏三值传统RNN。这些ORNN,称为HadamRNN和lock-HadamRNN,在类似的拷贝任务、 permuted和顺序MNIST任务以及IMDB数据集中进行了评估。尽管进行了二值化或稀疏三值化,这些RNN在性能水平上仍与最先进的全精度模型相当,突显了我们方法的有效性。值得注意的是,我们的方法是第一个能够处理超过1000个时间步长拷贝任务的具有二值循环权重的解决方案。
arXiv:2501.19407v2 Announce Type: replace-cross
摘要:姓氏往往传达出社会地位、财富和血统的隐含标志,以这种方式塑造着人们的感知,进而可能延续系统性偏见和代际不平等。本研究是首次探讨姓氏是否以及如何影响以AI驱动的决策,重点关注招聘建议、领导任命和贷款审批等关键领域的效果。利用来自美国和泰国的72,000份对600个姓氏的评估(这两个国家具有不同的社会历史背景和姓氏习惯),我们将名字分为四类:精英、世袭、普通以及发音相似的变异组。研究发现,精英姓氏始终在AI生成的权威、智力和财富感知方面占优势,这反过来又影响AI驱动的决策过程中的关键因素。中介分析表明,感知到的智力是姓氏偏见影响AI决策过程的关键机制。虽然在提供客观资格的同时提及姓氏可以减轻大部分这些偏见,但并不能完全消除偏见,尤其是在候选人背景不足的情况下。这些发现突显了需要公平感知算法和有力政策措施,以防止AI系统强化与姓氏相关的系统性不平等,而相对于种族和性别等更为显著的特征,这种姓氏偏见往往被忽视了。本文呼吁对算法问责制进行重新评估及其更广泛的社会影响,特别是在旨在维护公平原则的同时对抗代际特权延续的系统中。
arXiv:2501.18432v2 通告类型: replace-cross
摘要:本文提出了一种新颖的混合方法,通过利用量子计算的能力来解决实际的无人机路由问题。所提出的方法称为量子无人机路由(Q4DR),将该领域最突出的两个范式结合起来:通过 Eclipse Qrisp 编程语言实现基于量子门的计算;以及通过 D-Wave System 的设备利用量子退火。该算法分为两个不同的阶段:一个初始聚类阶段,使用量子近似优化算法(QAOA)执行,以及使用量子退火器的路由阶段。Q4DR 的有效性通过三个逐级复杂的应用案例得以展示,每个案例都融入了现实世界的约束,如非对称成本、禁止路径以及移动充电点。这项研究为日益增多的量子优化工作做出了贡献,展示了量子计算在物流和路线规划中的实际应用。
arXiv:2501.16368v2 宣告类型: replace-cross
摘要:机器学习(ML)方法已经改变了在 cyber-physical 系统(CPS)和物联网(IoT)中实现感知-认知-通信-动作循环的方式,用从数据中得出的模型替代了基于机制和基本统计模型的方法。然而,依赖标注数据进行监督学习的第一代 ML 方法在扩展到现实世界 CPS-IoT 系统中多样化的传感器模态、部署配置、应用任务和操作动态方面面临显着限制。与自然语言、计算机视觉和人类语言领域中解决类似挑战的任务通用基础模型(FMs),包括多模态大型语言模型(LLMs)的广泛使用已引发对这些模型在 CPS-IoT 分析管道中作为灵活构建块的极大兴趣,有望减少为 CPS-IoT 应用进行昂贵的任务特定工程的需求。
然而,FMs 和 LLMs 在 CPS-IoT 领域当前的能力与它们必须满足以使其成为 CPS-IoT 应用可行的需求之间仍存在显著差距。本文通过彻底分析现状和我们的研究来分析和表征这一差距,我们的研究在多个维度上超越了现状。基于我们分析和研究的结果,我们确定了 CPS-IoT 领域特定的 FMs 和 LLMs 必须满足的关键要求,以缩小这一差距。我们还提出了 CPS-IoT 研究者采取的行动,以合作开发必要的社区资源,以使 FMs 和 LLMs 成为下一代 CPS-IoT 系统的基础工具。
arXiv:2501.15877v2 通知类型: replace-cross
摘要:印度语言背景下对多样化和高质量的断句语音数据的需求日益增长。本文介绍了Project Boli项目,这是一个多语言断句语音数据集,旨在为口吃者及其技术发展提供科学理解和支持,特别是在印度。数据集包含以下内容:(a) 匿名的元数据(性别、年龄、国家、母语)以及关于口吃如何影响他们日常生活的问题问卷回答;(b) 每个参与者既包括使用彩虹段落进行的诵读语音记录,也包括通过图像描述任务收集的自发语音;(c) 包括详细的五个断句类型的注释:阻塞、延长、插入、音素重复和词重复。我们提供了对数据集的全面分析,包括数据收集过程、口吃者的生活经验总结、口吃事件严重程度评估以及收集数据的技术验证。该数据集作为开放访问发布,以促进语音技术的发展。
arXiv:2501.14940v2 安全公告类型: 替换交叉
摘要:使大型语言模型(LLMs)与人类价值观对齐对于它们的安全部署和广泛采用至关重要。当前的LLM安全基准测试通常仅关注对个别有问题查询的拒绝,而忽视了查询发生的上下文的重要性,可能会导致在安全上下文中错误地拒绝查询,从而损害用户体验。为了解决这一差距,我们引入了CASE-Bench,这是一个基于上下文的安全基准,将上下文整合到对LLM的安全评估中。CASE-Bench 根据Contextual Integrity理论为分类后的查询分配不同的、正式描述的上下文。此外,与之前的研究主要依赖少数几名注释者的多数投票不同,我们根据功效分析招聘了足够的注释者,以确保在实验条件下能够检测到统计上显著的差异。通过使用CASE-Bench 对各种开源和商用LLM进行广泛分析,我们发现上下文对人类判断有显著的影响(从Z检验中得出 p<0.0001),强调了上下文在安全评估中的必要性。我们还识别出在安全上下文中,人类判断与LLM响应之间存在值得注意的不匹配,特别是在商用模型中。
arXiv:2501.14070v2 论文类型: 交叉替换
摘要:近年来,生物识别算法和操作系统的最新成果在更具挑战性的收集环境和消费应用中提供了高准确性和鲁棒性。然而,当应用于非传统设置时,如在极端距离进行身份识别或从建筑物上的高处摄像头或安装在无人机上的摄像头中看到的情况,这项技术仍然遭受很大损失。本文总结了对目前重点关注解决这些操作挑战的最大数据集的扩展,并描述了其构成以及采集、整理和标注的方法。
arXiv:2501.13554v3 Announce Type: replace-cross
摘要:文本到图像生成模型可以从输入提示中生成高质量的图像。然而,它们在支持故事讲述中的保身份一致生成方面存在困难。解决这个问题的现有方法通常需要在大数据集上进行大量的训练或对原始模型架构进行额外的修改。这限制了它们在不同领域和多样化的扩散模型配置中的应用。在本文中,我们首先观察语言模型固有的能力,即所谓的上下文一致性,通过单个提示理解身份。受到上下文一致性的启发,我们提出了一种名为"One-Prompt-One-Story"(1Prompt1Story)的新的无需训练的方法来进行一致的文本到图像(T2I)生成。我们的方法1Prompt1Story将所有提示连接成一个输入用于T2I扩散模型,最初保留角色身份。然后,我们使用两种新的技术:奇异值重新加权和保身份跨注意力细化生成过程,确保每帧与输入描述有更好的对齐。在我们的实验中,我们将我们的方法与其他各种现有的一致的T2I生成方法进行比较,通过定量指标和定性评估来展示其有效性。代码可在https://github.com/byliutao/1Prompt1Story获取。
arXiv:2501.11613v3 公告类型: replace-cross
摘要: 本研究介绍了一种名为 Conversation Routines (CR) 的结构化提示工程框架,用于使用大规模语言模型(LLMs)开发任务导向对话系统。尽管LLMs展示了出色的自然语言理解能力,但将它们可靠地执行复杂的业务工作流仍然是一个挑战。提出的CR框架通过自然语言规范开发了Conversation Agentic Systems (CAS),将任务导向的逻辑嵌入到LLM提示中。这种方法提供了一种系统的方法来设计和实现复杂的对话工作流,同时保持行为一致性。我们通过两个概念验证实现展示了该框架的有效性:一个火车票预订系统和一个交互式故障排查副驾。这些案例研究验证了CR能够编码复杂的行为模式和决策逻辑,同时保持自然对话的灵活性。结果表明,CR使领域专家能够使用自然语言设计对话工作流,同时利用软件工程师开发的自定义函数(工具),从而在开发人员专注于核心API实现和领域专家处理对话设计之间实现高效的责任分工。尽管该框架在可访问性和适应性方面显示出潜力,但我们仍发现了关键挑战,包括计算开销、非确定性行为和领域特定逻辑的优化。未来的研究方向包括基于目标导向评分标准的提示工程框架驱动的CR评估方法,提高复杂多代理交互的可扩展性,并增强系统的鲁棒性以解决在各种商业应用中发现的限制。