arXiv 论文列表

作者: Jiawen Kang, Dongrui Han, Lingwei Meng, Jingyan Zhou, Jinchao Li, Xixin Wu, Helen Meng

阿尔茨海默病（AD）检测已成为一个很有前景的研究领域，它利用机器学习分类模型来区分患有 AD 的个体和没有患有 AD 的个体。与传统的分类任务不同，我们发现类内差异是 AD 检测中的一个关键挑战：患有 AD 的个体表现出认知障碍的谱系。鉴于许多 AD 检测任务缺乏细粒度的标签，简单的二元分类可能会忽略两个关键方面：类内差异和实例级不平衡。前者迫使模型将具有不同程度损害的 AD 样本映射到单个诊断标签，而忽略了认知功能的某些变化。而后者使模型偏向于过分表示的严重程度。这项工作提出了解决这些挑战的早期努力。我们提出了两种新方法：软目标蒸馏 (SoTD) 和实例级重新平衡 (InRe)，分别针对两个问题。在 ADReSS 和 ADReSSo 数据集上的实验表明，所提出的方法显着提高了检测精度。进一步的分析表明，SoTD 有效地利用了多个组件模型的优势，而 InRe 大大减轻了模型过拟合。这些发现为开发更健壮、更可靠的 AD 检测模型提供了见解。

发布时间: 9/26/2024

查看原文

基于 Himawari-8 卫星影像和深度学习模型开发泰国太阳辐射图

作者: Suwichaya Suwanwimolkul, Natanon Tongamrak, Nuttamon Thungka, Naebboon Hoonchareon, Jitkomut Songsiri

本文介绍了一个在线平台，每 30 分钟更新一次泰国太阳辐照度地图，该平台可在 https://www.cusolarforecast.com 访问。该平台使用从 Himawari-8 卫星图像中提取的云指数、具有局部调整的 Linke 浑浊度的 Ineichen 晴空模型以及机器学习模型来估算泰国全天空太阳辐照度 (GHI)。该方法将晴空辐照度、云指数、MERRA-2 数据库中重新分析的 GHI 和温度数据以及日期时间作为 GHI 估算模型的输入，这些模型包括 LightGBM、LSTM、Informer 和 Transformer。这些模型通过评估 2022-2023 年间 53 个地面站 1.5 年的 15 分钟地面 GHI 数据，与 SolCast 服务的估算结果进行了比较。结果表明，这四种模型具有竞争力，并且优于 SolCast 服务。最佳模型是 LightGBM，其 MAE 为 78.58 W/sqm，RMSE 为 118.97 W/sqm。获取泰国重新分析的 MERRA-2 数据在部署方面并不经济可行。当删除这些特征时，Informer 模型在 MAE 上表现最佳，为 78.67 W/sqm。所获得的性能与现有文献一致，考虑了气候带和数据的时序粒度。由于该地图显示了覆盖 93,000 个网格的 GHI 估算值，并且频繁更新，本文还描述了一个用于显示整个地图的计算框架。它测试了 GHI 估算过程中深度学习模型的运行时性能。

发布时间: 9/26/2024

查看原文

乌尔都语关键词识别技术文献综述

作者: Syed Muhammad Aqdas Rizvi

这篇文献综述回顾了关键词识别 (KWS) 技术的进展，特别关注乌尔都语，这是巴基斯坦的一种低资源语言 (LRL)，具有复杂的语音学特征。尽管语音技术在全球范围内取得了长足进步，但乌尔都语提出了独特的挑战，需要更量身定制的解决方案。综述追踪了从基础的高斯混合模型到复杂的神经网络架构（如深度神经网络和 Transformer）的演变，突出了重要的里程碑，如整合多任务学习和利用未标记数据的自监督方法。它考察了新兴技术在多语言和资源受限环境中提高 KWS 系统性能方面的作用，强调了需要针对乌尔都语等语言的创新。因此，本综述强调了针对乌尔都语和类似 URL 的固有复杂性进行特定于上下文的研究所需，以及通过此类语言进行交流的地区采取更具包容性的语音技术方法。

发布时间: 9/26/2024

查看原文

地表太阳辐射：人工智能卫星反演优于 Heliosat 且在其他气候带具有良好泛化性

作者: K. R. Schuurman, A. Meyer

准确估计地表太阳辐射 (SSI) 对太阳能资源评估以及电网整合和建筑控制应用中的太阳能预测至关重要。可以从静止轨道卫星（如 Meteosat）获取空间扩展区域的 SSI 估计值。传统的 SSI 卫星反演方法，如 Heliosat，依赖于物理辐射传输模型。我们介绍了第一个基于机器学习的瞬时 SSI 卫星反演方法，并证明了它能够在整个欧洲范围内提供准确且可推广的 SSI 估计值。我们的深度学习反演方法基于对 Heliosat 的数据驱动模拟以及在热辐射计网络上的微调，提供近实时 SSI 估计值。通过包含来自地面站的 SSI，我们的 SSI 反演模型可以超越 Heliosat 的精度，并在多云条件下（晴空指数 < 0.8）很好地推广到具有其他气候和地表反照率的区域。我们还表明，从 Heliosat 反演的 SSI 在山区存在较大偏差，并且在来自地面站的 SSI 数据上训练和微调我们的反演模型可以有效地减少这些偏差，优于 Heliosat。此外，我们量化了 Meteosat 通道和其他预测变量（如太阳天顶角）对于我们的深度学习 SSI 反演模型在不同云条件下的精度的相对重要性。我们发现，在多云条件下，多个近红外和红外通道可以提高性能。我们的结果可以促进更准确的地表太阳辐射卫星反演模型的开发。

发布时间: 9/26/2024

查看原文

语义对齐的脑电图到文本翻译

作者: Yitian Tao, Yan Liang, Luoyu Wang, Yongqing Li, Qing Yang, Han Zhang

将神经生理信号解码为语言是脑机接口（BCI）应用中的一个重要研究方向。脑电图（EEG）以其非侵入性、易用性和成本效益而闻名，已成为该领域的一种流行方法。然而，现有的EEG-to-Text解码方法面临着巨大的挑战，包括 EEG 记录和原始文本之间的巨大领域差距、固有的数据偏差以及小的封闭词汇量。在本文中，我们提出了 SEE：语义对齐的 EEG-to-Text 翻译，这是一种旨在改进 EEG-to-Text 解码的新方法，它将两个模块无缝地集成到预训练的 BART 语言模型中。这两个模块包括：（1）跨模态码本，它学习跨模态表示以增强特征整合并减轻领域差距，以及（2）语义匹配模块，它充分利用预训练的文本表示来对从 EEG-Text 对中提取的多模态特征进行对齐，同时考虑由假阴性引起的噪声，即来自具有相似语义意义的不同 EEG-Text 对的数据。在苏黎世认知语言处理语料库 (ZuCo) 上的实验结果证明了 SEE 的有效性，它增强了准确的 EEG-to-Text 解码的可行性。

发布时间: 9/26/2024

查看原文

DeepScore：一种全面的 AI 生成临床文档质量评估方法

作者: Jon Oleson

生成式人工智能解决方案正被医疗从业者快速采用，用于临床文档，这带来了显著的时间节省和减轻了压力。然而，评估人工智能生成文档的质量是一个复杂且持续的挑战。本文概述了 DeepScribe 用于评估和管理笔记质量的方法，重点介绍了各种指标和综合“DeepScore”，这是一个关于质量和准确性的总体指数。这些方法旨在通过问责制和持续改进来提高患者护理文档的质量。

发布时间: 9/26/2024

查看原文

超智能体：解决大规模编码任务的通用软件工程智能体

作者: Huy Nhat Phan, Phong X. Nguyen, Nghi D. Q. Bui

大型语言模型 (LLM) 彻底改变了软件工程 (SE)，在各种编码任务中展现出非凡的能力。虽然最近的努力已经产生了基于 LLM 的自主软件代理，用于端到端的开发任务，但这些系统通常针对特定的 SE 任务而设计。我们介绍了 HyperAgent，这是一种新型的通用多代理系统，旨在通过模仿人类开发人员的工作流程来解决跨不同编程语言的广泛 SE 任务。HyperAgent 包含四个专门的代理——规划器、导航器、代码编辑器和执行器。HyperAgent 管理 SE 任务的整个生命周期，从最初的概念到最终的验证。通过广泛的评估，HyperAgent 在各种 SE 任务中实现了最先进的性能：它在 SWE-Bench-Lite 上的 GitHub 问题解决方面获得了 25.01% 的成功率，在 SWE-Bench-Verified 上获得了 31.40% 的成功率，超过了现有方法。此外，HyperAgent 在仓库级代码生成 (RepoExec) 以及故障定位和程序修复 (Defects4J) 中展示了 SOTA 性能，通常优于专门的系统。这项工作代表了朝着能够处理各种领域和语言中的复杂多步骤 SE 任务的通用自主代理迈出的重要一步，有可能改变 AI 辅助软件开发实践。

发布时间: 9/26/2024

查看原文

基于对齐重要性热图解释人类比较

作者: Nhut Truong, Dario Pesenti, Uri Hasson

我们提出了一种基于深度视觉模型的 Alignment Importance Score (AIS) 热图的计算可解释性方法，用于人类比较任务。AIS 反映了特征图对深度神经网络 (DNN) 表示几何与人类表示几何之间对齐的独特贡献。我们首先通过展示在构建表示时仅使用从训练集中识别的较高 AIS 分数特征图，可以改善对样本外人类相似性判断的预测，从而验证了 AIS。然后，我们计算特定于图像的热图，这些热图直观地指示与具有较高 AIS 分数的特征图相对应的区域。这些地图提供了直观的解释，说明在将图像与队列中的其他图像进行比较时，哪些图像区域更重要。我们观察到这些热图与注视预测模型生成的显著性图之间存在对应关系。然而，在某些情况下，会产生有意义的差异，因为与比较相关的维度并不一定是视觉上最显著的。总之，Alignment Importance 提高了从 DNN 嵌入中预测人类相似性判断的能力，并提供了对图像空间中相关信息的解释性见解。

发布时间: 9/26/2024

查看原文

超越跟随：将主动性融入计算创造力

作者: Zhiyu Lin, Upol Ehsan, Rohan Agarwal, Samihan Dani, Vidushi Vashishth, Mark Riedl

生成式人工智能 (AI) 在程序化内容生成 (PCG) 领域中，当人类创作者独自驱动并承担生成过程的责任时，会遇到效率和公平方面的局限性。混合主动协同创作 (MI-CC) 系统等替代方案展现出其潜力。然而，主动混合主动系统中 AI 在遵循之外发挥作用的潜力尚未得到充分研究。本研究调查了主动且学习的 AI 智能体自适应能力对创作者在 MI-CC 环境中对创造性责任的预期影响。我们构建并研究了一个系统，该系统采用强化学习 (RL) 方法来学习人类用户在在线交互过程中的创造性责任偏好。在故事协同创作中，我们开发了一个多臂老虎机智能体，该智能体从人类创作者那里学习，更新其协作决策信念，并在 MI-CC 体验过程中切换其能力。39 名参与者参加了人类主体研究，我们开发的系统的学习能力与非学习消融相比得到了很好的认可，这对应于 MI-CC 体验的整体满意度显著提高。这些发现表明，有效的 MI-CC 协作交互，特别是主动 AI 举措的实施，与所有参与者之间更深入的理解之间存在牢固的关联。

发布时间: 9/26/2024

查看原文

将每个应用程序转变为智能体：面向 API 首席的基于大型语言模型的智能体的有效人机交互

作者: Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

多模态大型语言模型（MLLM）使基于LLM的代理能够直接与应用程序用户界面（UI）交互，从而提高代理在复杂任务中的性能。然而，由于大量的顺序式UI交互，这些代理通常会遇到高延迟和低可靠性的问题。为了解决这个问题，我们提出了AXIS，一个基于LLM的代理框架，该框架优先通过应用程序编程接口（API）执行操作，而不是UI操作。该框架还通过自动探索应用程序来促进API的创建和扩展。我们在Office Word上的实验表明，AXIS将任务完成时间缩短了65%-70%，将认知工作量减少了38%-53%，同时保持了97%-98%的准确率，与人类相当。我们的工作为LLM时代的人机交互（HACI）框架和应用程序提供商的新UI设计原则做出了贡献。它还探索了将每个应用程序转变为代理的可能性，为面向代理的操作系统（Agent OS）铺平了道路。

发布时间: 9/26/2024

查看原文