arXiv 论文列表

低资源语言数据集质量评估：以土耳其语为例

作者: Ay\c{s}e Aysu Cengiz, Ahmet Kaan Sever, Elif Ecem \"Um\"utl\"u, Naime \c{S}eyma Erdem, Burak Aytan, B\"u\c{s}ra Tufan, Abdullah Topraksoy, Esra Dar{\i}c{\i}, Cagri Toraman

arXiv:2504.09714v2 宣告类型: 替换-交叉摘要：依赖于英语或多种语言资源的翻译或改编数据集引入了关于语言和文化适用性的挑战。本研究通过评估17个常用土耳其基准数据集的质量，以解决对稳健且文化适宜的基准的需求。使用一个全面的评估框架，评估六个标准，人类和LLM裁判标注者提供详细的评估，以确定数据集的优势和不足。我们的结果显示，70%的基准数据集未能达到我们的启发式质量标准。技术术语的正确使用是最强的标准，但考查的数据集中85%的标准未被满足。尽管LLM裁判显示出了潜力，但在理解文化常识知识和解释流畅、明确的文本方面，它们的效果不如人类标注者。GPT-4o 在语法和技术任务的打标能力方面更强，而Llama3.3-70B 在正确性和文化知识评估方面表现出色。我们的研究结果强调了对低资源语言的数据集创建和改编进行更严格质量控制的紧迫需求。

发布时间: 4/29/2025

查看原文

FROG：通过模态意识用户偏好在在线游戏中进行有效的朋友推荐

作者: Qiwei Wang, Dandan Lin, Wenqing Lin, Ziming Wu

arXiv:2504.09428v3 通告类型: replace-cross 摘要：由于移动设备的便捷性，网络游戏已成为现实生活中用户娱乐的重要组成部分，因此产生了在线游戏中好友推荐的需求。然而，现有方法都无法有效地将用户的多模态特征（例如，图像和文本）与友谊图中的结构信息结合起来，原因如下：（1）其中有些方法忽视了用户之间的高阶结构近邻，（2）有些方法无法在模态特定级别学习用户之间的成对相关性，（3）有些方法无法同时捕捉不同模态上的局部和全局用户偏好。为了解决这些问题，本文提出了一种端到端模型FROG，更好地建模了用户对潜在好友的偏好。在腾讯进行的离线评估和在线部署综合实验中，证明了FROG相对于现有方法的优势。

发布时间: 4/29/2025

查看原文

从 elders 学习：通过以用户为中心的设计使 LLM 动力聊天机器人更加适用于退休社区

作者: Luna Xingyu Li, Ray-yuan Chung, Feng Chen, Wenyu Zeng, Yein Jeon, Oleg Zaslavsky

arXiv:2504.08985v2 公告类型：替换交叉摘要：退休社区中的老年人在科技和eHealth素养较低，这阻碍了他们对数字工具的使用。为解决这一问题，我们采用以人为本的方法，为当地退休社区设计了一个基于LLM的聊天机器人原型。通过访谈和人物角色开发，我们将易用性和双重功能作为优先事项：简化内部信息检索并提高科技和eHealth素养。居民参与的试点试验显示了高度的满意度和易于使用性，但也指出了需要进一步改进的领域。根据反馈，我们使用GPT-3.5 Turbo和Streamlit改进了聊天机器人。聊天机器人采用了定制化提示工程技术，以简洁的方式回应。实施了可调整的字体大小、界面主题和个人化跟进响应等可访问功能。未来的步骤包括启用语音转文本功能和纵向干预研究。总的来说，我们的结果突显了基于LLM的聊天机器人在通过可访问且个性化的交互赋能老年人方面的作用，并在退休社区中弥合了素养差距。

发布时间: 4/29/2025

查看原文

通过动态数据集策展进行高效的自我监督学习以应用于地球观测

作者: Thomas Kerdreux, Alexandre Tuel, Quentin Febvre, Alexis Mouche, Bertrand Chapron

arXiv:2504.06962v2 宣告类型: replace-cross 摘要: 自监督学习(SSL)已实现地球观测(EO)领域的视觉基础模型的发展，展示了其在多种遥感任务中的强大迁移能力。尽管先前的工作主要集中在网络架构和训练策略上，但数据集策展，特别是预训练数据集的平衡和多样化，依然未被充分探索。在EO领域，由于卫星图像中常见的冗余性和重尾分布，这一挑战被放大，可能导致偏见的表示和低效的训练。在这项工作中，我们提出了一种动态数据集修剪策略，旨在通过最大化数据集多样性和平衡来改进SSL预训练。我们的方法迭代优化训练集，而无需预先存在的特征提取器，使其适用于受限或不可用的策展数据集的领域。我们在Sentinel-1 波模式(WV)合成孔径雷达(SAR)档案上展示了我们的方法，这是一个以海洋观测为主的具有挑战性的数据集。我们从头开始使用整个Sentinel-1 WV档案训练模型，跨度为10年。在三个下游任务中，我们的结果显示动态修剪提高了计算效率和表示质量，从而增强了迁移能力。我们还在github.com/galeio-research/OceanSAR-models/上发布了OceanSAR-1的权重，这是OceanSAR系列的第一个模型，该系列使用SAR图像进行海洋观测和分析的基础模型。

发布时间: 4/29/2025

查看原文

persona动态：揭示个性特质对文本基于游戏中的代理的影响

作者: Seungwon Lim, Seungbeen Lee, Dongjun Min, Youngjae Yu

arXiv:2504.06868v3 宣告类型: replace-cross 摘要：人工智能代理在复杂交互和决策任务中越来越居于核心地位，但将其实现的行为与期望的人类价值观对齐仍然是一个开放的挑战。在本文中，我们探讨了人类个性特征如何影响代理在基于文本的交互环境中行为和表现。我们提出了一种新颖的方法PANDA（个性适配神经决策代理），该方法将人类个性特征投影到代理上，以引导其行为。为了在基于文本的游戏代理中诱导个性特征，（i）我们训练了一个个性分类器，以确定代理行为展现出的个性类型，（ii）将个性特征直接集成到代理的策略学习管道中。通过在25个基于文本的游戏上部署16种不同的个性类型代理并分析其轨迹，我们证明了代理的动作决策可以被引导至特定的个性特征。此外，某些个性类型，如开放性水平较高的类型，在表现上显示出明显的优越性。这些发现强调了适配个性的代理在促进更对齐、更有效和以人为中心的交互环境中决策方面的重要潜力。

发布时间: 4/29/2025

查看原文

基于符合风险控制的医学实例分割中错误发现率的统计管理

作者: Mengxia Dai, Wenqian Luo, Tianyang Li

arXiv:2504.04482v2 宣告类型: replace-cross 摘要：实例分割在医学图像分析中起到了关键作用，它能实现对病变、肿瘤和解剖结构的精确定位和轮廓化。尽管像Mask R-CNN和BlendMask这样的深度学习模型取得了显著进展，但在高风险医疗场景中的应用仍受到置信度校准问题的限制，这可能导致误诊。为解决这一挑战，我们提出了一个基于 conformity 预测理论的稳健质量控制框架。该框架创新性地构建了一个风险意识动态阈值机制，根据临床需求动态调整分割决策边界。具体而言，我们设计了一个**风险意识损失函数**，该函数根据用户定义的风险水平 $\alpha$ 动态调整分割阈值。利用交换样本的校准数据，该方法确保测试数据上的预期 FNR 或 FDR 低于 $\alpha$ 的概率很高。该框架与主流分割模型（如Mask R-CNN、BlendMask+ResNet-50-FPN）和数据集（如PASCAL VOC格式）兼容，无需对架构进行修改。实验证明，通过我们开发的校准框架，我们可以严格限制测试集FDR指标的边际上限。

发布时间: 4/29/2025

查看原文

revisiting outage for edge inference systems

作者: Zhanwei Wang, Qunsong Zeng, Haotian Zheng, Kaibin Huang

arXiv:2504.03686v2 宣布类型: 替换-交叉摘要：第六代（6G）移动网络的关键任务之一是在网络边缘部署大规模的人工智能（AI）模型，以提供边缘设备的远程推理服务。由此形成的平台称为边缘推理，将支持广泛的应用场景，如自动驾驶、工业自动化和增强现实。鉴于这些任务的关键性和时间敏感性，设计既可靠又能满足严格的端到端（E2E）延迟约束的边缘推理系统至关重要。现有研究主要侧重于由信道中断概率表征的通信可靠性，可能无法保证E2E性能，特别是在E2E推理准确性和延迟方面。为解决这一局限性，我们提出了一种理论框架，引入并数学地表征了推理中断（InfOut）概率，该概率量化了E2E推理准确率低于目标阈值的可能性。在E2E延迟约束下，该框架建立了通信开销（即上传更多的传感器观测）与由InfOut概率表征的推理可靠性之间的基本权衡。为了找到优化这种权衡的可实现方法，我们通过应用高斯近似到接收判别增益分布来推导出InfOut概率的精确替代函数。实验结果表明，从E2E推理可靠性角度来看，所提出的方案优于传统的以通信为中心的方法。

发布时间: 4/29/2025

查看原文

SCMPPI：监督对比多模态框架，用于预测蛋白质-蛋白质相互作用

作者: Shengrui XU, Tianchi Lu, Zikun Wang, Jixiu Zhai

arXiv:2504.02698v3 通知类型: replace-cross 摘要：蛋白质-蛋白质相互作用（PPI）预测在解析细胞功能和疾病机制中起着关键作用。为了解决传统实验方法和现有计算方法在跨模态特征融合和假阴性抑制方面的局限性，我们提出了一种新的监督对比多模态框架——SCMPPI。通过有效整合基于序列的特征（AAC、DPC、ESMC-CKSAAP）与网络拓扑（Node2Vec嵌入），并结合改进的对比学习策略与负样本过滤，SCMPPI实现了卓越的预测性能。在八个基准数据集上的广泛实验显示了其最先进的准确率（98.13%）和AUC（99.69%），以及出色的跨物种泛化能力（AUC>99%）。在CD9网络、Wnt途径分析及癌症特异性网络中的成功应用进一步突显了其在疾病靶标发现中的潜力，确立了SCMPPI作为多模态生物数据分析的强大工具的地位。

发布时间: 4/29/2025

查看原文

CHARMS：自动驾驶中推理与运动风格化的认知层次代理

作者: Jingyi Wang, Duanfeng Chu, Zejian Deng, Liping Lu, Jinxiang Wang, Chen Sun

arXiv:2504.02450v3 公告类型：替换交叉摘要：为了解决自动驾驶决策中互动不足和行为多样性不足的挑战，本文提出了一种认知分层代理用于推理与运动风格化（CHARMS）。通过利用 Level-k 游戏理论，CHARMS 通过包含强化学习预训练和监督微调的两阶段训练管道，捕捉到类似人类的推理模式。这使生成的模型能够表现出多样性和类似人类的行为，增强了其在复杂交通环境中的决策能力和交互准确性。在此基础上，我们进一步开发了一种场景生成框架，利用泊松认知层次理论通过泊松和二项式抽样控制不同类型驾驶风格的车辆分布。实验结果表明，CHARMS 能够作为自私车辆做出智能驾驶决策，并作为环境车辆生成多样且真实的驾驶场景。CHARMS 的代码发布在 https://github.com/chuduanfeng/CHARMS。

发布时间: 4/29/2025

查看原文

GAL-MAD：利用图注意力网络进行可解释的微服务应用程序异常检测

作者: Lahiru Akmeemana, Chamodya Attanayake, Husni Faiz, Sandareka Wickramanayake

arXiv:2504.00058v2 通告类型: replace-cross 摘要：向微服务的过渡彻底改变了软件架构，提供了更好的可扩展性和模块性。然而，微服务的分布式和动态特性带来了确保系统可靠性的复杂性，使得异常检测对于保持性能和功能至关重要。源自网络和性能问题的异常必须迅速地被识别和处理。现有的异常检测技术往往依赖于统计模型或机器学习方法，这些方法在处理微服务应用中存在的高维和相互依赖的数据时存在困难。当前的技术和可用的数据集主要集中在系统跟踪和日志上，限制了它们支持高级检测模型的能力。本文通过引入使用开源RobotShop微服务应用生成的RS-Anomic数据集来弥补这些差距。该数据集在正常和异常状态下捕捉了多变量性能指标和响应时间，涵盖了十种类型的异常。我们提出了一种名为Graph Attention and LSTM-based Microservice Anomaly Detection (GAL-MAD)的新异常检测模型，利用Graph Attention和Long Short-Term Memory架构来捕捉微服务中的空间和时间依赖性。我们利用SHAP值来定位异常常常的服务并识别根本原因，以提高解释性。实验结果表明，GAL-MAD在RS-Anomic数据集上优于最先进的模型，能够在不同异常率下实现更高的准确率和召回率。这些解释为服务异常提供了可操作的洞察，对系统管理员有益。

发布时间: 4/29/2025

查看原文