arXiv 论文列表

有感知能力的代理作为裁判：评估大型语言模型的高阶社会认知能力

作者: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li

arXiv:2505.02847v2 宣告类型: replace-cross 摘要：评估大型语言模型（LLM）是否真正理解人类，而不仅仅是文本，仍然是一个开放的挑战。为了解决这一差距，我们引入了“智能代理作为评判者”（SAGE）自动化评估框架，用于衡量LLM的高级社会认知能力。SAGE 实例化了一个模拟人类情感变化和互动中内心想法的智能代理，提供了在多轮对话中更真实的测试模型评估。每一轮，代理都会推理关于（i）其情绪如何变化，（ii）其感觉如何，以及（iii）应该如何回复，从而产生一个数值化的情绪轨迹和可解释的内心想法。在100个支持性对话情景上的实验表明，最终的智能体情绪评分与Barrett-Lennard关系量表（BLRI）评分及相关语句级别同理心指标高度相关，验证了心理忠实度。我们还构建了一个公共智能体排行榜，涵盖了18个商业和开源模型，揭示了前沿系统（GPT-4o-Latest, Gemini2.5-Pro）与早期基准之间较大的差距（多达4倍），而这些差距并未反映在传统的排行榜上（例如Arena）。因此，SAGE 提供了一个原理上合理、可扩展且可解释的工具，用于跟踪朝向真正具有同理心和社会适应能力的语言代理的进步。

发布时间: 5/12/2025

查看原文

比列克 v3 小：技术报告

作者: Krzysztof Ociepa, {\L}ukasz Flis, Remigiusz Kinas, Krzysztof Wr\'obel, Adrian Gwo\'zdziej

arXiv:2505.02550v2 声称类型: replace-cross 摘要：我们引入了Bielik v3，这是一种针对波兰语处理进行优化的参数高效生成文本模型（15亿和45亿参数版本）。这些模型表明，较小且优化良好的架构可以在所需的计算资源大幅减少的情况下，达到与更大模型相当的性能。我们的方法包含几个关键创新：一种自定义的波兰语分词器（APT4），可以显著提高标记效率；加权指令交叉熵损失，用于平衡不同类型指令的学习；以及自适应学习率，根据训练进度动态调整。这些模型在包含2920亿个标记、跨越3亿3030万份文档的精心编纂语料库上进行训练，它们在多个基准测试中表现出色，包括Open PL LLM Leaderboard、复杂波兰文本理解基准、Polish EQ-Bench 和 Polish Medical Leaderboard。45亿参数模型的性能与2-3倍大的模型相当，而15亿参数模型即使在其极为紧凑的配置下也能展现出强大的性能。这些进步为较少代表的语言建立了新的参数高效语言建模基准，使得资源受限的应用程序能够更便捷地应用高质量的波兰语言AI技术。

发布时间: 5/12/2025

查看原文

Bielik 11B v2 技术报告

作者: Krzysztof Ociepa, {\L}ukasz Flis, Krzysztof Wr\'obel, Adrian Gwo\'zdziej, Remigiusz Kinas

arXiv:2505.02410v2 宣告类型: 替换-交叉摘要：我们介绍了Bielik 11B v2，这是一种针对波兰语文本处理优化的最先进的语言模型。该模型基于Mistral 7B v0.2架构，并通过深度扩展扩展到11B参数，展示了在波兰语基准测试中的出色性能，同时保持了强大的跨语言能力。我们引入了两项关键技术创新：加权指令交叉熵损失，通过为训练示例分配基于质量的权重来优化不同指令类型的学习；自适应学习率，根据上下文长度动态调整。跨多个基准的全面评估表明，Bielik 11B v2在多个任务中表现出色，优于许多更大规模的模型（包括参数多2-6倍的模型），并在从语言理解到复杂推理的多项任务上显著超过了其他专门针对波兰语的模型。该模型的参数效率和广泛的量化选项使其能够在不同的硬件配置中部署，提升了波兰语言人工智能的能力，并为少代表性语言的资源高效语言建模设立了新的基准。

发布时间: 5/12/2025

查看原文

增强AI面部真实性：通过使用全合成数据集在提炼扩散模型中的成本效率质量提升

作者: Jakub Wasala, Bartlomiej Wrzalski, Kornelia Noculak, Yuliia Tarasenko, Oliwer Krupa, Jan Kocon, Grzegorz Chodak

arXiv:2505.02255v2 通告类型: 交叉替换摘要：本研究提出了一种增强图像生成于扩散模型中的成本与质量比的新方法。我们假设蒸馏模型（例如，FLUX.1-schnell）与基础模型（例如，FLUX.1-dev）之间的差异是一致的，因此可以在特定领域（如肖像生成）进行学习。我们生成了一个合成配对数据集，并训练了一个快速的图像到图像翻译头部。使用低质量与高质量的合成图像两组数据，我们的模型被训练以将蒸馏生成器（例如，FLUX.1-schnell）的输出优化到与基础模型（例如，FLUX.1-dev）相媲美的水平。FLUX.1-dev模型更为计算密集。我们的结果显示，结合了大生成模型蒸馏版本和我们增强层的流水线，与基础版本相比，计算成本最多可以降低82%，生成具有相似照片真实度的肖像。本研究展示了在大规模图像生成涉及的AI解决方案中提高效率的潜在可能性。

发布时间: 5/12/2025

查看原文

多维资源空间模型的子空间聚合查询与索引生成

作者: Xiaoping Sun, Hai Zhuge

arXiv:2505.02129v2 宣告类型: replace-cross 摘要: 在多维分类空间中组织资源是一种高效管理与查询大规模资源的方法。本文在每个维度的部分顺序坐标树上定义了一个子空间，通过部分顺序关系在点上聚合资源，使得子空间内每个点的聚合资源可以被测量、排名和选择。为了高效地定位大型子空间中的非空点，提出了一种生成图索引的方法，通过在坐标维度的部分顺序关系之间建立包含关系链接，使得子空间查询可以通过遵循索引链接并沿索引路径反向聚合资源回到其超点来达到非空点。由于索引节点的子节点数量可能非常大，生成这种索引的成本很高，使得索引节点的总数不受限。所提出的方法采用了以下策略来降低成本：（1）在两个索引节点之间添加交集链接，这可以更好地减少查询处理成本，同时控制图索引中的节点数；（2）根据用于估算两个节点之间添加交集成本的概率分布，在两个节点之间添加交集链接；（3）通过在不同维度的坐标之间拆分坐标，平衡索引节点持有的资源数量；和（4）在坐标树的兄弟坐标之间添加捷径链接，以对线性顺序坐标进行高效查询。分析和实验验证了生成的索引对支持子空间聚合查询的有效性。该工作对基于多维分类的数据模型的发展做出了重要贡献。

发布时间: 5/12/2025

查看原文

行星作为大脑：基于AIOS服务器的代理站点互联网探索

作者: Xiang Zhang, Yongfeng Zhang

arXiv:2504.14411v3 宣告类型: replace-cross 摘要：互联网正在经历从“网站互联网”到“代理站点互联网”的历史性转变。虽然传统的网站为信息托管和传播提供了基础，一个新的前沿领域正在出现，其中代理站点成为互联网的枢纽，每个代理站点托管一个或多个AI代理，接受任务，解决问题，并提供可执行的解决方案，标志着数字景观的重大转变，并代表了下一代在线生态系统。根据这一愿景，AIOS（AI代理操作系统）作为开发、部署和执行AI代理的服务器，是代理站点互联网的基础基础设施。在本文中，我们介绍了AIOS Server，这是一个运行时框架，用于托管代理并使分散代理之间的全球规模协作成为可能。AIOS Server提供了一种基于Model Context Protocol (MCP)和JSON-RPC的通信协议，以实现代理-代理或人-代理的交互。每个AIOS节点作为一个服务器来托管和执行代理，支持点对点协调，而不依赖于集中式编排。基于AIOS Server，我们进一步介绍了世界上首个实际部署的代理站点互联网（AIOS-IoA），包括代理Hub进行代理注册和发现，以及代理Chat进行交互式通信，详情请访问https://planet.aios.foundation。基于分布式哈希表（DHT）和Gossip协议的代理发现机制充当代理站点互联网的搜索引擎。这项工作为构建代理站点互联网提供了实用的基础——在这个新范式中，自主代理成为网络中的头等公民。实现详情可用在https://github.com/agiresearch/AIOS.Server，并已集成到AIOS主分支https://github.com/agiresearch/AIOS中。

发布时间: 5/12/2025

查看原文

隐私保护的联邦学习自动评分在教育研究中的应用

作者: Ehsan Latif, Xiaoming Zhai

arXiv:2503.11711v2 宣布类型: replace-cross 摘要：数据隐私仍然是教育研究中的一个重要关切，需要严格遵守伦理标准和监管程序。虽然传统方法依赖于匿名化和集中式数据收集，但它们往往将敏感的学生数据暴露给安全漏洞，并且产生了巨大的物流负担。在本研究中，我们提出了一种联邦学习（FL）框架，用于自动化教育评估评分，从而消除在各机构之间共享敏感数据的需要。我们的方法利用低秩适应（LoRA）高效参数微调大规模语言模型（LLMs），使每个客户端（学校）能够本地训练模型，而只需共享优化的模型更新。为解决数据异质性问题，我们实现了一种适应加权聚合策略，该策略综合考虑了客户端性能和数据量。我们使用九所中学的NGSS对齐的多标签科学评估数据，将我们的模型与两种最先进的FL方法和集中式学习基线进行了对比测试。结果显示，我们的模型在FL方法中的准确率最高（94.5%），在这些指标上与集中式模型的差距在0.5-1.0个百分点之间。此外，它在评分标准级别上达到了相当准确的评分准确率，标尺匹配差异仅为1.3%，并且具有较低的得分偏差（MAE），这突显了它在保持预测质量和可解释性方面的效果。

发布时间: 5/12/2025

查看原文

连接法律知识与AI：基于向量存储、知识图谱和层次非负矩阵分解的检索增强生成

作者: Ryan C. Barron, Maksim E. Eren, Olga M. Serafimova, Cynthia Matuszek, Boian S. Alexandrov

arXiv:2502.20364v2 宣布类型: replace-cross 摘要：由大型语言模型（LLMs）驱动的检索增强生成（RAG）、知识图（KGs）和向量存储（VSs）支持的代理生成人工智能，代表了一种变革性的技术，适用于专门的领域，如法律系统、研究、推荐系统、网络安全以及全球安全，包括扩散研究。该技术在推断大量非结构化或半结构化数据集中的关系方面表现出色。这里所提到的法律领域包括复杂的数据，这些数据具有广泛的、相互关联的和半结构化的知识系统，具有复杂的关系。它包括宪法、法典、法规和判例法。从中抽取见解并导航法律文件及其复杂关系的错综网络对于有效的法律研究至关重要。在这里，我们介绍了一个集成RAG、VS和KG的生成AI系统，通过非负矩阵分解（NMF）构建，旨在增强法律信息检索和AI推理，减少幻觉。在法律系统中，这些技术使AI代理能够识别和分析案例、法典和法律先例之间的复杂联系，揭示隐藏关系并预测法律趋势——这些都是确保正义和提高操作效率所必需的关键任务。该系统采用网络爬虫技术系统地从Justia等公共可访问平台收集法律法规文本，如法典、宪法规定和判例法，解决了传统基于关键词的搜索与上下文理解之间的差距，利用先进的语义表示、层次关系和潜在主题发现。该框架支持法律文件聚类、摘要和跨参考，实现半结构化数据的大规模、可解释和准确检索，从而推动计算法和AI的发展。

发布时间: 5/12/2025

查看原文

MERGE³：在消费级GPU上高效进化合并

作者: Tommaso Mencattini, Adrian Robert Minut, Donato Crisostomi, Andrea Santilli, Emanuele Rodol\`a

arXiv:2502.10436v4 宣告类型: replace-cross 摘要：进化模型合并能够创建高性能多任务模型，但对消费级硬件来说仍然是计算上不可行的。我们引入了MERGE$^3$，这是一种高效的框架，通过将适应度计算成本降低50倍来使进化合并能够在单个GPU上实现，同时保持性能。MERGE$^3$通过提取评估用的减少数据集、使用项目反应理论(IRT)估计模型能力、以及使用基于IRT的性能估算器进行进化最优合并来实现这一目标。我们的方法能够实现最先进的多语言和跨语言合并，以显著较低的计算开销在语言之间转移知识。我们提供了理论保证并开源了一个库，使高质量模型合并更加普及。

发布时间: 5/12/2025

查看原文

实例分割中的通用类发现

作者: Cuong Manh Hoang, Yeejin Lee, Byeongkeun Kang

arXiv:2502.08149v2 公告类型：替换-交叉摘要：本文解决了实例分割中的泛化类发现（GCD）任务。目标是在给定标记和未标记数据的情况下，发现新类别并获得一种能够分割已知类别和新类别实例的模型。由于现实世界中存在大量长尾分布的对象，每个类别的实例分布本质上是不平衡的。为了解决这些不平衡分布的问题，我们提出了一种用于对比学习的实例级别温度分配（ITA）方法和一种用于伪标签的类别级别可靠性标准。ITA方法对属于头部类别的样本放松实例区分，以增强GCD。可靠性标准在使用从GCD获得的伪标签训练实例分割网络时，避免在尾部类别中排除大部分伪标签。此外，我们提出动态调整这些标准，在早期阶段利用多样化样本，而在后期阶段仅依赖可靠的伪标签。我们还引入了高效的软关注模块，用于为GCD编码对象特定的表示。最后，我们通过在两个设置上进行实验对提出的模型进行了评估：COCO_half + LVIS 和 LVIS + Visual Genome。实验结果表明，所提出的方法优于之前的最先进的方法。

发布时间: 5/12/2025

查看原文