arXiv 论文列表

作者: Jiyoon Myung, Jihyeon Park, Jungki Son, Kyungro Lee, Joohyung Han

本文旨在解决准确翻译专业术语的挑战，专业术语对于专业领域的清晰沟通至关重要。我们引入了括号术语翻译 (PTT) 任务，旨在通过在翻译旁边以括号形式显示原始术语来减轻潜在的错误。为了实现这种方法，我们使用大型语言模型的协作方法生成了一个有代表性的 PTT 数据集，并应用知识蒸馏来微调传统的机器神经翻译 (NMT) 模型和小型大型语言模型 (sLM)。此外，我们开发了一种新颖的评估指标，用于评估整体翻译准确性和术语的正确括号表示。我们的研究结果表明，sLM 并没有始终优于 NMT 模型，微调比少样本提示更有效，特别是在目标语言持续预训练的模型中。这些见解有助于推进更可靠的术语翻译方法。

发布时间: 10/2/2024

查看原文

基于迁移学习和Transformer模型的阿拉伯字母手语识别技术

作者: Mazen Balat, Rewaa Awaad, Hend Adel, Ahmed B. Zaky, Salah A. Aly

本文提出了一种基于深度学习、迁移学习和Transformer模型的阿拉伯语字母手语识别方法。我们研究了不同变体在两个公开数据集上的性能，即ArSL2018和AASL。该任务将充分利用最先进的CNN架构，如ResNet50、MobileNetV2和EfficientNetB7，以及最新的Transformer模型，如Google ViT和Microsoft Swin Transformer。这些预训练模型已在上述数据集上进行了微调，以尝试捕捉阿拉伯语手语运动的一些独特特征。实验结果表明，所建议的方法可以获得很高的识别精度，在ArSL2018和AASL上分别达到99.6%和99.43%。这远远超过了之前报道的最先进方法。这种性能为阿拉伯语聋哑人和听障人士提供了更便捷的交流方式，从而鼓励构建一个包容性的社会。

发布时间: 10/2/2024

查看原文

机器人故障的多模态连贯解释生成

作者: Pradip Pramanick, Silvia Rossi

在社会空间中，机器人行动的可解释性对于其被接受至关重要。解释机器人为何无法完成给定任务对于非专业用户来说尤为重要，让他们了解机器人的能力和局限性。迄今为止，关于解释机器人故障的研究仅考虑生成文本解释，尽管一些研究表明多模态解释的益处。然而，简单地组合多种模态可能会导致不同模态之间信息语义不一致，这是一个尚未得到充分研究的问题。不一致的多模态解释可能难以理解，甚至可能与机器人和人类的观察结果以及他们如何对观察结果进行推理不一致。这种不一致可能会导致对机器人能力的错误结论。在本文中，我们介绍了一种通过检查来自不同模态的解释的逻辑一致性来生成连贯的多模态解释的方法，并在需要时进行细化。我们提出了一种用于一致性评估的分类方法，其中我们评估一个解释是否逻辑地遵循另一个解释。我们的实验表明，对预先训练用于识别文本蕴涵的神经网络进行微调，对于多模态解释的一致性评估效果良好。代码和数据：https://pradippramanick.github.io/coherent-explain/。

发布时间: 10/2/2024

查看原文

可解释的多利益相关者职位推荐系统

作者: Roan Schellingerhout

近年来，公众对推荐系统的看法越来越谨慎。与这一趋势相一致，立法者也开始对这类系统更加批判，导致出台了新的法律，重点关注推荐系统和人工智能的隐私、公平性和可解释性等方面。这些概念在招聘等高风险领域尤为重要。具体而言，招聘决策具有重大意义，因为其结果会对个人职业和公司成功产生重大影响。此外，需要采取多方利益相关者的方法，因为这些系统同时被求职者、招聘人员和公司使用，每个人都有其自身的要求和期望。本文总结了我目前关于可解释的多方利益相关者职位推荐系统的研究，并提出了一些未来的研究方向。

发布时间: 10/2/2024

查看原文

LASMP：基于语言辅助子集采样的运动规划器

作者: Saswati Bhattacharjee, Anirban Sinha, Chinwe Ekenna

本文介绍了基于语言辅助子集采样的运动规划器 (LASMP)，该系统通过使用自然语言指令来帮助移动机器人规划其运动。LASMP 使用了一种改进的快速探索随机树 (RRT) 方法，该方法由通过语言模型 (RoBERTa) 处理的用户提供的命令引导。该系统通过根据这些指令关注机器人工作空间的特定区域来提高效率，使其更快、更节省资源。与传统的 RRT 方法相比，LASMP 将所需的节点数量减少了 55%，并将随机样本查询减少了 80%，同时仍然生成安全、无碰撞的路径。LASMP 在模拟和真实环境中进行了测试，在处理复杂的室内场景方面表现出了更好的性能。结果突出了将语言处理与运动规划相结合以使机器人导航更有效的潜力。

发布时间: 10/2/2024

查看原文

Cafca：基于少量随意捕捉的图像生成高质量逼真表情人脸的新视角合成

作者: Marcel C. B\"uhler, Gengyan Li, Erroll Wood, Leonhard Helminger, Xu Chen, Tanmay Shah, Daoye Wang, Stephan Garbin, Sergio Orts-Escolano, Otmar Hilliges, Dmitry Lagun, J\'er\'emy Riviere, Paulo Gotardo, Thabo Beeler, Abhimitra Meka, Kripasindhu Sarkar

体积建模和神经辐射场表示彻底改变了 3D 人脸捕捉和逼真的新视角合成。然而，这些方法通常需要数百张多视角输入图像，因此不适用于输入图像少于几张的情况。我们提出了一种关于人脸的新型体积先验，它允许从野外捕获的少至三张输入视图中进行高保真表达人脸建模。我们的关键见解是，仅在合成数据上训练的隐式先验可以泛化到极具挑战性的真实世界身份和表情，并以细致的个性化细节（如皱纹和睫毛）渲染新视角。我们利用 3D 可变形人脸模型合成一个大型训练集，为每个身份渲染不同的表情、头发、服装和其他资产。然后，我们在该合成数据集上训练一个条件神经辐射场先验，并在推理时，在一个非常稀疏的单个主题真实图像集上微调模型。平均而言，微调只需要三个输入就能跨越合成到真实的域差距。最终的个性化 3D 模型重建了强烈的个性化面部表情，并且在从稀疏输入中进行高质量人脸新视角合成方面，在感知和光度质量方面都优于最先进技术。

发布时间: 10/2/2024

查看原文

几何嵌入用于高效点云配准分析

作者: Geng Li, Haozhi Cao, Mingyang Liu, Shenghai Yuan, Jianfei Yang

点云配准旨在提供估计的变换以对齐点云，这在各种导航系统的姿态估计中起着至关重要的作用，例如手术引导系统和自动驾驶汽车。尽管最近的模型在基准数据集上表现出色，但许多模型依赖于复杂的模块，如 KPConv 和 Transformer，这些模块对计算和内存提出了很高的要求。这些要求阻碍了它们在实际应用中的应用，特别是在资源受限的环境中，例如移动机器人。在本文中，我们提出了一种新颖的点云配准网络，该网络利用纯 MLP 架构，离线构建几何信息。这种方法消除了与传统复杂特征提取器相关的计算和内存负担，并显着减少了推理时间和资源消耗。我们的方法是第一个用离线构建的几何编码替换 3D 坐标输入的方法，通过最大均值差异 (MMD) 比较证明了泛化性和稳定性的提高。这种高效且准确的几何表示标志着点云分析的重大进步，特别是对于需要快速和可靠性的应用。

发布时间: 10/2/2024

查看原文

通过联合优化世界-动作模型预训练扩展离线模型的强化学习

作者: Jie Cheng, Ruixi Qiao, Gang Xiong, Qinghai Miao, Yingwei Ma, Binhua Li, Yongbin Li, Yisheng Lv

离线强化学习（RL）的一个重要目标是从大型异构数据集训练出具有高能力的通用代理。然而，现有的扩展离线RL方法要么严重依赖专家轨迹，要么难以泛化到不同的未见任务。受条件视频生成中世界模型出色泛化能力的启发，我们探索了基于图像观测的世界模型在扩展离线RL和增强新任务泛化能力方面的潜力。在本文中，我们介绍了JOWA：联合优化世界-动作模型，这是一个基于离线模型的RL代理，在多个Atari游戏中进行预训练，以学习通用表示和决策能力。我们的方法通过共享的Transformer主干联合优化世界-动作模型，这在预训练期间稳定了大型模型的时序差分学习。此外，我们提出了一种可证明高效且可并行的规划算法来补偿Q值估计误差，从而找到更好的策略。实验结果表明，我们最大的代理（拥有1.5亿个参数）仅使用10%的子采样离线数据，在预训练的游戏中达到了78.9%的人类水平性能，在平均水平上比现有的最先进的大规模离线RL基线高出31.6%。此外，JOWA在模型容量方面表现良好，并且可以使用仅5k个离线微调数据（对应于每个游戏约4个轨迹）有效地转移到新游戏，这证明了JOWA的优越泛化能力。我们将发布代码，网址为https://github.com/CJReinforce/JOWA。

发布时间: 10/2/2024

查看原文

AMR-Evol：自适应模块化响应演化，为代码生成中的大型语言模型带来更好的知识蒸馏

作者: Ziyang Luo, Xin Li, Hongzhan Lin, Jing Ma, Lidong Bing

大型语言模型（LLMs）如 GPT4 在代码生成方面取得了令人印象深刻的成果，这引发了利用知识蒸馏（例如 Code Evol-Instruct）在开源模型中复制这些能力的趋势。然而，这些努力往往忽视了响应质量这一关键方面，过度依赖教师模型进行直接响应蒸馏。这种范式，尤其对于复杂的指令，会导致合成数据质量下降，从而影响知识蒸馏过程。为此，我们的研究引入了自适应模块化响应演化 (AMR-Evol) 框架，该框架采用两阶段过程来改进响应蒸馏。第一阶段，模块化分解，将直接响应分解成更易于管理的子模块。第二阶段，自适应响应演化，使用相关功能模块自动演化响应。我们使用三个流行的代码基准（HumanEval、MBPP 和 EvalPlus）进行的实验证明了 AMR-Evol 框架优于基线响应蒸馏方法。通过与在类似数据规模上训练的开源代码 LLM 进行比较，我们观察到性能提升：HumanEval-Plus 上超过 +3.0 个点，MBPP-Plus 上超过 +1.0 个点，这突出了我们框架的有效性。我们的代码可在 https://github.com/ChiYeungLaw/AMR-Evol 获取。

发布时间: 10/2/2024

查看原文

Arges：用于内镜视频中溃疡性结肠炎严重程度评估的时空Transformer

作者: Krishna Chaitanya, Pablo F. Damasceno, Shreyas Fadnavis, Pooya Mobadersany, Chaitanya Parmar, Emily Scherer, Natalia Zemlianskaia, Lindsey Surace, Louis R. Ghanem, Oana Gabriela Cula, Tommaso Mansi, Kristopher Standish

在溃疡性结肠炎 (UC) 的内窥镜视频中准确评估疾病严重程度对于评估临床试验中药物疗效至关重要。严重程度通常通过梅奥内窥镜亚评分 (MES) 和溃疡性结肠炎内窥镜严重程度指数 (UCEIS) 评分来衡量。然而，专家 MES/UCEIS 标注耗时且容易出现评分者间差异，这些问题可以通过自动化来解决。由于临床试验中视频级标签的普遍存在，使用帧级标签的自动化尝试在完全监督的解决方案中面临挑战。基于 CNN 的弱监督模型 (WSL) 采用端到端 (e2e) 训练，缺乏对新疾病评分的泛化能力，并且忽略了对准确评分至关重要的时空信息。为了解决这些限制，我们提出了“Arges”，这是一个深度学习框架，它利用具有位置编码的 Transformer 来整合来自帧特征的时空信息，以估计内窥镜视频中的疾病严重程度评分。提取的特征来自基础模型 (ArgesFM)，该模型在来自多个临床试验的大型多样化数据集 (6100 万帧，3927 个视频) 上进行预训练。我们评估了四个 UC 疾病严重程度评分，包括 MES 和三个 UCEIS 组成部分评分。测试集评估表明，与最先进的方法相比，F1 分数显着提高，MES 提高了 4.1%，三个 UCEIS 组成部分评分分别提高了 18.8%、6.6% 和 3.8%。对以前未见过的临床试验数据的预验证进一步证明了该模型的成功泛化。

发布时间: 10/2/2024

查看原文