arXiv 论文列表

作者: Jacques Savoy

近期，一些大型语言模型（LLM）展现了其根据用户请求生成消息的能力。这一科学突破带来了新的视角，但也引发了一些担忧。本研究的主要目标是通过将ChatGPT 3.5生成的消息与近期美国总统的讲话进行比较，来分析其书写风格。为实现这一目标，我们将里根到奥巴马的国情咨文与ChatGPT自动生成的讲话进行比较。我们发现，ChatGPT倾向于过度使用词素“we”，以及名词和逗号。另一方面，生成的演讲使用了较少的动词，平均句子更长。即使对ChatGPT施加特定的风格，其生成的演讲仍然与目标作者的讲话有所不同。此外，ChatGPT倾向于采用中性语气，主要使用积极的情感表达和象征性术语（例如，自由、国家）。最后，我们表明，GPT的风格与真实的总统讲话相比，展现出独特的特征。

发布时间: 11/28/2024

查看原文

基于扩散模型的高保真服装重建的虚拟试穿：TryOffDiff

作者: Riza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer

本文介绍了一种名为虚拟试穿（VTOFF）的新任务，该任务专注于从穿着者的单张照片生成标准化的服装图像。与传统的虚拟试穿（VTON）——它对模型进行数字着装——不同，VTOFF的目标是提取规范的服装图像，这在捕捉服装的形状、纹理和复杂图案方面带来了独特的挑战。这一明确定义的目标使VTOFF特别有效地评估生成模型的重建保真度。我们提出了TryOffDiff模型，该模型利用基于SigLIP的视觉条件调整Stable Diffusion，以确保高保真度和细节保留。在修改后的VITON-HD数据集上的实验表明，与基于姿态转移和虚拟试穿的基线方法相比，我们的方法在预处理和后处理步骤更少的情况下，性能优越。我们的分析表明，传统的图像生成指标不足以评估重建质量，这促使我们依赖DISTS进行更准确的评估。我们的结果突出了VTOFF在增强电子商务应用中的产品图像、推进生成模型评估以及启发未来高保真重建工作的潜力。演示、代码和模型可在以下网址获取：https://rizavelioglu.github.io/tryoffdiff/

发布时间: 11/28/2024

查看原文

FreqX：神经网络学习的是网络设计者所说的内容

作者: Zechen Liu

个性化联邦学习 (PFL) 允许客户端协作训练个性化模型，而无需泄露其私有数据集。然而，PFL 存在非独立同分布 (Non-IID) 数据、异构设备、缺乏公平性以及贡献不明确等问题，这些问题迫切需要深度学习模型的可解释性来克服。这些挑战对可解释性提出了新的要求：低成本、隐私保护和详细信息。目前尚无任何可解释性方法能够满足这些要求。本文提出了一种新颖的可解释性方法 \emph{FreqX}，该方法引入了信号处理和信息论。我们的实验表明，FreqX 的解释结果包含属性信息和概念信息。FreqX 的运行速度至少比包含概念信息的基线方法快 10 倍。

发布时间: 11/28/2024

查看原文

Helvipad：一个用于全向立体深度估计的真实世界数据集

作者: Mehdi Zayene, Jannik Endres, Albias Havolli, Charles Corbi\`ere, Salim Cherkaoui, Alexandre Kontouli, Alexandre Alahi

尽管立体深度估计取得了相当大的进展，但全向成像仍然未得到充分探索，这主要是由于缺乏合适的数据。我们引入了Helvipad，这是一个用于全向立体深度估计的真实世界数据集，包含来自不同环境（包括具有不同光照条件的拥挤室内和室外场景）的视频序列中的4万帧图像。该数据集使用顶部-底部设置的两个360°相机和一个激光雷达传感器收集，通过将3D点云投影到等距矩形图像上，包含精确的深度和视差标签。此外，我们通过使用深度补全提供了一个具有显著增加的标签密度的增强训练集。我们对标准图像和全向图像的领先立体深度估计模型进行了基准测试。结果表明，虽然最近的立体方法表现尚可，但在全向成像中精确估计深度仍然存在重大挑战。为了解决这个问题，我们对立体模型进行了必要的改进，从而提高了性能。

发布时间: 11/28/2024

查看原文

RITA：一种用于设计弹性物联网应用的自动化框架

作者: Luis Eduardo Pessoa, Cristovao Freitas Iglesias Jr, Claudio Miceli

设计弹性物联网 (IoT) 系统需要：i) 识别物联网关键对象 (ICO)，例如服务、设备和资源；ii) 进行威胁分析；以及 iii) 选择缓解策略。然而，传统的弹性物联网系统设计流程仍然是人工的，导致效率低下并增加风险。此外，虽然 ChatGPT 等工具可以支持这一人工且极易出错的流程，但其使用会引发对数据隐私、输出不一致和依赖互联网的担忧。因此，我们提出 RITA，一个自动化、开源的框架，它使用经过微调的基于 RoBERTa 的命名实体识别 (NER) 模型从物联网需求文档中识别 ICO，关联威胁并推荐对策。RITA 完全离线运行，可以在现场部署，从而保护敏感信息并提供一致的输出，从而增强标准化。在我们的实证评估中，RITA 在七个 ICO 类别中的四个类别中优于 ChatGPT，尤其是在执行器、传感器、网络资源和服务识别方面，使用了人工标注和 ChatGPT 生成的测试数据。这些发现表明，RITA 可以通过有效支持关键安全操作来改进弹性物联网设计，为开发强大的物联网架构提供了一种切实可行的解决方案。

发布时间: 11/28/2024

查看原文

学习混合整数线性规划的最优目标值

作者: Lara Scavuzzo, Karen Aardal, Neil Yorke-Smith

现代混合整数线性规划 (MILP) 求解器使用分支定界算法以及大量加速搜索的辅助组件。近年来，机器学习在增强和支持这些算法组件方面的应用爆炸式增长。在此基础上，我们提出了一种预测最优目标值，或等效地预测当前解是否为最优解的方法。针对此任务，我们引入了一种基于图神经网络 (GNN) 架构以及一组动态特征的预测器。在不同基准测试上的实验结果证明了我们方法的有效性，在预测任务中取得了高精度，并优于现有方法。这些发现为将机器学习驱动的预测集成到 MILP 求解器中提供了新的机遇，从而能够实现更智能的决策和改进性能。

发布时间: 11/28/2024

查看原文

基于梯度片段记忆的机器语音链持续学习

作者: Geoffrey Tyndall, Kurniawati Azizah, Dipta Tanaya, Ayu Purwarianti, Dessi Puji Lestari, Sakriani Sakti

针对自动语音识别（ASR）系统的持续学习提出了挑战，尤其是在需要避免灾难性遗忘的同时保持先前学习任务性能的情况下。本文介绍了一种利用机器语音链框架实现基于梯度情景记忆（GEM）的ASR持续学习的新方法。通过在机器语音链中加入文本转语音（TTS）组件，我们支持GEM必需的重放机制，使ASR模型能够顺序学习新任务，而不会导致先前任务的性能显著下降。我们在LJ语音数据集上进行的实验表明，我们的方法优于传统的微调和多任务学习方法，在保持各种噪声条件下高性能的同时，实现了显著的错误率降低。我们展示了半监督机器语音链方法在语音识别中实现有效且高效的持续学习的潜力。

发布时间: 11/28/2024

查看原文

多视角感知与知识增强的胸部CT报告生成 (MvKeTR)

作者: Xiwei Deng, Xianchun He, Yudan Zhou, Shuhui Cai, Congbo Cai, Zhong Chen

CT报告生成 (CTRG)旨在自动生成3D体积的诊断报告，以减轻临床医生的工作负担并改善患者护理。尽管具有临床价值，但现有工作未能有效地整合来自多个解剖视图的诊断信息，并且缺乏准确可靠诊断所需的临床专业知识。为了解决这些局限性，我们提出了一种新颖的多视图感知知识增强Transformer (MvKeTR) 来模拟临床医生的诊断流程。正如放射科医生首先从多个平面检查CT扫描一样，具有视图感知注意力的多视图感知聚合器 (MVPA) 有效地综合来自多个解剖视图的诊断信息。然后，受放射科医生进一步参考相关临床记录以指导诊断决策的启发，跨模态知识增强器 (CMKE) 基于查询体积检索最相似的报告，将领域知识融入诊断过程。此外，我们没有使用传统的MLP，而是采用具有可学习非线性激活函数的Kolmogorov-Arnold网络 (KAN) 作为这两个模块的基本构建块，以更好地捕捉CT解释中复杂的诊断模式。在公共CTRG-Chest-548K数据集上进行的大量实验表明，我们的方法在所有指标上都优于之前的最先进模型。

发布时间: 11/28/2024

查看原文

基于软演员评论家算法的含时滞污水处理优化应用

作者: Esmaeel Mohammadi, Daniel Ortiz-Arroyo, Aviaja Anna Hansen, Mikkel Stokholm-Bjerregaard, Sebastien Gros, Akhil S Anand, Petar Durdevic

污水处理厂的工艺控制面临着独特的挑战，因为其动力学复杂、时间常数慢以及观测和行动中的随机延迟。这些特性使得传统的控制方法（例如比例-积分-微分控制器）在实现高效磷去除方面（这是确保环境可持续性的污水处理的关键组成部分）次优。本研究利用基于Soft Actor-Critic算法的新型深度强化学习方法解决了这些挑战，并集成了一个定制的模拟器来模拟污水处理厂固有的延迟反馈。该模拟器结合了长短期记忆网络，以实现准确的多步状态预测，从而实现逼真的训练场景。为了考虑延迟的随机性，代理在三种延迟场景下进行了训练：无延迟、恒定延迟和随机延迟。结果表明，将随机延迟纳入强化学习框架可以显著提高磷去除效率，同时降低运营成本。具体而言，与传统控制方法相比，在模拟环境中，感知延迟的代理实现了磷排放量减少36%、奖励提高55%、与法规限值的偏差降低77%以及总成本降低9%。这些发现强调了强化学习克服污水处理中传统控制策略局限性的潜力，为磷去除提供了一种自适应且经济高效的解决方案。

发布时间: 11/28/2024

查看原文

预训练模型在口语翻译中的对齐

作者: \v{S}imon Sedl\'a\v{c}ek, Santosh Kesiraju, Alexander Polok, Jan \v{C}ernock\'y

本文研究了一种基于端到端语音翻译的新方法，该方法通过一个小连接模块（Q-Former，我们的子采样器-Transformer编码器）对冻结的预训练自动语音识别（ASR）和机器翻译（MT）模型进行对齐。该连接器弥合了语音和文本模态之间的差距，将ASR编码器嵌入转换为MT编码器的潜在表示空间，并且是训练过程中系统中唯一优化的部分。我们在How2英语-葡萄牙语数据集上进行了实验，研究了小规模场景下语音翻译的对齐方法。在保持连接模块的大小恒定且相对较小（小于对齐模型总大小的5%）的情况下，增加基础ASR和MT模型的大小和能力普遍提高了翻译结果。我们还发现，连接器可以作为基础MT模型的领域适配器，显著提高对齐语音翻译设置下的翻译性能。我们得出结论，这种方法代表了一种可行且可扩展的端到端语音翻译系统训练方法。

发布时间: 11/28/2024

查看原文