LLM2D

摘要

arXiv:2504.21685v1 声称类型: cross 摘要：健康提及分类（HMC）在利用社交媒体帖子进行实时跟踪和公共卫生监测方面发挥着至关重要的作用。然而，由于其复杂性，尤其是由于健康提及的语言上下文方面，例如隐喻语言和描述性术语，并非明确反映个人病痛的原因，HMC 过程面临着重大挑战。为了解决这一问题，我们认为，可以通过增强生物医学自然语言处理方法（NLP）的参数进行常规微调，来实现更清晰的提及。在本研究中，我们探索了不同的技术，如利用词性标注器信息，改进 PEFT 方法，并结合这些方法的不同组合。在三个广泛使用的数据集 RHDM、PHM 和 Illness 上进行了广泛的实验。结果表明，结合词性标注器信息和利用 PEFT 技术在所有三个数据集中比最先进的方法在 F1 分数方面显著提高了性能，同时使用了较小的模型和高效的训练。此外，研究结果强调了结合词性标注器信息和利用 PEFT 技术在 HMC 中的有效性。总之，所提出的 methodology 提出了一个有潜力的有效方法，可以在优化模型大小和训练效率的同时准确分类社交媒体帖子中的健康提及。