贡献 在本文中,我们研究了与识别命名实体的下游任务相关的 ASR-NLP 差距的真实大小。 使用基准和内部数据集(他们自己做的数据集)的组合,我们展示了最先进的语言模型如何无法发现自发人类对话记录中命名实体主要类别的实体跨度(分析了问题的原因)。我们的第二个贡献是引入了一种新的 ASR 和 NER 模型联合评估方法。 我们观察到传统的 NLP 指标不适合衡量模型在 ASR 转录本上的性能。 受 DARPA 消息理解会议(DARPA’s Message Understanding Conferences)的启发,我们开发了一种新指标,该指标在衡量转录本对齐下 NER 模型的性能时更加稳健。