感官超载:模拟大型强子对撞机上的质子-质子碰撞。(礼貌:欧洲核子研究中心)
深度学习可能是理解世界首屈一指的粒子加速器中产生的质子碰撞的关键。这是来自欧洲和美国物理学家的信息,他们展示了一种为语言翻译而开发的算法如何有效地滤除欧洲核子研究中心大型强子对撞机探测器所采集数据中的噪声。一旦 LHC 升级,该算法可以为物理学家提供发现奇异新粒子的最佳机会。
LHC 以令人难以置信的高能量将质子撞击在一起,以产生一系列大质量粒子。这可能包括粒子物理学标准模型未描述的假设粒子——发现它是对撞机的主要目标。
LHC 实际上会碰撞包含数十亿个质子的束,以确保一个束中的至少一个质子与另一束中的质子相互作用的合理机会。解释对撞机数据的一个主要挑战是将(广受欢迎的)正面碰撞产生的粒子与掠射产生的粒子区分开来。后者被称为堆积,主要由最终散布在探测器周围的π介子组成,使确定任何新粒子的存在变得更加困难。
随着大型强子对撞机的碰撞率上升,堆积物将在未来几年成为一个特殊的问题。从 2027 年开始,高亮度大型强子对撞机将在每次碰撞时产生大约 200 次堆积事件,比五年前的结果高出大约一个数量级。
追溯
物理学家设计了几种方法来关注有趣的碰撞。一种简单的方法是考虑带电粒子在穿过检测器时留下的轨迹,并且只保留带有可追溯到正面碰撞的轨迹的事件——起源于所谓的主顶点。
一种称为 PUPPI 的更复杂的替代方案除了筛选对撞机中产生的中性粒子外,还可以执行此操作。它通过确定每个中性粒子周围的带电粒子的来源,然后根据与前者的关系计算后者起源于初级顶点的概率来实现这一点。
在最新的工作中,欧洲核子研究中心的 Benedikt Maier 及其同事着手使用机器学习来达到同样的目的。虽然 PUPPI 依靠逐步计算来直接确定某些粒子是否来自主顶点,但这种情况下的算法——研究人员称之为 PUMA 的高级神经网络类型——学习了粒子属性和碰撞起源之间的关系。使用包含多个输入-输出对的数据集进行训练。
这不是第一个旨在尝试处理 LHC 堆积问题的人工神经网络。例如,在 2017 年,美国哈佛大学的Matthew Schwartz及其同事报告称,他们设计了一个所谓的卷积神经网络来清理以图像形式表示的 ATLAS 和 CMS 检测器的输出——每个像素的强度表示粒子的能量分布。通过教导网络将所有中性粒子的图像与仅显示来自主顶点的中性粒子的相应图像相关联,他们发现当在其输入端输入新的噪声数据时,该算法可以生成清理后的图像。
变压器算法
然而,根据 Maier 的说法,这种和其他基于机器学习的方法依赖于 PUPPI 的结果作为其输入的一部分。相比之下,PUMA 仅根据原始探测器数据消除堆积。它使用一种称为转换器的算法来实现这一点,该算法旨在将一种语言的短语转换为另一种语言的等效短语。它重新用于粒子物理学,而是将表示来自碰撞事件的一系列粒子的数据转换为 0 到 1 之间的数字序列——每个粒子来自主顶点的概率。
其他机器翻译器在计算一串单词的含义时往往只关注单词的最近邻居,而转换器也解释了间隔较远的单词之间的链接。他们通过分析称为注意力的过程来做到这一点,该过程涉及将单词表示为特征向量,将该向量乘以某些矩阵,然后通过点积函数将这些计算的结果与另一个粒子的等效结果相结合。
PUMA 代表 Pile-Up Mitigation using Attention,它同样通过将每个粒子编码为包含粒子类型、能量和角度等参数的向量来实现。然后,它使用注意力过程生成一组新的向量,这些向量反映每个粒子与其他粒子的关系,并将这些向量输入一个简单的神经网络,该网络将信息提炼成每个粒子的一个数值——原点概率。通过使用与已知二进制概率相关的输入向量训练网络,计算输出和预期输出之间的差异可用于迭代地调整注意力矩阵,以便将来该算法可以识别新的原始数据是否对应于来自初级的粒子顶点或从堆积。
探测器快照
Maier 及其同事使用 200,000 个“检测器快照”训练他们的网络,这些“检测器快照”是他们使用 DELPHES 计算机程序生成的 CMS 模拟生成的。每个快照都包含一次主要质子碰撞的残余物和大约 140 次扫视。这相当于每个快照大约 5000 个粒子,因此总共有 10 亿个输入向量和相关概率。然后,他们使用进一步的模拟数据将 PUMA 的性能与 PUPPI 等经典算法进行比较。特别是,他们专注于横向动量——当碰撞的质子相互飞行时,横向动量为零,一旦从数据中删除所有无关粒子,在碰撞后应该保持如此。
人工智能和粒子物理学:强大的伙伴关系
研究人员发现,与基于其他堆积算法去除的计算相比,基于 PUMA 堆积消除的净横向动量计算更接近最佳情况——模拟样品没有堆积。他们现在计划使用来自将安装在 CMS 中的一个特定子检测器的真实数据来测试 PUMA。然而,迈尔指出,尽管新算法比竞争对手的方案有所改进,但新算法仍然与最佳情况相悖。“为了未来的研究,看看模型中仍然缺少什么,”他说。
未参与最新研究的法国巴黎城市大学的 Matteo Cacciari 对“出色的结果”表示欢迎,并指出机器学习通过设计利用比传统技术更广泛的信息。但他补充说,要准确理解这个和其他神经网络从哪里获得“辨别力”也更难,他认为,很难发现算法中任何不需要的偏差。“在科学中,尽可能广泛地理解事物总是更好的,”他说。