引言
粒子物理学是一门研究物质亚原子组分的学问:有多少亚原子?它们的性质是什么?它们之间如何相互作用?回答这些问题有两种基本的方法,理论方法和实验方法。从理论的角度,我们可以问:可能存在哪些亚原子粒子?值得注意的是,由于基础理论的理论一致性,存在很多限制可能的粒子种类的约束。例如,从要求物质不会凭空出现(“幺正性”)到要求物质不会内爆的泡利不相容原理有一条直接的逻辑路径。然而,令许多理论家沮丧的是,自洽的理论似乎比描述自然的理论要多得多。因此,实验必不可少。最先进的粒子实验是横跨法国和瑞士边境的欧洲核子研究中心(CERN)的大型强子对撞机(LHC)。迄今为止,它的主要成就是在2012年发现了希格斯玻色子。LHC以接近光速的速度将质子碰撞在一起,然后通过E=mc^2将能量转化为质量,从而形成新粒子。这些新粒子通常仅持续几分之一秒(希格斯玻色子的寿命是10^(-22)秒);因此,现代实验粒子物理学的技术包括发现新粒子产生的迹象,即使我们从未真正看到过它。由于我们感兴趣的粒子通常非常罕见并且与更常见的背景看起来几乎相同,这使得实验的挑战变得更加复杂。比如,在LHC上,每十亿次质子碰撞只有一次会产生希格斯玻色子。每十万个希格斯玻色子中只有一个容易看到。在现代实验中寻找新粒子无异于大海捞针。幸运的是,大海捞针问题正是现代机器学习擅长解决的问题。
与机器学习应用的其他领域相比,粒子物理学有两个方面使其独一无二或者至少是高度非典型的。首先,粒子物理学由量子力学支配,当然,一切事物都受量子力学支配。然而,在粒子物理学中量子力学世界固有的不确定性会影响我们希望了解的事实的本质。就像薛定谔的猫可以同时处在活着和死去两种状态一样,LHC上的一次碰撞可以同时既产生希格斯玻色子又没有产生希格斯玻色子。事实上,信号过程(质子碰撞并产生希格斯玻色子)和背景过程(质子碰撞没有产生希格斯玻色子)之间有量子力学的相干效应。“本次碰撞事例中是否存在希格斯玻色子”这样的问题是无法回答的。更准确地说,对于碰撞产生的给定数量的粒子n,信号和背景的概率分布以及产生粒子的动量微分(相空间)具有如下的形式:
这里,MS和MB是产生信号和背景的量子力学振幅(S-矩阵元,是复数),交叉项MSMB*+MBMS*代表信号和背景的相干。这个相干项可以是正的(相长干涉)也可以是负的(相消干涉)。虽然不能为单个事例分配真实的标签,但在探测器中找到一组特定的粒子的概率取决于希格斯玻色子是否存在,找到希格斯玻色子相当于排除只有背景存在的假设(即上面方程取MS=0)。
实际上,在相空间的一些小的区域,信号的概率分布通常有一个很强的共振峰,在这样的区域,背景通常可以忽略:MS+MB≈MS,而在其他区域,信号通常可以忽略:MS+MB≈MB。因此,用一个混合模型来近似全概率分布是很常见的。如果我们对所有可能的粒子数n的概率求和并在观测量区间对动量积分便可得到
其中,αS+αB=1。也就是说,我们将对撞数据的概率分布视为信号和背景概率分布的线性组合,找到新粒子的目标就变成了确定系数αS和αB,或者更简洁地说,确定αS是否非零。每个测量到的事例都提供了很多粒子n和n粒子相空间{pi}中的点,这些点都是从真实的概率分布dPndata数据中提取的,相应的不确定度为dp1...dpn,只有经过多次数据提取才有希望约束αS。即使在混合模型近似中,单个事例依然没有真实的标签。这和在图像数据库中区分猫和狗(或者区分活猫和死猫)是不同的。对于猫和狗,即使分布重叠,依然会有一个正确答案(对每个事例αS=0或1)。而在粒子物理学中,当分布重叠时,一个粒子既是信号,也是背景。
粒子物理与典型的机器学习应用的第二个不同之处在于粒子物理拥有非常精确的模拟工具产生用于训练的模拟数据。这些工具由专家们开发了四十多年,它们一起描述了长度横跨20个数量级的粒子碰撞的演化。LHC能够探测的最小尺度约为10^(-18)米,是质子大小的千分之一,该尺度下的物理学是由微扰量子场论描述的,粒子之间的相互作用非常弱,第一性原理的计算是精确的。希格斯玻色子的大小(康普顿波长)是10^(-17)米,只有在这样的小尺度下,我们才有希望观测到它。在10^(-18)米到10^(-15)米尺度范围内,用半经典的马尔可夫(Markov)模型将少数最初的粒子转化为数百个夸克和胶子。在10^(-15)米到10^(-6)米尺度范围内,夸克和胶子会转化为一系列亚稳的亚原子粒子,随后衰变为数百个“稳定”粒子:π介子,质子,中子,电子和光子。然后它们开始和探测器的组分发生相互作用并在材料中传播,正如其他优秀的参数化模型所述。探测器模型在10^(-6)米到LHC探测器尺度100米(LHC上的ATLAS探测器长46米)范围内是精确的。结果是从最小尺度的10维相空间进展到中等尺度的10^3维相空间,再到电子探测器读取通道的10^8维相空间。这些模拟工具结合起来从这个亿维相空间中给出了非常强大(但非常稀疏)的采样。LHC记录了大约一万亿个实际事例,同时也模拟了相当数量的事例,提供了数百PB的实际数据和模拟数据用于分析。在模拟的第一阶段,直到稳定粒子水平(10^3维相空间)相对较快,在笔记本电脑上一小时可以生产一百万个事例。在模拟的第二阶段,稳定粒子通过探测器要慢得多,每个事例需要几秒钟甚至几分钟。方便的是,对于许多应用,模拟的第一阶段就足够了。
没有人,也没有机器能够想象十亿维的分布。所以典型的分析流程是将所有的低级输出聚合成一个单一的复合特征,比如某个区域内粒子的总能量。理想情况下,该特征的直方图会显示一个共振峰或其他显著的信号标识。我们还希望这个特征有一个简单的物理解释,方便我们根据物理直觉交叉检验信号的分布。对于希格斯玻色子,“黄金发现通道”是两个缪子(或电子)和两个反缪子(或反电子),描述这一个过程的费曼图如下:
不变质量m=√((E1+E2+E3+E4)2-(p1+p2+p3+p4)2))是发现信号的有效方法,其中Ei和pi分别为四个可观测粒子的能量和动量。对于希格斯玻色子信号,该特征在希格斯粒子质量为125GeV处的概率密度有一个共振峰,此处的背景是很小的。不幸的是,每10^13次质子碰撞才能给出一个希格斯信号。如果我们不要求我们的信号是无背景的,也不要求像质量那样有物理解释的特征,那么我们可以问,什么样的特征是在统计上区分信号和背景的最佳的方法?这样的问题辅以大量易于生成的模拟数据,非常适合用现代机器学习的方法去研究。
监督学习
机器学习(ML)在过去几十年来一直在粒子物理学中发挥作用,其中一个标志性的应用就是底夸克标记(b-tagging):决定一组给定的粒子是否来源于底夸克。底夸克比质子质量重四倍,且有很多区分于其他粒子的特性。比如它们会从碰撞点飞行半毫米后再发生衰变。严格地讲,底夸克会和其他夸克结合形成亚稳的强子,比如Bd介子,然后衰变成缪子和π介子之类的粒子。虽然不能直接测量粒子飞行的距离,但是可以测量诸如衰变产物的数量,带电粒子轨迹之间的距离,衰变产物中是否存在缪子等。我们可以积累一些高度相关的特征并把它们结合起来估计存在b夸克的概率。传统上,可能会将各种特征输入浅层神经网络或增强决策树(BDT)来决定底夸克标记(b-tagging)的概率。
底夸克标记独特地展示了传统上(并且非常成功地)如何将机器学习应用到粒子物理学中:首先单独理解物理上动机良好的分类器,然后用相对简单的多变量分析方法将它们结合起来。在过去的几年里,这种范式已经被我喜欢称之为现代机器学习的方法所取代。现代的方法不再使用高级的动机良好的物理学变量,而是将原始的,最少处理的数据输入到深度神经网络,然后网络可以自由地在数据中找到它认为最重要的东西。例如,对于底夸克标记,现代的机器学习方法会将所有测量到的带电轨迹都放入到一个循环神经网络中,然后用标记好的模拟数据去训练网络来区分信号事例(底夸克)和背景事例(其他夸克)。这与传统方法形成对比,传统方法将带电粒子的轨迹与在磁场中的偏转曲线联系起来并提炼出一个碰撞参数。虽然传统方法效果很好,例如在保留50%的底夸克的同时得到背景夸克的拒绝因子(定义为1/εBKG)为1000。但现代机器学习的方法效果更好,在保持同样的信号效率的同时可以将背景的拒绝因子提高到2000[3]。拒绝因子提升一倍是很重要的,令人印象深刻的证据表明,现代机器学习方法将继续存在。
第二个例子考虑减少堆积(pileup)的问题。要理解堆积,重要的是首先要理解现代粒子对撞机的工作方式。以LHC为例,为了实现每秒钟对撞10亿个质子,粒子被收集为每个包含约10^11个质子的束流。在任何给定的时间,都有3000个质子束流在LHC隧道中循环。在这些工作参数下,每次这些束流通过彼此时,都会有100个或更多的质子发生碰撞,其中可能只有一次是直接碰撞,即每个质子内的夸克以足够的能量相互撞击产生感兴趣的东西,例如希格斯玻色子(每十亿次碰撞中只有一次碰撞会产生希格斯玻色子),当发生直接碰撞时,通常称为初级碰撞;其他质子也在发生碰撞,称为次级碰撞。次级碰撞中包含的质子基本都分解为弥散在探测器中相对低能量的介子喷雾,这种无趣的碎屑称为堆积。堆积导致很难确定初级碰撞中包含的确切能量,并且几乎污染了LHC的每一次测量。
传统的减除堆积效应的方法有很多。其中一种流行的方法称为面积减除(area subtraction)[8]。面积减除方法主要利用了这样一个事实,即堆积主要是由低能粒子组成,这些粒子几乎各向同性地分布在赝快度(赝快度用于衡量粒子与beam轴之间的距离)和方位角中。面积减除基于探测器的某些不存在来自初级碰撞产物的区域的能量沉积重新校准事例。另一种被CMS合作组广泛使用的方法称为带电强子减除(charged hadron subtraction)[9]。这种方法主要利用带电粒子会在探测器中留下轨迹,因此可以将带电轨迹与初级碰撞或次级碰撞匹配,从而将那些来自次级碰撞的带电轨迹从事例中去除。这两种方法都很有效但都相当粗糙,面积减除仅适用于平均,带电强子减除不能用于中性粒子。两种方法均未试图定位单个事例中所有的堆积辐射。
用于堆积减除的一种现代机器学习方法称为PUMML[15]算法。PUMML算法基于事例图像[10]的概念:探测器给定区域的沉积能量翻译为一张图片某个像素点的灰度。PUMML算法创建了三幅图像,一幅用于描述来自初级碰撞的带电粒子,一幅用于描述来自次级碰撞的带电粒子,还有一幅用于描述所有中性粒子。这三幅图像被输入到一个卷积神经网络(CNN)中,尝试回归出仅显示来自初级碰撞的中性粒子的第四幅图像。PUMML算法可以利用模拟数据训练,在这些模拟数据中中性粒子的来源的真实信息是已知的,然后将训练好的网络应用到真实的数据中,在这些真实数据中,中性粒子的来源是未知的。该算法的概念图如下图所示。
PUMML算法是非常有效的,它成功地在逐个事例的基础上从初级碰撞中重建出了粒子的完整分布,与同步的次级碰撞的数量无关。尽管它放弃了一些物理知识(比如面积减除利用的堆积辐射的各向同性),但这种现代机器学习方法在功效上获得了巨大收益。
我们已经看到了最初为自然语言处理开发的循环神经网络架构如何在底夸克标记中发挥作用,我们也看到了为图像识别开发的卷积神经网络如何在堆积减除中发挥作用。从某种意义上说,迄今为止,监督学习在粒子物理中的应用所做的大部分工作都可以表征为一系列相似的练习:一种为完全不同的目的开发的机器学习技术适用于一种粒子物理学的应用。最近针对加速顶夸克标记问题对各种各样的机器学习方法进行了公平的比较[7]。顶夸克是已知的最重的夸克,但它被远超它的静止质量的能量产生出来时,正如大型强子对撞机通常所做的那样,它会衰变为一束准直的粒子束流,即一个喷注,很难和其他并非来自顶夸克衰变的准直粒子束流区分开来。事实上,这些背景的喷注的数量可能是顶夸克喷注的10000倍。传统的区分顶夸克喷注和背景喷注的方法侧重于有良好物理动机的区别:顶夸克有质量,顶夸克喷注通常有三个子喷注,对应于顶夸克衰变成的三个轻夸克[12]等,现代机器学习方法是把所有原始的数据都作为神经网络的输入,希望网络可以起作用。
图2展示了传统方法(点)和现代机器学习方法(曲线)的对比。在当时,传统的方法是粒子物理领域的一项颠覆性进步,在那之前,人们甚至对这些高能量下顶夸克的寻找不抱希望。尽管如此,我们从图2中可以看到,现代机器学习方法明显优于传统的以良好物理动机为基础的方法。更详细地说,标记为“深度网络(Deep Network)”的曲线[4]将粒子的动量分量作为输入(最多600个输入变量),并将它们传递到一个四层的密接前馈神经网络。“1D Particle CNN”网络使用类似的输入,但将它们传递到了一个一维卷积神经网络,这种更复杂的网络架构带来了显著的改进。“2D Image CNN”曲线使用了一个基于图像的卷积神经网络,其中输入图像的像素灰度正比于探测器相应区域的能量沉积[14],如前述的堆积问题。“ResNeXt Image CNN”曲线使用了更复杂的ResNeXt卷积网络架构。尽管性能有所提升,但代价是需要150万个可训练的网络参数(与CNN的大约50万个参数形成对比)。由于测试样本的统计限制,ResNeXt曲线在小信号效率下并不稳定。“Tree NN”曲线使用了更物理的输入:将粒子的四动量组织为一个二叉树,类似于粒子连续衰变的半经典分支图。该网络只有34000个参数,其性能可与高度工程化的ResNeXt相媲美,这让人们希望物理洞察力可能不会完全被抛弃。最后,标记为“Point Cloud”的曲线使用被称为粒子网络[20]的无序点-云(point-cloud)类型的表示作为输入,该架构基于为计算机视觉开发的动态图卷积神经网络[24],所有这些算法以及其他一些算法的更多细节可以在文章[7]中找到。这些神经网络优于传统分类器的性能清楚地表明,现代机器方法找到的信号和背景之间的差异要比基于物理判断找到的差异要多得多。是否能用某种简单的人类能够理解的方式解释这些差异依然是一个悬而未决的问题。我将在第四节回到这个问题。
数据驱动方法
上述所有方法都大量利用了产生模拟数据用于训练集的能力。尽管模拟过程非常复杂,并且重现了在长度尺度横跨20个数量级的数据,但这些模拟并不是为了重现现代机器学习方法可能正在利用的数据之间所有微妙的关联性而设计的。事实上,在现代机器学习革命之前,并没有强烈的动机来确保所有的关联性都是准确的。一个普遍而隐含的信念是,尽管模拟数据中的关联性可能和实际数据中的关联性并不完全相同,但机器学习方法依然有效。但是,在我们确定之前,很难将不确定性分配给机器学习算法基于实际数据上的输出。使用模拟数据的替代方法就是在真实数据上进行训练。不幸的是,因为我们知道模拟数据的产生过程,所以用于训练的模拟数据集有真实的标签,而实际数据却没有。此外,正如引言中所提及的那样,真实世界没有确定的事实,在物理中,每个数据点某种程度上既是信号,也是背景。即使量子力学相干效应很小(通常如此),数据充其量也是信号和背景的混合。因此尚不清楚如何直接用实际数据进行训练。有两种方法可以继续,第一种是无视实际数据的不纯性,直接在实际数据上训练网络。第二种方法是可以用机器学习来确定模拟数据和实际数据的吻合程度,然后尝试改进模拟。这两种方法在粒子物理学中都受到了一些关注,目前很多研究正在使用LHC数据进行探索。
与直接利用实际数据进行训练的方法直接相关的一个重要的观测是,尽管实际数据不带标签,但是总可以找到可以明确标记的非常干净的事例,比如可以利用顶夸克总是成对出现(顶夸克和反顶夸克)将其限制为这样一个事例,反顶夸克衰变到一个清晰标记的缪子和一个底夸克喷注,则该事例的其余部分提供了一个干净的顶夸克数据点。这种标记-探测的方法早在机器学习之前就一直是实验粒子物理学的支柱,并且是一种通过收集带有真实标记的样本用于校准的有效方法。
另一种更面向机器学习的方法是直接在混合样本上进行训练。例如,可以使用带有一个喷注和一个Z玻色子的事例样本和另一个带有两个喷注的事例样本。在这些事例样本中,来自夸克的喷注的比例与来自胶子的喷注的比例是不同的(Z+喷注的样本中大约80%的喷注来自夸克,双喷注样本中大约40%的喷注来自夸克[11])。通过训练神经网络可以区分这两个样本。这种弱监督方法不会试图学习区分夸克喷注和胶子喷注的特性,而只会学习它们之间的差异。无论是使用高级的物理变量分类器比如质量进行训练[18]还是使用图像卷积神经网络进行训练[16],它们的效果都出奇地好。此类研究预示着未来可以完全取消模拟,将真实数据直接用于训练和验证。
还有许多为LHC应用而开发的完全无监督方法。其中一个例子就是JUNIPR框架,它试图用机器学习[1]的方法去学习真实数据的全微分分布dnP/dp1...dpn。JUNIPR有一个围绕二元喷注-聚类树构建的网络架构,与图2中的高效的“Tree NN”方法类似。使用标记-探测方法或弱监督学习的方法,可以在独立的不同样本中训练JUNIPR从而得到不同的概率函数。这样做超越了监督学习应用中典型的无似然推理方法。例如,通过比较这些学习到的函数可以区分不同的样本从而找到感兴趣的特征。或者,像JUNIPR这样的方法可以将真实的数据用于训练,并从学到的概率分布中提取事例进行数据扩充。因此,JUNIPR本身就像一种模拟,但是所有的元素都是学习到的而不是建立在微观的物理模型基础上。这种方法可以很好地与概率编程方法的发展相吻合,如[6]。
继续改进模拟,如前所述,不同的模拟有不同的组成部分。用量子场论产生数百个粒子的短程模拟相对较快(每个事例都是微秒量级),而模拟这些粒子通过探测器的传播速度要慢得多(产生一个事例要几秒钟或几分钟)。事实上,LHC计算时间的大部分都用于探测器模拟。为了改善这一问题,人们可能会转向一种无监督学习的方法,比如CaloGAN[19]。CaloGAN使用一种生成式对抗网络来模拟探测器模拟器。在CaloGAN中,第一个网络产生事例,第二个对抗网络尝试判断这些事例来自探测器模拟还是神经网络模拟。一旦经过训练,神经网络模拟器产生每个事例仅需要花费12微秒,与完整模拟相比,速度提高了五个数量级。这种方法很有吸引力,特别是对未来更高亮度的LHC运行而言,世界上所有的计算资源都不足以模拟相当数量的事例。
与其学习重现和生成类似于粒子水平的模拟(如JUNIPR)或探测器模拟(如CaloGAN),不如只学习模拟不准确的地方。例如,可以用模拟数据和实际数据训练一个无监督模型,然后当两者不同时,重新加权模拟数据使其看起来像实际数据。这个想法的原理论证的实现是OmniFold[2]。OmniFold学习从模拟数据到真实数据的映射,然后可以尝试逆映射以有效地消除探测器模拟的影响。在粒子物理学中消除探测器影响的过程称为展开。展开一般是一个艰巨的过程,每一个观测量都要独立地完成展开过程。OmniFold用机器学习的方法去学习探测器如何影响每个事例,从而可以用相同的训练好的网络展开任何观测量。这对于实验分析可能是一项颠覆性的改变,将实验分析的速度提升几个数量级。
最后,值得一提的是将机器学习方法直接应用于实际数据的过程中广受关注的一个问题。机器学习方法的一个潜在问题是它们非常强大,以至于学好的分类器在做截断(细化事例选择)时会修饰背景使它看起来像信号,如果实际上没有信号存在,这样的修饰可能会产生误导,使从数据中提取信号事例变得复杂。为了解决这个问题,可以训练网络不学习最佳的区分,而是学习在满足不以某种不想要的方式修饰背景的前提下的最佳区分[17]。类似地,找到两个不相干的观测量一起优化判别任务对于数据驱动的边带背景估计很有用[13]。这种将一些监督训练用于指导数据驱动估计的混合方法是粒子物理学中的机器学习未来发展的一个非常有前景的领域。
未来展望
在现代机器学习存在的过去几年,它已经使传统的对撞机物理显得过时。在过去,物理学家们,包括我自己,会致力于从第一性原理出发去理解特定粒子或特定过程的特征:为什么来自W玻色子衰变的介子束流和来自高能胶子的介子束流看起来有所不同?现在我们只是模拟这两类事例,让神经网络学会区分这两类样本。即使是只有十行Python代码的相对简单的稠密网络,都可以完全击败传统方法对于信号和背景的区分。迄今为止的进展都来自于采用为其他应用精心设计的算法,比如卷积神经网络,并将对撞机数据调整为这些算法可以处理的格式。不幸的是,这种做法会阻碍网络本身提取任何类型的物理解释。
本文讨论的另一个机器学习适用于粒子物理学的方面就是数据驱动方法。例如,讨论了一个弱监督的范式,其中分类器在一个信号和背景混合的数据样本上进行训练。不幸的是,没有完全可靠的方法可以证明数据驱动方法优于当前的实验尝试。这与使用ResNeXt区分顶夸克形成对比,后者优于传统的理论方法的优势仅通过模拟就可得到验证。虽然像OmniFold这样的工具可能会使实验分析的某些方面显得过时,但它们也有很多不稳定的故障模式。例如,我们经常以极低的产生率寻找新粒子,这种信号可以通过非常罕见的过程伪造,在概率分布的远尾端,比如一个粒子衰变和一束宇宙线撞击同时发生,或者两次连续的碰撞暂时使特定的传感器过载。虽然训练一种算法重现一个模型的大部分输出很容易,但重现模型的每一个细微差别要困难得多。
本文讨论的机器学习在粒子物理中的应用仅限于对撞机物理。事实上,机器学习正在渗透到粒子物理的方方面面,从中微子[5]到弦理论[21]。其中一个非常有前景的应用领域是在格点量子色动力学(QCD)框架下改进物质性质的非微扰计算。虽然QCD是一个完整的理论,诸如质子质量等物理量原则上都可以用它来计算,但实际上,实际执行的计算可能非常耗时,目前最新的技术也不能达到我们想要的精确度。机器学习有可能通过学到的近似或更有效地在位形空间[22]中采样来改进格点QCD的计算方式。如果机器学习被证明具有可扩展性和有效性,那么,从和暗物质搜寻相关的形状因子(form factor)到核物理实验中的部分子分布函数(PDF),此类技术可以彻底改变我们计算物质性质的能力。
我们仍处在探索机器学习和粒子物理之间接口的早期阶段。近年来关注度越来越高的一个悬而未决的问题是我们如何从机器学习的输出中得到深刻的物理解释。目前为止的主要成就都是重现已有的物理解释,比如可以将一个机器学习的分类器和一个物理可观测量结合起来看看机器是否有效地整合了观测量所包含的全部信息。这样的练习可以解释为什么机器学习和传统的观测量的效果一样好。然而,神经网络优于传统方法所利用的微妙的关联性依然没有一个简单的解释。
一种更一般的人类可解释的学习方法类似于“AI Feynman”[23]。作者用符号回归的方式在费曼物理学讲座中通过噪声数值取样学习了100个方程。可学习的函数域是基本函数的组合——多项式,对数,三角函数等。某种意义上说,这类程序能够取得成功是因为人类可解释的方程通常比较简单。因此,我们可以刻画一个有限的函数域从中提取。但是,公平地说,方程只是由几个字符组成并不能使它变得简单。狄拉克方程仅仅由5个符号组成,但要理解它需要二十年的教育。Sin(x)是一个简单的函数吗?至少不适用于五年级的学生。x2是一个简单的函数吗?至少不适用于3岁的孩子。也许机器学习的输出对我们来说就是无法理解的,无论我们多大年纪。我看到了三种可能的解决可解释性问题的途径。第一,我们可能沿着传统路线找到解释机器输出的方式。也许只是我们错过了某些东西导致传统方法看起来很差。我毫不怀疑我们将通过这种方法学到一些东西。第二,我们所追求的解释可能已经超过了人类的智慧。学习量子场论需要至少二十年,但要学到我们所需要的超越量子力学的东西可能要100多年甚至1000年。在这种情况下,我们必须满足于机器理解的潜在的物理知识,即使我们永远也无法理解。我承认有比我更好的运动员,更好的物理学家,更好的艺术家,更好的哲学家等。我不需要自己理解经济学就可以从健全的经济政策中收益。第三种可能性,也是我认为最有希望的可能性,是我们将建立一套新的语言和新的工具来解释机器的输出。我认为我们区分,简化,推断的能力没有任何限制。例如,考虑ln(x)函数,我们如何理解它?我们可以绘制函数图像,可以将它定义为一个无穷级数,可以把它视为ex的反函数,也可以将它视为1/x的积分等。当我们第一次遇到对数函数时,给它取的名字甚至都不是显而易见的,但过一段时间我们开始看到它的普适性和优势。当学习一个新文化,或者听到一种新的类型的音乐,玩一款新游戏,我们会很自然地从迷失方向到开始理解,经常为新的体验构建一套隐含的或显式的语言。对于机器学习,其前进的道路可能和人类的其他努力类似:我们可以建立一套新的用于理解的语言,我们从中可以建立直觉,而不是试图强迫机器进入我们传统的视角。换句话说,我们可能需要谦逊地学习机器的语言而不是让机器讲我们的语言。无论如何,无论我们是否理解机器,它们都将继续存在。我现在对基础物理学取得超验的进步的可能性比我职业生涯的任何时候都更加乐观,即使我自己可能也无法理解最终的理论。