图片来源:Greg Stewart / SLAC国家加速器实验室
能源部SLAC国家加速器实验室的X射线激光升级完成后,功能强大的新机器每秒将捕获多达1 TB的数据;这样的数据速率相当于在短短的一秒钟内流传输约1000部全长电影,并分析每部电影在这种超快进模式下经过时的每一帧。
随着直线加速器相干光源(LCLS)的升级在未来几年内上线,实验室的数据专家正在寻找处理这些大量信息的方法。
LCLS将电子加速到接近光速,以产生极亮的X射线束。这些X射线探测诸如蛋白质或量子材料之类的样品,而探测器则捕获一系列图像,这些图像实时揭示了样品的原子运动。通过将这些图像组合在一起,化学家,生物学家和材料科学家可以制作事件分子的电影,例如植物如何吸收阳光或我们的药物如何帮助抗击疾病。
随着LCLS的升级,科学家正在从每秒120个脉冲增加到每秒1百万个脉冲。这将产生10,000倍的X射线光束,从而可以对以前无法研究的系统进行新颖的研究。但是,这也将带来巨大的数据挑战:在给定的时间段内,X射线激光将产生比以前多数百至数千倍的数据。
为了处理这些数据,由LCLS数据系统部总监Jana Thayer领导的一组科学家正在开发新的计算工具,包括计算机算法和连接超级计算机的方式。Thayer的小组将计算,数据分析和机器学习相结合来确定X射线图像中的图案,然后将分子电影串在一起。
顺其自然
在LCLS,数据不断流动。SLAC高级研究员Ryan Coffee表示:“当科学家有机会进行实验时,要么是12个小时的白天,要么是12个小时的夜晚,而且只有几个班次才能到达下一个团队。” 为了有效利用宝贵的实验时间,必须完全避免瓶颈,以保持数据流及其分析。
流式传输和存储数据对网络和计算资源提出了重大挑战,并且能够近实时地监视数据质量意味着需要立即处理数据。使之成为可能的关键步骤是在存储数据以进行进一步分析之前,尽可能减少数据量。
为此,Thayer的团队已使用多种压缩方式实现了实时数据压缩,以减少记录的数据大小,而不会影响科学结果的质量。一种称为否决的压缩形式会丢弃不需要的数据,例如X射线未对准目标的图片。另一种称为特征提取,仅保存科学上重要的信息,例如X射线图像中光斑的位置和亮度。
泰耶说:“如果像今天一样保存所有原始数据,每年将花费我们25亿美元的四分之一。” “我们的任务是在写数据之前先弄清楚如何减少数据。我们开发的新数据系统真正精巧,创新的部分之一是数据减少管道,该管道可删除不相关的信息并减少需要删除的数据。转移和存储。”
Coffee说:“那么,您可以节省很多功率,但是更重要的是,您可以节省吞吐量。如果必须通过网络发送原始数据,那么您将完全不知所措,它试图每隔一微秒发送一次图像。 ”
该小组还创建了一个中间位置,可在数据存储之前放置它们。Thayer解释说:“我们无法直接写入存储,因为如果系统出现故障,它必须暂停并等待。或者,如果出现网络故障,那么您可能会完全丢失数据。因此,我们有一个我们可以写入的很小但可靠的缓冲区;然后我们可以将数据移到永久存储中。”
推动创新
Thayer强调,该数据系统旨在为研究人员提供与当前系统一样迅速的工作结果,因此他们可以获得实时信息。它还旨在适应未来10年LCLS科学的扩展。最大的挑战是要跟上数据速率的巨大飞跃。
她说:“如果您想象从每秒分析120张图片到每秒1百万张图片,则需要更多的滚动。” “计算不是魔术,它仍然以相同的方式工作,我们只是增加了处理每张图片的大脑数量。”
在美国能源部最近颁发的奖项的支持下,该团队还与美国能源部国家实验室综合体的同事合作,还希望整合人工智能和机器学习技术,以进一步减少要处理的数据量并标记有趣的功能在它们出现的数据中。
为了理解LCLS数据的挑战,Coffee对自动驾驶汽车进行了类比:“它们必须实时进行计算:他们无法分析刚刚记录的一批图像,然后说:“我们预测您应该左转图像编号10.“ SLAC的数据传输率远远高于任何这些汽车,但问题是相同的-研究人员需要引导他们的实验来找到最令人兴奋的目的地!”
未来几年,升级将推动数据速率和性能的飞跃,分为两个阶段,包括LCLS-II和随后的高能耗升级。数据专家的工作将确保科学家可以充分利用两者。Coffee说:“最终,它将对我们能做的科学类型产生巨大影响,从而开辟了当今不可能的机遇。”