“我认为人们意识到当我们听到人工智能并思考人工智能时,他们往往会关注‘智能’这个词,但他们需要关注的是‘人工’,这一点非常重要,”卡恩解释道。“这些工具是人为制造的,它们拥有人类可以构建的所有错误机会。我们还知道系统可以获取偏见和偏见,并通过使用人工智能认为的捷径学习被引导到报春花的道路上与不是正确连接的事物建立联系。”
他说,用于识别肺炎的放射学 AI 系统使用 X 射线上的字母“L”来识别患者的左侧是否以某种方式定位。在另一个擅长通过 X 射线识别结核病 (TB) 的 AI 应用程序中,发现 AI 在看到用于训练系统识别的图像角落中的“TB 诊所”字样时评估了阳性患者结核病患者,而不是自己查看临床图像。
“这些事情意味着我们必须小心谨慎地测试这些系统,并且我们必须非常严格地处理这些事情,”卡恩解释道。“您确实必须在您的患者群体中测试这些系统的过程,因为有时可能会出现一些小问题,因为系统不是为您在实践中的人群构建的,因此它表现不佳。”
这些小事情可能包括不正确的发现,因为某些种族和种族群体、老年和年轻患者、男性和女性、瘦弱肥胖患者以及积极与久坐生活方式的人之间的临床表现存在差异。
当引入新变量时,人工智能算法的性能也可能发生变化,例如购买具有不同成像参数的新 CT 扫描仪。
“也许你检测肺结节的人工智能算法运行良好,你购买了一台新的 CT 扫描仪,或者你升级了图像重建内核,现在人工智能的性能没有达到以前的水平,”卡恩说。“所以你所做的每一件事都需要非常仔细和深思熟虑的分析。”
尽管供应商可能会说使用其 AI 是多么容易,但 Kahn 解释说,要对您自己的患者群体的算法进行双重检查,并检查所有可能影响您所在机构的 AI 评估的变量,这并不容易。