바이든 정부에서는 이 section 1557을 업데이트하려는 시도까지 했습니다.
특히나 인상깊은 부분은 92.210 조항인데요, 이 조항은 다음처럼 기술합니다.
▪ … a covered entity must not discriminate against any individual on the basis of race, color, national origin, sex, age, or disability through the use of clinical algorithms in its decision-making …
이 조항의 실질적 의미는 디지털 치료제를 비롯한 새로이 개발되는 clinical algorithm들이 차별적이지 않아야 한다, 즉 학습 시점부터 데이터에 대한 bias가 끼어있지 않아야 하거나 이를 극복하기 위해 노력해야 한다는 것을 함의한다고 해석해도 무방합니다. 다만 이는 clinical algorithm을 사용하는 것을 훼방하거나 막으려는 조항이 아님을 분명히 밝히고 있는데요, 불행히도 이 조항의 의도대로 의료계가 돌아갈 것 같지는 않습니다. 특히나 인공지능이나 머신러닝과 같은 복잡한 알고리즘은 소위 말하는 블랙박스로 간주되기 때문에 내부 인자 하나하나가 어떻게 돌아가는지 알기는 사실상 불가능하고, 따라서 어떤 인자가 차별을 야기하는지, 따라서 삭제하거나 변형시켜야 하는지 아는 것은 어불성설이기 때문입니다.
따라서 DHHS의 해당 조항은 두 가지 입장을 나눠서 보는 것이 타당한데요,
1. 첫 번째로는 머신러닝이나 딥러닝과 같은 복잡한 기술에 대해서는 차별을 제거하기 위해 가능한 최선의 노력을 하라는 말에 가깝고
2. 머신러닝이나 딥러닝이 아닌 다른 임상적 알고리즘들, 예를 들어 사구체여과율 추정과 같은 알고리즘에 있어서는 소외되는 집단이 없도록 최선을 다하라는 말이 되겠습니다.
인공지능이나 머신러닝에 대해서 조금 더 이야기해보면 바로 위에서 이야기한 1번의 측면은 데이터, 혹은 학습의 측면입니다. 따라서 DHHS는 외부 cohort 타당도 검증을 할 때
▪ 언제 쓸 수 있고 어떻게만 써야 하는지
▪ 어떤 집단에 대해서 검증을 수행했는지
▪ 가능한 다양한 집단에 대해 검증하며 숨어있는 bias를 찾아내려고 노력했는지
와 같은 것들을 잘 고민하라고 이야기하고 있습니다. 역시나 이것은 이상에 가깝다고 보아야 합니다. 거대 병원, 혹은 다기관 연구가 가능한 연구 그룹 혹은 회사가 아닌 이상에야 실제 환자들은 병원마다 bias가 될 것이 뻔하기 때문입니다. 엄포가 무섭지만, DHHS가 이러한 규제 혹은 윤리강령을 위반하는 제품, 연구들에 얼마나 큰 패널티를 줄지는 아무도 모릅니다.
임상 의사들에게 신기술을 쓰게 장려하는 것은 의학의 발전을 위해 필수적이지만 동시에 이러한 차별성을 경계하는 것, 이 두 가지는 양날의 검입니다. 또한 DHHS가 규제하겠다고 했기 때문에 DHHS 자신들이 언제 규제하고 언제 규제하지 않을지 리더십을 제시하는 것이 중요해지겠죠. 이를 위한 DHHS의 역할은 다음 정도는 포함되어야 할 것입니다.
1. 의료 전문가들에 대한 safe harbor (특정 조건, 상황 하에서는 법적 책임이나 의무에 대한 위반으로 야기되는 벌칙을 피할 수 있는 제도적 장치) 의 마련
a. 단순히 AMA (American Medical Association; 미국의사협회) 의 가이드라인이나 플로우차트를 따르기만 한다면 의학 발전은 없을 것입니다. 따라서 SaMD (Software as a Medical Device)와 같은 준칙을 따르면 92.210조항을 피해 갈 수 있는 것과 같은 제도적 회피를 제공해야 한다는 말입니다.
2. DHHS는 FDA와 긴밀히 협력하여 임상 알고리즘의 최적의 검증 수단을 찾아야 합니다.
a. FDA는 의료기기를 통제하기 때문에 소프트웨어도 당연히 규제 대상에 포함됩니다. 따라서 FDA는 510(k)와 같은 규제에 대해서 의료 소프트웨어 기기 회사들, 특히 AI나 머신러닝을 통해 진단 보조를 하려는 회사들에게 가이드라인을 제시해야 할 것입니다.
b. DHHS는 반면 임상 의사들에게 어떻게 해야 숨어있는 bias를 찾아낼 수 있을지 그에 대한 방법론 교육 및 가이드라인을 제시해야 할 것입니다.
문제는 이는 biased된 알고리즘이 차별을 하는 것을 막기 위한 필요조건밖에 되지 못한다는 것이고, CDSS (Clinical Decision Support Software)과 같은 소프트웨어는 FDA의 규제 범위 바깥에 있기 때문에 이러한 노력이 물거품이 될 가능성도 있습니다. 이상적인 말을 하자면, 종래에는 이러한 규제 기관 및 규제 정책들이 다 갈아엎어져야 한다는 말까지도 극단적으로 해 볼 수 있겠지요.
▶ 그리고 정밀 의료
폐암을 생각해 봅시다. 폐암은 다 똑같을 것만 같지만 소세포암, 비소세포암으로 구분되고 비소세포암은 편평상피암, 선암, 거대세포암으로 구분되며 이들은 분자나 유전자 돌연변이에 따라 수많은 종으로 구분됩니다. 인류가 이를 처음부터 알지는 않았을 것입니다. 의학이 발전하며 폐암을 세분화하게 되고 이러한 세분화가 진단과 치료에 영향을 주어 비소세포암과 소세포암의 치료가 달라지는 등 점점 복잡해지고 다양한 과학적 발견들이 진행되고 있습니다.
현대 의학은 근거 중심 의학(EBM; Evidence-Based medicine)이라고 불립니다. 통계적 방법론을 동원하여 어떤 약, 치료가 좋다는 것을 과학적으로 입증하고 이것을 바탕으로 표준 치료 방침이 수행되는 것이지요. 이 과정은 이제 의학 연구의 표준으로 자리잡았습니다. 사람들은 그 다음 의학이 나아가야 할 방향으로 눈을 돌리기 시작했고, 그것이 바로 정밀 의료(precision medicine)입니다.
사실 정밀 의료는 과거부터 있었습니다. 아니, 사실은 의학 통째로가 정밀 의료로 나아가고 있었다고 해도 과언이 아니지요. 비슷한 증상을 보이는 환자들을 묶어 하나의 질환으로 생각했다가, 시대가 지나고 의학이 발전하며 비슷한 증상이지만 원인이 다른 환자들을 구분할 수 있는 방법론 및 진단기준이 생기고, 그것이 다시 또 세분화되고, 세분화되고, 세분화되고…를 반복하는 것이지요. 이러한 정밀 의료가 의료인공지능의 윤리와 어떤 관련이 있길래 저는 정밀의료를 말하는 것일까요?
바로 bias가 없는 완벽한 모델의 탄생은 정밀의료의 궁극적 목적과 맞닿아있기 때문입니다. 만약 백인 데이터에 대해서 학습했던 모델을 흑인, 황인에게 적용하여 잘못된 결과를 얻었다면, 이 모델 혹은 진단기준 혹은 치료는 [인류]라는 거대한 그룹을 세분화하지 못한 정밀의료의 반대 지점에 서있는 모델이기 때문입니다. 하지만 정말로 압도적으로 다양한 데이터에 대해서 학습되었거나, 다양한 인종 혹은 남여노소, 정상인을 비롯한 수많은 질환을 가진 데이터에 대해서 임상적인 검증이 된 모델이 있다면 bias는 적을 것이고 동시에 개개인에 대한 상황 맞춤형 모델이 될 것이기 때문에 정밀의료 바로 그 자체를 구현한 것이 되는 셈일 것이기 때문이죠.
여기까지 상당히 이상적이고 관념적인 이야기였습니다. 의학의 발전은 의학의 말소에 있습니다. 의학의 궁극적 목표인 인류의 무병, 불로장생에 대해 만약 모든 사람이 무병, 불로장생한다면 의학이 더 이상 필요가 없어지는 날이 올 것이기 때문이죠. 그렇다고 의학이 의미없다고 주장하는 사람은 이 세상에 없을 것입니다. 자신의 소멸을 위해 끊임없이 노력하는 의학은 실제로 사람들을 살리고 생명을 연장시켜주니까요.
이처럼 어찌 생각하면 순전히 무지개만 좇는 인공지능의 윤리, 혹은 그와 동치일지도 모르는 정밀의료는 사실상 구현이 불가능할 것입니다. 중요한 것은 달성 가능하냐가 아니라, 우리가 어디까지 노력했냐가 아닐까 싶습니다. 위대한 천문학자 수브라마니안 찬드라세카르(Subrahmanyan Chandrasekhar)의 장례식에서 에드워드 윌슨(Edward O.Wilson)이 했던 말을 인용하며 글을 마치겠습니다.
▪ Let us see how high we can fly before the sun melts the wax in our wings.
태양빛이 우리 날개의 밀랍을 녹이기 전까지 어디까지 날 수 있는지 한 번 날아나 보자(크레타 섬을 탈출하는 이카루스 신화를 언급하며).