
하버드 의대와 베스 이스라엘 디아코니스 메디컬센터(Beth Israel Deaconess Medical Center) 연구진이 대규모 언어모델이 응급실(ER) 진단에서 인간 의사와 비교해 동등하거나 더 정확하게 작동할 수 있다는 연구 결과를 Science에 발표했다. 연구진은 실제 응급실 방문 환자 데이터를 바탕으로 OpenAI의 o1 및 4o 모델이 두 명의 내과 전문의(상근 의사, attending physicians)가 제시한 진단과 겨뤄 얼마나 근접한지를 평가했으며, 특히 초기 트리아지(환자 분류) 구간에서 모델 성과가 두드러졌다고 밝혔다.
다만 연구진은 이 결과가 곧바로 AI가 생사의 결정을 내려도 된다는 의미는 아니라고 선을 그었다. 실제 임상에서 기술을 어떻게 검증하고 책임을 어떻게 지울지에 대한 “전향적(prospective) 임상시험”의 필요성을 강조했다. 책임성 프레임워크가 아직 정리되지 않았다는 지적도 함께 제기됐다.
실제 응급실 환자 76명 데이터로 ‘인간 대 AI’ 비교
이번 연구는 하버드 의료진을 포함한 팀이 다양한 실험을 통해 대형 언어모델의 의료 추론 성능을 평가하는 맥락에서 진행됐다. TechCrunch 보도에 따르면, 그중 한 실험에서는 76명의 환자가 베스 이스라엘 응급실에 내원해 진료를 받았고, 연구진은 이 환자에 대해 두 명의 내과 전문의가 제시한 진단과 OpenAI의 o1 및 4o 모델이 생성한 진단을 비교했다.
핵심은 “AI가 환자 정보를 받는 방식”이다. 연구진은 각 진단 시점에서 모델이 당시 전자 의무기록(EMR)에 존재했던 텍스트 기반 정보만을 그대로 제공받게 했다고 설명했다. 즉, 데이터를 미리 가공하거나 모델 성능을 끌어올리기 위한 전처리를 했다는 정황은 없었다고 전해진다.
o1, 초기 트리아지에서 특히 강세…정확도 격차도 공개
연구진은 각 진단의 평가를 별도로 진행했다. 두 명의 전문의(평가자)가 인간 의사안인지 AI 의사안인지 식별하지 못한 상태에서 결과를 검토했다. 그리고 각 “진단 접점(touchpoint)”에서 AI가 인간 의사와 비교해 어떤 성과를 보였는지를 확인했다.
TechCrunch에 따르면 결과는 모델별로 차이가 있었다. 연구진이 제시한 요약에 따르면, o1은 각 접점에서 “명목상 더 낫거나(on par 포함) 두 전문의 수준과 동등”했으며, 그 차이는 특히 첫 진단 접점(초기 ER 트리아지)에서 더 뚜렷했다. 초기 단계는 환자 상태에 대한 정보가 상대적으로 적고 의사결정의 긴급성은 큰 편이어서, 정확한 분류와 판단이 중요하다는 점에서 의미가 크다.
정량 지표로는 ‘정확하거나 매우 근접한 진단’ 비율이 제시됐다. 연구진은 트리아지 사례에서 o1이 67%의 비율로 정확 또는 매우 근접한 진단을 제공했다고 밝혔다. 비교해 한 전문의는 55%, 다른 전문의는 50% 수준이었다고 한다. 단순히 “AI가 항상 더 좋다”는 결론이라기보다는, 특히 정보가 제한된 초기에 o1이 강점을 보였다는 뉘앙스다.
“실전 자동결정”은 아직…전향적 임상시험과 책임성 필요
이번 연구는 AI가 응급실에서 독립적으로 치료 결정을 내릴 준비가 됐다고 주장하지는 않았다. 연구진은 오히려 현장 임상에서 실제 환자 치료 흐름을 대상으로 기술을 평가하는 전향적 임상시험이 “시급하게” 필요하다고 강조했다. 이는 연구 환경이 통제된 실험실 또는 회고적 데이터 기반 평가와 다를 수 있으며, 응급 상황에서는 정보의 누락·시간 압박·인간-기계 상호작용 방식이 결과에 영향을 줄 수 있기 때문이다.
또한 연구진 측에서는 책임성 프레임워크의 부재를 문제로 제기했다. TechCrunch 기사에 따르면 하버드 연구진 가운데 한 의료진은 응급실 진단 같은 생명과 직결되는 영역에서는 현재 “AI 진단에 대한 책임을 둘러싼 공식적 틀”이 마련돼 있지 않다고 경고했다. 환자들이 최종 의사결정과 치료 과정에서 인간이 안내해 주기를 원한다는 점도 함께 언급된 것으로 전해졌다.
의료AI 규제·검증의 다음 단계: 성능만이 전부가 아니다
이번 결과가 주는 가장 큰 신호는 의료AI의 성능이 특정 과제에서 인간 전문가와 경쟁하거나 근접할 수 있다는 가능성이다. 특히 초기 트리아지에서의 성과 차이는 의료 현장에서 의사들이 가장 먼저 내려야 하는 ‘분류’와 ‘우선순위’ 결정이 곧바로 치료 경로를 좌우한다는 현실과 맞닿아 있다.
하지만 성능 수치가 곧바로 임상 적용으로 이어지기 어렵다는 점도 분명하다. 어떤 환자군에서, 어떤 정보가 들어올 때, 모델이 어떤 방식으로 틀리거나(오진/과잉확신), 인간이 어떤 식으로 결과를 검토·보정할 때 안전성이 담보되는지에 대한 추가 검증이 필요하다. 또한 의료기관은 AI 도입 시 법적·윤리적 책임 소재, 환자 고지(동의), 오작동 시 대응 절차를 갖춰야 한다.
What’s Next: 전향적 임상시험과 ‘현장형’ 평가가 관건
연구진이 제시한 다음 단계는 전향적 임상시험이다. 즉, 환자 진료의 실제 흐름 속에서 AI가 어떤 시점에 어떤 제안을 하며, 의료진이 그 제안을 어떻게 사용하고 어떤 기준으로 판단을 최종 확정하는지까지 포함해 성능을 재검증해야 한다. 이 과정은 단일 지표 정확도뿐 아니라 안전성, 지연 시간, 업무 흐름 적합성 같은 운영 지표까지 다루게 될 가능성이 크다.
또한 하버드-베스 이스라엘 연구팀이 명확히 밝힌 것처럼 이번 평가는 “텍스트 기반 정보” 중심이었다. 실제 응급실에서는 비텍스트 입력(예: 영상·생체 신호 등)이 함께 제공되는 경우가 많아, 향후에는 멀티모달 환경에서의 성능과 한계가 후속 연구의 핵심이 될 전망이다. 의료AI가 다음 단계로 나아가기 위해서는 결국 성능과 책임, 그리고 현장 검증이 함께 확보돼야 한다.
댓글