하버드 연구팀, AI가 응급실 진단에서 일부 인간 의사보다 정확—실험 조건은 “텍스트 기반”에 한정

2026년 5월 4일 월요일, '자유게시판' 카테고리에 게시된 뉴스입니다. 제목 : 하버드 연구팀, AI가 응급실 진단에서 일부 인간 의사보다 정확—실험 조건은 “텍스트 기반”에 한정...

하버드 의대 및 베스 이스라엘 데이코니스 메디컬센터 연구진이 진행한 연구에서, 특정 상황의 응급실 진단 업무에서 대형 언어 모델이 인간 의사보다 더 정확하거나 비슷한 성과를 보인 것으로 나타났다. 이번 연구는 Science에 게재됐으며, 환자 전자기록(EMR)에 담긴 텍스트 정보를 그대로 활용해 모델 성능을 평가했다. 다만 연구진은 실제 임상에서 AI가 “생사 결정을 대체할 준비가 됐다”고 주장하지는 않았고, 현실 환자 진료 환경에서의 전향적(프로스펙티브) 임상시험 필요성을 강조했다.

응급실 환자 76명 대상…모델은 1차 분류(트리아지)에서 특히 강세

이번 연구의 핵심 실험 중 하나는 베스 이스라엘 응급실에 내원한 환자 76명을 대상으로 진행됐다. 연구진은 두 명의 내과 전문 레지던트(어텐딩)가 제공한 진단 결과와, 오픈AI의 o14o 모델이 제시한 진단 결과를 비교했다. 중요한 점은 두 모델의 진단이 어떤 쪽(인간/AI)에서 나온 것인지 평가자들이 알지 못한 ‘블라인드’ 방식으로 채점됐다는 것이다.

연구진에 따르면, 모델의 성능은 진단 단계별로 차이가 있었는데, 특히 초기 트리아지처럼 환자 정보가 상대적으로 적고 긴급한 의사결정이 요구되는 지점에서 격차가 더 두드러졌다. 논문은 o1 모델이 각 진단 접점에서 두 어텐딩 의사보다 ‘명목상 더 좋거나(on par)’ 또는 비슷한 성과를 냈다고 밝혔다. 또한 특정 수치로는 트리아지 케이스에서 o1이 정확하거나 매우 근접한 진단을 제시한 비율이 67%로 보고됐다. 이는 한 명의 의사가 55%, 다른 의사가 50%를 기록한 것과 비교된다.

응급실 AI진단 기사 핵심 맥락을 보여주는 이미지 - 이번 연구의 핵심 실험 중 하나는 베스 이스라엘 응급실에 내원한 환자 76명을 대상으로 진행됐다. 연구진은 두 명의 내과 전문 레지던트(어텐딩)...
기사의 핵심 내용을 시각화한 이미지입니다. 이번 연구의 핵심 실험 중 하나는 베스 이스라엘 응급실에 내원한 환자 76명을 대상으로 진행됐다. 연구진은 두 명의 내과 전문 레지던트(어텐딩)가 제공한 진단 결과와, 오픈AI의 o1 및 4o 모델이 제시한 진단 결과를 비교했…

EMR 정보를 ‘가공 없이’ 제공…“텍스트 기반”이라는 한계도 동시에 드러나

연구는 AI가 얼마나 ‘데이터를 전처리해 맞춘’ 결과인지에 따라 해석이 달라질 수 있는데, 이번 연구진은 그 부분에서 비교적 명확한 조건을 제시했다. 하버드 의대 보도자료에 따르면 연구팀은 데이터를 전처리하지 않았으며, 각 진단 시점에서 전자기록에 당시 제공 가능했던 동일한 정보가 모델에 입력되도록 구성했다고 한다.

연구진이 수행한 실험은 응급실 사례뿐 아니라 다양한 의료 맥락에서 모델 성능을 점검하는 형태로 확장돼 있었고, 리드 저자 중 한 명인 아르준 만라이(하버드 의대 AI 랩 책임자)는 “거의 모든 벤치마크에서 시험했고, 기존 모델 및 의사 기준선을 모두 능가했다”고 밝혔다. 다만 성급한 일반화는 위험하다고 연구진 스스로도 경고했다. 예컨대 모델 평가는 주로 텍스트 기반 정보를 다루는 방식으로 한정돼 있었고, 기존 연구들이 시사하듯 현재의 파운데이션 모델은 텍스트가 아닌 비(非)텍스트 입력—영상, 신호 등—에서 추론 능력이 더 제한적일 수 있다는 점이 지적됐다.

“AI는 보조 도구”와 “책임 체계” 사이—현장 적용의 과제

이번 연구는 AI 의료 적용 논의에 불을 붙일 만한 결과지만, 실제 임상 현장에서는 여러 장벽이 남아 있다. 연구진도 실제 응급 상황에서 AI가 독립적으로 생사 결정을 내리도록 승인하자는 주장으로 읽히지 않게 조심스러운 입장을 보였다. 논문은 기술을 실환자 진료에 적용하기 위해 전향적 임상시험이 시급하다고 명시했다.

또한 진단 책임 소재 문제도 빠지지 않는다. 연구에 참여한 베스 이스라엘의 의사이자 리드 저자인 애덤 로드먼은 과거 상황을 인용하며, 현재로서는 AI 진단에 대한 공식적 책임성(아카운터빌리티) 체계가 충분히 마련돼 있지 않다고 경고했다. 환자 또한 생명과 직결되는 순간에서 인간 의사가 함께 판단하고 치료의 어려운 선택을 안내해주길 기대한다는 점이 강조됐다.

응급실 AI진단 기사 영향과 배경을 설명하는 이미지 - 이번 연구는 AI 의료 적용 논의에 불을 붙일 만한 결과지만, 실제 임상 현장에서는 여러 장벽이 남아 있다. 연구진도 실제 응급 상황에서 AI가...
기사의 배경과 파장을 설명하는 이미지입니다. 이번 연구는 AI 의료 적용 논의에 불을 붙일 만한 결과지만, 실제 임상 현장에서는 여러 장벽이 남아 있다. 연구진도 실제 응급 상황에서 AI가 독립적으로 생사 결정을 내리도록 승인하자는 주장으로 읽히지 않게 조심스러운 입장…

정확도 ‘앞섬’의 의미와 다음 단계

그렇다면 이번 결과는 무엇을 의미할까. 우선 응급실의 초기 단계, 즉 정보가 제한된 상황에서 AI가 더 잘 맞힐 수 있다는 신호는 임상의 업무 흐름에도 영향을 줄 수 있다. 연구가 시사하는 바는 “AI가 정답을 대체한다”기보다, 특히 트리아지 같은 초기 의사결정에서 더 나은 후보 진단을 제시하거나 인간 의사의 판단을 보강하는 방식으로 활용될 가능성이다.

그러나 연구 표본이 제한적이고(76명), 입력 정보가 텍스트 EMR에 한정되며, 평가가 특정 병원과 특정 조건에서 이뤄졌다는 점을 감안하면, 다른 병원·다른 응급실 프로토콜·다른 데이터 분포에서 동일한 성과가 재현될지는 추가 검증이 필요하다. 무엇보다 “실시간 임상 워크플로우”에서 AI 제안이 어떻게 전달되고, 의료진이 이를 어떤 방식으로 신뢰·검증하며, 결과적으로 환자 예후가 개선되는지를 보여주는 전향적 연구가 관건이다.

What’s Next

향후에는 하버드·베스 이스라엘 연구진이 말한 전향적 임상시험이 가장 중요한 다음 단계가 될 전망이다. 이 시험에서 연구진은 단순 진단 정확도뿐 아니라, AI가 실제로 처치 선택·검사 전략·입원 여부·오진 및 지연 진단 위험을 어떻게 바꾸는지까지 평가해야 한다. 또한 책임성 프레임을 함께 정비하지 않으면 의료 현장 도입은 속도를 내기 어렵다.

한편 이번 연구는 “의료AI의 성능 검증은 가능하지만, 임상 적용은 별도의 문제”라는 점을 다시 부각한다. AI가 인간을 일부 구간에서 앞선다는 결과가 나올수록, 의료계는 정확도 경쟁을 넘어 안전성·책임성·재현성·워크플로우 통합의 문제를 동시에 해결해야 하는 과제에 직면하게 된다.

이 글에 대해 어떻게 생각하세요?
😊
좋아요 0
😭
슬픔 0
🤬
화남 0
🤩
감동 0
🥳
응원 0

댓글

IP 216.7********