모델에게 환자에 대한 정보가 제시하고
진단과 치료에 도움이 될 후속 질문을 제안하도록 요청받는 예시 시나리오 연구
모델이 단어 매칭을 넘어선 개념이해 가능
The model’s most likely completions are “visual disturbances,” and “proteinuria,” two key indicators of preeclampsia. 19 We noticed that the model activated a number of features that activate in contexts discussing preeclampsia and its associated symptoms. Some of these features, like the example below, activate most strongly on the word “preeclampsia.” Notably, in this prompt, the word “preeclampsia” does not appear – rather, the model represents it internally, apparently using similar internal machinery as if the word were spelled out explicitly.
주목할 점은 이 프롬프트에서 "자간전증"이라는 단어가 나타나지 않는다는 것.
오히려 모델이 이를 내부적으로 표현하며, 마치 그 단어가 명시적으로 철자로 쓰여진 것처럼 유사한 내부 기계장치를 사용하는 것


모델이 생각하는 과정

- 모델은 환자의 상태와 증상에 해당하는 특성들을 활성화
– 임신, 우상복부 통증, 두통, 혈압 상승, 그리고 간 이상. 이것들은 진단적 추론 과정의 입력값 역할. - 이러한 환자 상태 특성들은 집합적으로 잠재적 진단을 나타내는 특성들을 활성화하며, 자간전증이 주요 가설로 부상.
모든 상태 특성들이 동등하게 기여하는 것은 아니라는 점에 주목 – 임신 특성들(혈압 특성들이 그 뒤를 따름)이 자간전증 특성들에 대한 가장 강력한 입력값이며, 나머지는 더 약하게 기여. - 또한 모델은 동시에 대안적 진단을 나타내는 특성들, 특히 담낭염이나 담즙정체와 같은 담도계 질환들을 활성화.
- 자간전증 특성들은 자간전증 진단에 대한 확증적 증거를 제공할 추가적 증상들을 나타내는 하위 특성들을 활성화하며, 여기에는 모델의 가장 가능성 높은 두 응답에 해당하는 시각 결손과 단백뇨가 포함.
모델은 가중치 중심으로 의사를 결정한다는 증거
가중치 조작을 통한 예상 가능 방향으로 진단

We see that the features corresponding to various preeclampsia-associated symptoms are de-activated by the intervention. The model’s most likely response changes to suggest asking about decreased appetite, a common symptom of biliary system disorders like cholecystitis — the other candidate diagnosis the model originally considered!
모델의 가장 가능성 높은 응답이 식욕 감소에 대해 질문하도록 제안하는 것으로 변화했는데,
이는 담낭염과 같은 담도계 질환의 일반적인 증상입니다. 이는 모델이 원래 고려했던 다른 후보 진단.
한계
We compute an attribution graph for the “chest” token at the beginning of the Assistant’s response. We see features representing acute coronary syndrome and associated angina (chest pain), features representing heart failure, and features representing cardiovascular symptoms more generally. Collectively, these features upweight the “chest” response, including via intermediate “chest pain” features. The “heart failure” features receive input from “swelling of ankles/feet” features and “shortness of breath” features, and also upweight features relating to coughing / respiratory symptoms, another symptom of heart failure. By contrast, the inputs to the acute coronary syndrome features are less clear – it receives only weak input from any of the features representing listed symptoms. This case is interesting because chest pain is an excellent question to distinguish between the possibilities of acute coronary syndrome and heart failure, as the former more typically causes acute/severe chest pain. It is not clear to us from the graph whether the model is truly reasoning about the differential likelihood of chest pain between the two diagnoses. It is also not clear whether the model’s response is influenced by the knowledge that acute coronary syndrome is immediately life threatening.
모델이 의학쪽 사용에 대한 한계를 이야기 한다.
이 사례는 흉통이 급성 관상동맥 증후군과 심부전의 가능성을 구별하는 데 탁월한 질문이라는 점에서 흥미.
전자가 더 일반적으로 급성/심한 흉통을 유발하기 때문이다.
그래프를 통해서는 모델이 두 진단 간의 흉통 발생 가능성의 차이에 대해 진정으로 추론하고 있는지 명확하지 않다.
또한 모델의 응답이 급성 관상동맥 증후군이 즉각적으로 생명을 위협한다는 지식의 영향을 받고 있는지도 명확하지 않다.
728x90