(※주의: 저는 감염병과 관련된 전문적인 지식이 전혀 없는 보통사람이며 이 글은 그저 호기심에 재미삼아 추측해본 것에 불과합니다)
요약
오늘 후베이에서 확진자 수가 급증하긴 했으나, 여전히 기존 예상대로 일별 신규확진자 수는 빠른 속도로 감소해 2월 말 정도 되면 거의 없을 거 같음. 후베이 외 추이에는 아무런 영향이 없을 것이며, 최종 확진자 수 예상치만 약 6.7만 명 전후로 바뀜. 내 생각이 맞다면 오차가 좀 있을 수는 있지만 내일 신규확진자는 대략 1,500~1,900명 정도 범위 나오고 이후 급감.
후베이에서 사례정의를 바꿨다
엊그제 내가 쓴 글에서 우한은 인프라부족으로 다른 곳과 감염자 집계 방식이 달라서 폐렴증상이 있는 사람만 진단하고 있고, 이걸 다른 지역처럼 전체 증상으로 확대하면(다시 말해 사례정의를 바꾸면) 그 차이가 1.5배 이내 가 아닐까 추측했었다. 이건 내가 감으로 국내 등 우한 외 지역에서 1차감염자가 내 기존 예상보다 많이 나온 것과 치사율 차이 등등을 고려한 숫자였는데 왜 지금까지 통계가 크게 늘지는 않았을까하는 의구심은 좀 남아있었다. 과거에 반영시켰다고 하기엔 그 폭이 너무 작고 계속 집계를 안하면 나중에 통계 문제가 생길 것 같고…
마침 오늘 위의 이유로 후베이 통계 집계 방식이 바뀌었는데 내가 생각했던 이유로 추가된 후베이 확진자가 13,332명이고 기존 확진자 수가 33,366명이니 내 예상과 비슷한 범주(1.5배 이내)의 숫자가 추가됐고, 남아있던 의문이 또 하나 풀렸다. ㅎㅎ
결론적으로 과거에 중국 2월 5일 쯤 확진자가 갑자기 늘었던 건 내가 혹시나 했던 사례 정의 변화 때문이 아니라 SIQ모델 추이에 따른 것 또는 단순한 오차였던 것이고(지금 들쑥날쑥하며 하락하듯), 국내 1차감염자가 예상을 넘어선 건 후베이쪽 사례정의 차이 때문이라는 내 추측이 맞았던 것 같다.
향후 확진자 수 추정에 미치는 영향은?
오늘 후베이 지역 기준 변경은 최종확진자 수만 영향을 미치고 확진자 감소 추이나 진정시기에 변화를 주지는 않을 것으로 생각한다. 왜냐하면, 감염이 먼저 일어나고 폐렴증상이 나중에 발생하는 것이라고 하면, 이미 기존 폐렴증상이 있는 신규확진자 수가 감소추세에 들어섰다는 것은 바뀐 기준의 신규확진자 수도 이미 그 전에 감소추세에 들어섰다는 뜻이 되기 때문이다.
향후 데이터를 예상하려면 과거데이터부터 재구성해야 하는데, 감염에서 폐렴증상 까지 걸리는 평균 기간이 얼마냐에 따라 향후 추측을 다르게 할 수 있긴하다. 이걸 어떻게 알 수 있을까? 내가 지금 시점에서 생각해볼 수 있는 건, 어쩌면 과거기준 신규감염자수 피크 시기가 후베이와 기타지역이 서로 1~2일 정도 차이가 있었는데, 이 이유를 다른증상에서 폐렴증상까지 평균 1~2일 정도 더 걸렸기 때문이 아니었나 추측해보는 것이다.
또, 후베이만 볼 때 바뀐기준 확진자 48,206명 중 기존기준 확진자는 34,874명이므로 대략 38% 정도 더 많은 수인데(퇴원환자를 고려하면 좀 더 높음) 과거에도 이 비율이 비슷하게 유지되었을 것으로 보는 것이다. 이를 토대로 바뀐기준의 과거 신규확진자 수를 재구성해보면 다음과 같다.
만약 오늘 바뀐기준으로 후베이 신규확진자수의 과거데이터를 재구성한다면, 위 그림처럼 대략 1.4배 높으면서, 하루정도 더 빠르게 피크를 찍은 그래프 모양을 그렸을 것이라고 추측했다. 고로 내 생각이 맞다면, 오늘 기준을 바꿨다고 하더라도 2월 말까지 빠른 속도로 감소해 진정되는 것은 크게 달라지지 않으며, 후베이 외 지역 추이에는 아무런 영향이 없을 것이며, 최종 확진자 수를 추정해보면 약 6.7만 명 전후가 된다.
내 예상이 맞다면 오늘 확진자가 크게 늘었다고 하더라도 내일 다시 안정적으로 신규확진자가 1,500~1,900명 전후 정도로 나오고 계속 급감할테니 바로 확인 가능하다.
여담. SIQ로 추정하기
직전 글을 쓰고 나서 내가 만든 격리를 고려한 감염모델인 SIQ를 이용해 대충 선형이나 로그그래프로 근사하는 거 말고, 수학적으로 엄밀하게 추정해볼 수는 없을까 하다가 아이디어가 떠올랐다.
logistic equation을 이용해 추정하는 방법은 지난번 글에 인용한 김범준 교수님 자료에 소개되어 있고, 기사도 나왔다.
내가 이해하기론
여기서 (1/N)*dN/dt=-r/K*N + r 이므로
y축을 1/N*dN/dt, x축을 N 으로 놓고 그래프를 그리면
기울기가 -r/K , y절편이 r, x절편이 K인 직선이 되므로 선형회귀로 예상치를 구할 수 있다.
그런데 내가 만든 SIQ 모델에서는 이 그래프가 직선이 아니라 ㄴ자 모양 곡선이 나온다.
이게 어떤 곡선인지 궁금해 여러 가정을 바꿔서 그려보니 로지스틱곡선의 일부처럼 보였다. 그래서 곰곰히 생각해보니 SIQ에서 신규감염자 수를 계산할때 격리를 고려해 전체감염자 수가 아니라 최근 n일간(감염->격리까지 기간) 감염자 수로 했기 때문인데, 여기서 좋은 아이디어가 떠올랐다. 결국 SIQ를 수학적으로 쓰면 N’를 격리되지 않은 감염자수(=최근 n일간 감염자 수) 라고 할 때
dN/dt=rN'(1-N/K) 가 되는데
(1/N’)*dN/dt= -r/K*N + r 이 되므로 y축을 다르게 계산해서 그리면 역시 선형회귀로 예측할 수 있을 것 같았다. 그래서 SIQ 모델로 이걸 그려보니 예상대로 선형분포가 나왔다.
그런데 문제는 여기서 나오는 K값은 최종확진자 수와 다른 숫자라는 점이다. 그럼 이걸로 어케 최종확진자 수를 추정할까? 이걸 가지고 수학적으로 유도하면 N의 극한값을 구하는 식을 만들 수 있을 것 같기도 한데, 나는 그 정도 수준은 안되고, 그냥 저걸 선형회귀로 직선으로 그린 뒤에 다시 y축을 바꿔서 그린 그래프의 x절편을 확인하는 방식으로 찍어보면 되지 않을까? 일단 먼저 코로나-19(신종코로나 바뀐이름)에 이걸 써먹어 보려고 시도해봤다.
코로나-19의 확진자수 SIQ로 예상
음 나는 로지스틱모델로 설명할 때 초기 ㄴ자 부분의 꺾이는 데이터를 SIQ모델로 y축을 바꿔면 직선 모양으로 나타날 것으로 예상되므로 별 차이는 없더라도 조금이라도 더 세밀한 추정이 가능할 것으로 생각하고 시도해보았는데, 결론적으로 막상해보니 어려웠다. 가장 어려운건 감염->격리까지의 기간을 추가로 추정해야 하는데 격리초기 데이터 몇개로는 이 추정이 쉽지 않았다, 이 문제는 내 수준에서는 좋은 방법이 없어보인다. 그래서 그냥 대략 맞추는게 최선인 거 같기도 하다. 이건 나중에 좀 더 공부가 되면 업데이트 해보려고 한다.
https://www.facebook.com/1774995645/posts/10207076640872491/
김범준 교수님도 같은 의견을 내셨네요 ㅎㅎ