중앙대학교 인문콘텐츠연구소

HK+인공지능인문학

아카이브칼럼

칼럼

글보기
음성 바이오마커: 질병 예측, 혈액 대신 목소리로 알아본다?
Level 10조회수75
2023-07-03 16:51


CEO처럼 카리스마 있다, 장난기 있다, 밝다, 애교가 넘친다, 신뢰가 간다, 젊다, 나이가 많다, 남성적이다, 여성적이다, 온화하다, 차갑다, 퉁명스럽다, 사랑스럽다. 이 표현들은 사람의 외모에서 풍기는 인상을 묘사하기 위해 사용할 뿐 아니라 사람의 목소리에서 받은 느낌을 묘사하기 위해서도 흔히 사용한다. 이렇듯 목소리는 타인을 언급할 때 자석처럼 따라붙는 묘사 항목으로 사람의 인상을 결정짓는 데 있어 외모에 버금가는 요소 가운데 하나이다. 

목소리와 관련한 연구에 따르면 남성의 목소리는 사회적 지위 및 소득과도 관련성이 있다고 한다. 미국 듀크대 연구진1에 따르면 729명의 미국 공기업의 남성 CEO의 목소리와 해당 기업의 여러 경영지표 간 상관관계를 분석한 결과, 중저음의 굵은 목소리 톤의 소유자일수록 더 큰 기업을 운영하고 더 많은 돈을 버는 것으로 나타났다. 나아가 더 오랫동안 재직하는 것으로 드러났다. 한편 선거에서 정치인 후보자의 목소리는 그들의 외모만큼 투표에 영향을 미치는 것으로 알려져 있다. 가령 미국의 유권자들은 음도(pitch)가 낮은 여성과 남성 정치인 후보자를 음도가 높은 후보자에 비해 더 선호하는 것으로 알려져 있다2

목소리는 사람에 대한 인상 묘사를 넘어 몸상태 및 신체적 정신적 질병을 알려주는 신호역할을 한다. 간단한 예로, 목감기에 걸렸을 때 목소리가 변하는 현상을 들 수 있다. 근래 인공지능 기술의 고도화와 빅데이터의 축적에 힘입어 산학계는 디지털 헬스케어(digital healthcare) 기술 개발에 있어 신체 내부의 변화에 근거하여 질병의 상태를 구분하고 예후를 예측할 수 있는 바이오마커(biomarker, 생체지표자)로서의 목소리에 주목하고 있다. 특히 파킨슨병은 음성 바이오마커 연구가 활발하게 진행되는 질병가운데 하나이다. 음성 바이오마커 관련 파킨슨병 진단 연구는 주로 목소리의 크기가 작아지고, 숨이 차거나 쉰 목소리가 나오거나, 자음이 부정확하고 모음 발음이 왜곡되거나, 음의 높낮이가 감소하고 단조로워지는 등 파킨슨병에 수반되는 음성 및 언어 장애 패턴과 관련하여 기계학습 또는 딥러닝 기법을 적용하는 방식으로 진행된다. 

일례로 최근 호주에서 진행한 한 연구3에서는 파킨슨병 환자의 ‘아’, ‘오’, ‘엠’ 발화를 녹음하여 음성 신호로부터 특정 자질(features)을 선별 및 추출하여 서포트 벡터 머신(Support Vector Machine)을 적용하였다. 그 결과, 음소 ‘오’의 자질은 다른 두 음소 ‘아’와 ‘엠’의 자질에 비해 파킨슨 환자 집단과 비(非)파킨슨 집단을 훨씬 더 정확하게 분류하였다. 또한 ‘아+엠+오’ 조합은 ‘오’뿐 아니라 ‘아+엠’, ‘엠+오’, ‘아+오’ 조합에 비해 파킨슨병 여부를 훨씬 더 정확하게 분류하는 것으로 나타났다. 

음성 바이오마커 개발은 우울증 연구에서도 활발하게 진행되고 있고, 인공지능 기반 기술은 우울증을 판단하고 평가 도구를 개발하는데 활용성이 클 것으로 기대된다. 한 프랑스 연구진4의 연구 사례를 들어보면, 우울증 정도를 파악하기 위한 면담자의 질의에 대한 우울증 환자의 응답 내용을 녹음한 오디오 파일에서 생성한 스펙트로그램(spectrogram)에 기반하여 딥러닝 기법인 Convolutional Neural Network(CNN)을 적용하였다. 환자의 오디오에서 모음과 자음 음소를 분리 추출하여 분석한 결과, 우울증 판별에 있어 자음 기반 CNN의 정확도는 78.77%였고, 모음 기반 CNN의 정확도는 80.98%였다. 또한 모음과 자음 기반 CNN 기법을 결합하여 사용하였을 경우 우울증 판별 정확도는 86.06%에 달했다. 

한편 의학적 진단을 위한 아기의 울음소리 분석은 매력적인 비침습적 기법으로서 학계의 많은 관심을 받고 있다. 한 캐나다 연구진5의 연구 사례를 들어보면 신생아의 울음소리에 기반한 딥러닝 연구를 통해 건강한 신생아와 그렇지 않은 신생아에 대한 판별이 가능한 것으로 나타났다. 연구진은 캐나다 몬트리올의 병원 한 곳과 레바논의 병원 두 곳에서 생후 1일~53일의 건강한 신생아의 울음소리와 호흡기, 혈액, 중추신경계 장애 등이 있는 신생아의 울음소리를 녹음하였다. 울음소리 파일 길이는 2분~3분이었다. 연구진은 세 가지 딥러닝 기법, CNN, Deep Feedforward Neural Networks (DFFNN), Long Short-Term Memory (LSTM)을 사용하여 결과를 비교 분석하였다. 그 결과 CNN 기법이 건강한 신생아와 건강하지 않은 신생아의 울음소리 판별에 있어 가장 높은 정확도를 보였고, DFFNN 기법이 다음으로 높게 나타났다.  

2022년 미국의 음성 인공지능 헬스케어 스타트업 기업인 ‘손드 헬스(Sonde Health)’는 목소리만 입력하면 목소리의 강약, 음도, 성대 움직음 등을 분석해 몸상태와 질병 여부를 판별하는 앱 프로그램을 개발했다. 손드 헬스에 따르면 6초짜리 목소리를 입력하면 천식 여부를 판별하고, 30초짜리 목소리를 입력하면 우울증 여부를 판별할 수 있다고 한다. 국내 사례로는 강릉 아산병원 호흡기·알레르기내과 문경민 교수가 개발한 기침 소리로 호흡기·폐 건강을 확인할 수 있는 앱 ‘WAYMED Cough(웨이메드 코프)’를 들 수 있다. 

이렇듯 음성 바이오마커는 10초미만의 목소리만으로 특정 질병 여부를 판별할 수 있는 장점이 있다. 하지만 음성 바이오마커 기술 개발은 비교적 신생 산업 분야로 세계 도처에서 사용 가능한 표준화된 평가 알고리즘 개발을 위해서는 양질의 음성 데이터 확보와 음성 자질 가운데 해당 질병 예측을 위한 최적의 자질을 탐색하는 것은 해결해야 할 과제로 남아 있다. 나아가 EU의 일반 데이터 보호 규칙(General Data Protection Regulation)에서는 목소리는 개인의 신체적 또는 생리적 식별에 이용되는 비익명성 데이터로 간주한다. 또한 미국에서는 일리노이 생체정보 개인정보 보호법(Biometric Information Privacy Act of Illinois)은 목소리를 손가락 지문과 같이 개인 식별에 이용되는 생체 식별자(biometric identifiers)로 포함하고 있다. 따라서 이러한 윤리적, 규제적 이슈도 풀어야 할 숙제이다. 마지막으로 음성기반 바이오마커와 관련하여 ‘손드 헬스’의 창업자이자 최고경영책임자인 짐 하퍼(Jim Harper)의 이야기6를 들려주면서 이 글을 끝맺고자 한다. 

“음성 기반 기술은 체온계와 같다. 체온계는 진단을 하지 않는다. 대신 체온이 정상 범주에서 얼마나 벗어나 있는가에 대한 단서를 제공하고, 우리로 하여금 적절한 조치를 취하도록 알려준다. 이것이 바로 음성 기반 바이오마커가 제공하는 정보에 대해 우리가 취해야 할 바람직한 태도이다.”  

남영자(중앙대학교 인문콘텐츠연구소 HK연구교수)

____________________________________ 

1. Mayew, W.J., Parsons, C.A. and Venkatachalam, M., 2013. Voice pitch and the labor market success of male chief executive officers. Evolution and Human Behavior, 34(4), pp.243-248.
2. Klofstad, C.A., Nowicki, S. and Anderson, R.C., 2016. How voice pitch influences our choice of leaders: when candidates speak, their vocal characteristics--as well as their words--influence voters' attitudes toward them. American Scientist104(5), pp.282-288.
3. Motin, M.A., Pah, N.D., Raghav, S. and Kumar, D.K., 2022. Parkinson’s Disease Detection Using Smartphone Recorded Phonemes in Real World Conditions. IEEE Access10, pp.97600-97609.
4. Muzammel, M., Salam, H., Hoffmann, Y., Chetouani, M. and Othmani, A., 2020. AudVowelConsNet: A phoneme-level based deep CNN architecture for clinical depression diagnosis. Machine Learning with Applications2, p.100005.
5. Lahmiri, S., Tadj, C., Gargour, C. and Bekiros, S., 2022. Deep learning systems for automatic diagnosis of infant cry signals. Chaos, Solitons & Fractals154, p.111700.
6. https://www.zs.com/insights/the-coming-revolution-of-voice-based-digital-biomarkers

중앙대학교 인문콘텐츠연구소
06974 서울특별시 동작구 흑석로 84 중앙대학교 310관 828호  TEL 02-881-7354  FAX 02-813-7353  E-mail : aihumanities@cau.ac.krCOPYRIGHT(C) 2017-2023 CAU HUMANITIES RESEARCH INSTITUTE ALL RIGHTS RESERVED