한국어 학습 모델별 한국어 쓰기 답안지점수 구간 예측 성능 비교

제목	한국어 학습 모델별 한국어 쓰기 답안지점수 구간 예측 성능 비교2024-04-13 16:52
작성자	aihumanities
한국어 학습 모델별 한국어 쓰기 답안지점수 구간 예측 성능 비교Comparison of Korean Classification Models’ Korean Essay Score Range Prediction Performance 정보처리학회 논문지 약어 : KTSDE 2022, vol.11, no.3, 통권 114호 pp. 133-140 (8 pages) 발행기관 : 한국정보처리학회 연구분야 : 공학 > 컴퓨터학 조희련 /Heeryon Cho ¹ , 임현열 /Im, Hyeon-yeol ² , 이유미 /Yi Yumi ³ , 차준우 /Cha Jun Woo ⁴ ¹중앙대학교 ²중앙대학교 ³중앙대학교 ⁴중앙대학교 초록 열기/닫기 버튼 우리는 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 문제에서 세 개의 딥러닝 기반 한국어 언어모델의 예측 성능을 조사한다. 이를 위해 총 304편의 답안지로 구성된 실험 데이터 세트를 구축하였는데, 답안지의 주제는 직업 선택의 기준(‘직업’), 행복한 삶의 조건(‘행복’),돈과 행복(‘경제’), 성공의 정의(‘성공’)로 다양하다. 이들 답안지는 네 개의 점수 구간으로 구분되어 평어 레이블(A, B, C, D)이 매겨졌고, 총 11건의점수 구간 예측 실험이 시행되었다. 구체적으로는 5개의 ‘직업’ 답안지 점수 구간(평어) 예측 실험, 5개의 ‘행복’ 답안지 점수 구간 예측 실험, 1개의혼합 답안지 점수 구간 예측 실험이 시행되었다. 이들 실험에서 세 개의 딥러닝 기반 한국어 언어모델(KoBERT, KcBERT, KR-BERT)이 다양한훈련 데이터로 미세조정되었다. 또 두 개의 전통적인 확률적 기계학습 분류기(나이브 베이즈와 로지스틱 회귀)도 그 성능이 분석되었다. 실험 결과딥러닝 기반 한국어 언어모델이 전통적인 기계학습 분류기보다 우수한 성능을 보였으며, 특히 KR-BERT는 전반적인 평균 예측 정확도가 55.83%로가장 우수한 성능을 보였다. 그 다음은 KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었다. 나이브 베이즈와 로지스틱 회귀 분류기의 성능은각각 52.52%와 50.28%였다. 학습된 분류기 모두 훈련 데이터의 부족과 데이터 분포의 불균형 때문에 예측 성능이 별로 높지 않았고, 분류기의어휘가 글쓰기 답안지의 오류를 제대로 포착하지 못하는 한계가 있었다. 이 두 가지 한계를 극복하면 분류기의 성능이 향상될 것으로 보인다.

제목

한국어 학습 모델별 한국어 쓰기 답안지점수 구간 예측 성능 비교2024-04-13 16:52

작성자

aihumanities Level 10

한국어 학습 모델별 한국어 쓰기 답안지점수 구간 예측 성능 비교Comparison of Korean Classification Models’ Korean Essay Score Range Prediction Performance

정보처리학회 논문지

약어 : KTSDE

2022, vol.11, no.3, 통권 114호 pp. 133-140 (8 pages)

발행기관 : 한국정보처리학회

연구분야 :

공학

컴퓨터학

조희련 /Heeryon Cho ¹ , 임현열 /Im, Hyeon-yeol ² , 이유미 /Yi Yumi ³ , 차준우 /Cha Jun Woo ⁴

¹중앙대학교

²중앙대학교

³중앙대학교

⁴중앙대학교

초록 열기/닫기 버튼

우리는 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 문제에서 세 개의 딥러닝 기반 한국어 언어모델의 예측 성능을 조사한다. 이를 위해 총 304편의 답안지로 구성된 실험 데이터 세트를 구축하였는데, 답안지의 주제는 직업 선택의 기준(‘직업’), 행복한 삶의 조건(‘행복’),돈과 행복(‘경제’), 성공의 정의(‘성공’)로 다양하다. 이들 답안지는 네 개의 점수 구간으로 구분되어 평어 레이블(A, B, C, D)이 매겨졌고, 총 11건의점수 구간 예측 실험이 시행되었다. 구체적으로는 5개의 ‘직업’ 답안지 점수 구간(평어) 예측 실험, 5개의 ‘행복’ 답안지 점수 구간 예측 실험, 1개의혼합 답안지 점수 구간 예측 실험이 시행되었다. 이들 실험에서 세 개의 딥러닝 기반 한국어 언어모델(KoBERT, KcBERT, KR-BERT)이 다양한훈련 데이터로 미세조정되었다. 또 두 개의 전통적인 확률적 기계학습 분류기(나이브 베이즈와 로지스틱 회귀)도 그 성능이 분석되었다. 실험 결과딥러닝 기반 한국어 언어모델이 전통적인 기계학습 분류기보다 우수한 성능을 보였으며, 특히 KR-BERT는 전반적인 평균 예측 정확도가 55.83%로가장 우수한 성능을 보였다. 그 다음은 KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었다. 나이브 베이즈와 로지스틱 회귀 분류기의 성능은각각 52.52%와 50.28%였다. 학습된 분류기 모두 훈련 데이터의 부족과 데이터 분포의 불균형 때문에 예측 성능이 별로 높지 않았고, 분류기의어휘가 글쓰기 답안지의 오류를 제대로 포착하지 못하는 한계가 있었다. 이 두 가지 한계를 극복하면 분류기의 성능이 향상될 것으로 보인다.

이전	인공지능, 기생화된 타자아와의 대화? -영화 <업그레이드>에서 스템의 생존방식을 중심으로-	aihumanities	2024-04-13
-	한국어 학습 모델별 한국어 쓰기 답안지점수 구간 예측 성능 비교	aihumanities	2024-04-13
다음	인공지능 콘텐츠를 활용한 국어과 융합 교육 사례 연구	aihumanities	2024-04-13

인공지능, 기생화된 타자아와의 대화? -영화 <업그레이드>에서 스템의 생존방식을 중심으로-

aihumanities Level 10

2024-04-13

한국어 학습 모델별 한국어 쓰기 답안지점수 구간 예측 성능 비교

aihumanities Level 10

2024-04-13

인공지능 콘텐츠를 활용한 국어과 융합 교육 사례 연구

aihumanities Level 10

2024-04-13

중앙대학교 인공지능인문학연구소

연구논문

연구논문

한국어 학습 모델별 한국어 쓰기 답안지점수 구간 예측 성능 비교Comparison of Korean Classification Models’ Korean Essay Score Range Prediction Performance

초록 열기/닫기 버튼