[인공지능인문학연구 15권] 암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가_김유진,정가연,김한샘

중앙대학교 인공지능인문학연구소

HK+인공지능인문학

eISSN: 2951-388X

Print ISSN: 2635-4691 / Online ISSN: 2951-388X


제목	[인공지능인문학연구 15권] 암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가_김유진,정가연,김한샘 2024-01-26 09:33
작성자	aihumanities
첨부파일	03.암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가.pdf (11.06MB)
목차 1. 서론 2. 관련 연구 3. 강건성 실험 4. 모델 파인튜닝 5. 결론 초록 명시적 비윤리 표현과 달리 암시적 비윤리 표현은 학습 데이터로 선정하기 어 려울뿐만아니라향후생산패턴을예측하기어렵다. 따라서암시적비윤리표 현에 대한 언어 모델의 탐지 능력을 향상시키기 위해 모델의 약점을 발견하는 연구가 필수적이다. 본 논문에서는 암시적 비윤리 표현의 표기(야민정음, 외계어) 를 변경하고 긍정적 요인(어휘, 이모티콘)을 삽입하여 모델의 예측에 변화를 유 도하였다. 또한, 야민정음, 외계어, 이모티콘을 활용한 추가 실험을 설계했다. 그 결과, (1) 비윤리 표현 검출 과정에서 텍스트 자체보다 이모티콘의 영향력이 더 강하고, (2) 언어 모델이 특정 입력 변화에 취약하다는 사실을 발견하였다. 이후 모델이 취약성을 보인 변형 형태를 활용하여 파인튜닝 데이터 세트를 구성한 뒤, 파인튜닝을 진행하였고 눈에 띄는 성능 개선을 끌어내었다. 이를 통해 언어 모델 의 비윤리 표현 탐지 능력을 향상하기 위해서는 보다 다양한 유형의 데이터로 학습하는 것이 필수적이라는 결론을 내렸다. 본 연구를 계기로 언어 모델을 이용 한 암시적 비윤리 표현 탐지에 관한 연구가 더욱 활성화되기를 기대한다.

이전	[인공지능인문학연구 15권] 인터넷 밈 번역 시스템 개발을 위한 데이터 구축 방안_이대규,이찬규	aihumanities	2024-01-26
-	[인공지능인문학연구 15권] 암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가_김유진,정가연,김한샘	aihumanities	2024-01-26
다음	[인공지능인문학연구 15권] ‘인간 같은 인공지능’ 연구의 새 방향 - 다층위적 해석학의 필요성을 경유하여_김종우,김동재	aihumanities	2024-01-26