목차 1. 서론 2. 관련 연구 3. 강건성 실험 4. 모델 파인튜닝 5. 결론 초록 명시적 비윤리 표현과 달리 암시적 비윤리 표현은 학습 데이터로 선정하기 어 려울뿐만아니라향후생산패턴을예측하기어렵다. 따라서암시적비윤리표 현에 대한 언어 모델의 탐지 능력을 향상시키기 위해 모델의 약점을 발견하는 연구가 필수적이다. 본 논문에서는 암시적 비윤리 표현의 표기(야민정음, 외계어) 를 변경하고 긍정적 요인(어휘, 이모티콘)을 삽입하여 모델의 예측에 변화를 유 도하였다. 또한, 야민정음, 외계어, 이모티콘을 활용한 추가 실험을 설계했다. 그 결과, (1) 비윤리 표현 검출 과정에서 텍스트 자체보다 이모티콘의 영향력이 더 강하고, (2) 언어 모델이 특정 입력 변화에 취약하다는 사실을 발견하였다. 이후 모델이 취약성을 보인 변형 형태를 활용하여 파인튜닝 데이터 세트를 구성한 뒤, 파인튜닝을 진행하였고 눈에 띄는 성능 개선을 끌어내었다. 이를 통해 언어 모델 의 비윤리 표현 탐지 능력을 향상하기 위해서는 보다 다양한 유형의 데이터로 학습하는 것이 필수적이라는 결론을 내렸다. 본 연구를 계기로 언어 모델을 이용 한 암시적 비윤리 표현 탐지에 관한 연구가 더욱 활성화되기를 기대한다. |