중앙대학교 인문콘텐츠연구소

HK+인공지능인문학

학술지지난 호 보기

지난 호 보기

eISSN: 2951-388X
Print ISSN: 2635-4691 / Online ISSN: 2951-388X
제목[인공지능인문학연구 15권] 암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가_김유진,정가연,김한샘 2024-01-26 09:33
작성자 Level 10
첨부파일03.암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가.pdf (11.06MB)

목차

 

 

 

1. 서론

 

2. 관련 연구

 

3. 강건성 실험

 

4. 모델 파인튜닝

 

5. 결론

 

 

 

초록

 

 

 

 

 

 

명시적 비윤리 표현과 달리 암시적 비윤리 표현은 학습 데이터로 선정하기 어 려울뿐만아니라향후생산패턴을예측하기어렵다. 따라서암시적비윤리표 현에 대한 언어 모델의 탐지 능력을 향상시키기 위해 모델의 약점을 발견하는 연구가 필수적이다. 본 논문에서는 암시적 비윤리 표현의 표기(야민정음, 외계어) 를 변경하고 긍정적 요인(어휘, 이모티콘)을 삽입하여 모델의 예측에 변화를 유 도하였다. 또한, 야민정음, 외계어, 이모티콘을 활용한 추가 실험을 설계했다. 그 결과, (1) 비윤리 표현 검출 과정에서 텍스트 자체보다 이모티콘의 영향력이 더 강하고, (2) 언어 모델이 특정 입력 변화에 취약하다는 사실을 발견하였다. 이후 모델이 취약성을 보인 변형 형태를 활용하여 파인튜닝 데이터 세트를 구성한 뒤, 파인튜닝을 진행하였고 눈에 띄는 성능 개선을 끌어내었다. 이를 통해 언어 모델 의 비윤리 표현 탐지 능력을 향상하기 위해서는 보다 다양한 유형의 데이터로 학습하는 것이 필수적이라는 결론을 내렸다. 본 연구를 계기로 언어 모델을 이용 한 암시적 비윤리 표현 탐지에 관한 연구가 더욱 활성화되기를 기대한다. 

중앙대학교 인문콘텐츠연구소
06974 서울특별시 동작구 흑석로 84 중앙대학교 310관 828호  TEL 02-881-7354  FAX 02-813-7353  E-mail : aihumanities@cau.ac.krCOPYRIGHT(C) 2017-2023 CAU HUMANITIES RESEARCH INSTITUTE ALL RIGHTS RESERVED