2021 텍스트 윤리검증 데이터 해커톤 경진대회
▶ 참가 대상 : 일반부(대학생, 대학원생, 전문가)
▶ 주제 : 비윤리적 문장 식별 알고리즘
미래 지식의 사회에서는 인공지능 기술이 범용지식이 될 것으로 예상된다. 미래 지식의 사회에 발 맞추어 인터넷 문화도 발달해야 할 필요가 있다. 최근 인터넷 문화는 능동적 필터링을 통해 욕설, 비속어 등 비윤리적 문장을 배제하고 있다. 그러나 현재의 비윤리적 문장은 표현상의 욕설, 비속어만을 필터링하고 있기에 의미상 비윤리적 문장은 필터링이 불가능하다. 이에 본 경진대회를 통해 비윤리적 문장을 판별하고, 판별된 비윤리적 문장의 유형을 식별할 수 있는 알고리즘을 개발하고자 한다.
▶ 키워드 : 문장분류, 자연어처리, 비윤리적 문장, 비윤리적 문장 식별 알고리즘, 인공지능 기반 자연어처리
▶ 형식 : 알고리즘과 프로그램 코드
제출된 저작물(알고리즘, 프로그램 코드)은 CCL 라이센스를 따름(CC BY-NC-SA)
▶ 접수
1) 접수 기한 : 2021년 12월 6일 (월) 오전 10시까지
2) 접수 방법 : 참가신청서 홈페이지(홈페이지(https://forms.gle/uXpQMknnHer92ioo8))에서 접수, 관련 양식을 전부 기입하고, 동의 항목에 동의할 경우 이메일을 통해 데이터 배포
3) 경진대회에 공개된 데이터는 오직 NIA 텍스트 윤리검증 데이터 2021 경진대회의 학습용 데이터로만 활용할 수 있으며, 2차 재가공, 2차 재배포, 경진대회가 아닌 용도의 사용은 허용되지 않습니다.
접수 이메일 : cauhrihw@gmail.com)
▶ 심사 및 발표
1) 심사 방식 : 프로그램에 대한 기술 문서 제출(항목 3)과 4)를 참고하여 한글(.hwp) 또는 워드 파일(.docx)로 제출)
제출된 저작물(발표자료)은 CCL 라이센스를 따르는 것을 원칙으로 함(CC BY-NC-SA)
2) 결과 발표 : 2021년 12월 20일 (월) 홈페이지 발표, 개별 연락
3) 예비심사 때 요약서를 제출(요약서는 3페이지 이내로 할 것, 폰트는 11pt로 지정, 이외의 형식은 자유 형식, 12월 13일 10시까지 이메일로 제출)
① 사용 언어(0점)
② 구현 방식(10점)
③ 알고리즘(20점)
④ 결과(정확도,60점)
⑤ 특징 기술(10점)
4) 본심사 때 발표자료 제출(최소 5페이지, 10페이지 이내, MS PPT 형식, 10페이지 이내로 기술할 것, 이외에 형식은 자유 형식, 12월 15일 통보 예정)
① 알고리즘(2분, 2페이지 이내)
② 구현 방식(2분, 2페이지 이내)
③ 사용한 Lib, Package(1분, 1페이지 이내)
④ 기술적 특징(4분, 4페이지 이내)
⑤ 결과(1분, 1페이지 이내)
5) 성능 평가 지표
① F1 score를 이용하여 성능을 측정함
② 비도덕 문장은 비도덕 유형까지 식별(중복된 유형일 경우 1개 이상의 유형 식별)
③ 테스트 데이터셋은 1만개 문장 중 일부 문장을 선정하여 참가신청서를 제출한 팀에 12월 6일부터 순차적으로 전달됨
④ 라이센스 이슈가 없는 프리트레인드 모델을 사용할 수 있음
▶ 시상
대상 1명(팀) | 상장과 150만원 |
우수상 1명(팀) | 상장과 100만원 |
장려상 2명(팀) | 상장과 50만원 |
문의 : 중앙대학교 인문콘텐츠연구소(02-813-7353) / cauhrihw@gmail.com