Page 12 - KAIST GSIS 2022 Vol.07
P. 12
연구성과
KAIST 전기및전자공학부 (정보보호대학원 겸임) 신승원 교수 연구실과 에스투더
01>> 블유(S2W) 소속 연구원들로 구성된 연구팀은 다크웹 내에서 사용되는 단어들을
수집하고 이들의 언어적 특징을 분석하여 타크웹 관련 AI 연구에 활용할 수 있는
데이터셋을 만들었다. 해당 연구는 우수성을 인정받아 세계 최우수 자연어처리 학
CoDA: 회 중 하나인 NAACL 2022 (Annual Conference of the North American Chapter
of the Association for Computational Linguistics)에 채택되었다.
다크웹은 흔히 사용되는 네이버, 유튜브처럼 검색 엔진에서 바로 찾을 수 있는 웹
Shedding New Light 페이지 (표면 웹)와 달리, 검색 엔진에 전혀 노출이 되지 않으며 Tor와 같은 특정
소프트웨어로만 접속할 수 있는 웹을 나타내는 말이다. 다크웹은 웹 서버와 사용
on the Language 자의 신원 (IP 주소 등)이 노출되지 않으며, 모든 네트워크 통신 데이터가 암호화되
of the Dark Web 어 인터넷 사용에 대한 강력한 익명성을 제공한다. 이로 인해 다크 웹에서는 마약
밀거래, 불법물 배포, 해킹 등 악용 사례가 흔히 발생한다.
각종 불법 행위가 이루어지고 있는 다크웹에서는 쓰이는 단어나 문장 구조에서
도 일반 표면 웹페이지와는 다른 특화된 부분이 있다고 볼 수 있다. 예를 들어, 기
존 연구는 다크 웹과 표면 웹 사이의 언어 차이로 인해 다크웹에 존재하는 웹 페이
지를 분석할 때 심층 신경 모델을 사용하는 것이 효과적이지 않을 수 있음을 지적
했다. 따라서 다크웹은 언어적 분석 측면에서 흥미로운 결과를 기대할 수 있지만,
다크 웹 데이터셋의 부재로 인하여 지금까지 이 도메인의 언어 속성과 같은 특성
은 연구하기 어려웠었다.
본 연구는 텍스트 기반 다크웹 분석에 맞게 조정된 10,000개의 웹 문서로 구성된
공개적으로 사용 가능한 다크웹 데이터 셋인 CoDA를 소개하고, CoDA를 활용하
여 다크웹에 대한 언어 분석을 수행하고 다크 웹과 표면 웹 간의 텍스트 차이점를
조사하며, 다양한 다크 웹 페이지 분류 작업 성능을 평가했다. 그리고 CoDA를 기
존 공개 다크 웹 데이터 세트와 비교하고 다양한 활용 사례에 대한 적합성을 확인
했다. 실제로 다크웹은 표면 웹보다 몇몇 단어들이 다르게 쓰인다는 것이 확인되
었고, 또한 문맥이나 문장적 구조에서도 어느정도의 차이가 난다는 것이 나타났
다. 이러한 차이를 바탕으로 다크웹 데이터를 이용한 동의어 추론 모델을 만들어
서 마약에 해당되는 은어를 찾기도 했다.
▶ 그림 1 CoDA 데이터 세트의 카테고리 및 각 카테고리별 특징 ▶ 그림 2 NAACL 2022에서 CoDA에 대해 발표하는
KAIST 전기및전자공학부 진영진 석사과정
12 정보보호대학원 융합보안프로그램 뉴스레터