Page 15 - KAIST GSIS 2023 Vol.09
P. 15
이렇게 다크 웹이라는 흥미로운 도메인에다가 언어 모델을 적용하고
좋은 활용 예제를 선보이게 되어 자연어처리 최우수 학회인 ACL에서
좋은 평가를 받은 것 같습니다.
Q 다크 웹의 언어를 이해할 수 있는 언어 모델인 DarkBERT에 대한 논문을 자연어처리 분야 최우수 국제 학
술대회인 ACL에 개제하셨는데, 해당 논문에 대해서 간략하게 설명 부탁드립니다.
A : 다크 웹은 일반적인 검색 엔진으로는 접근 및 검색이 불가능하고, Tor와 같은 특수 브라우저를 사용하여 암호화된 네트워크를 통해
서만 접속할 수 있습니다. 익명으로 데이터를 공유할 수 있는 특성상, 마약 거래, 무기 판매, 해킹 서비스 제공 등을 포함한 사이버 범
죄 활동에도 악용될 수가 있습니다. 따라서 다크 웹은 사이버 위협 및 보안 분야에서도 중요한 도메인으로 떠오르고 있습니다. 다크
웹에 대한 연구는 주로 다크 웹 내에서만 사용되는 특수한 은어들에 대한 분석이 필요합니다. 이러한 은어들은 서피스 웹이나 일상
생활에서 사용되는 말들과는 아주 다릅니다. 이에 따라 다크 웹 내의 사이버 범죄 활동 등을 분석하는 연구를 진행하는데 많은 한계
점이 존재했습니다. 본 연구에서는 이러한 문제를 해결하고자 다크 웹 데이터로 pretraining한 언어 모델인 DarkBERT를 선보였습
니다. 다크 웹 도메인에 대한 다양한 usecase 실험에서도 DarkBERT가 다크 웹에서 흔히 사용되는 언어의 문맥 정보를 성공적으로
학습할 수 있었기에 기존 언어 모델들에 비해 우수한 성능을 보여주었습니다. 이렇게 다크 웹이라는 흥미로운 도메인에다가 언어
모델을 적용하고 좋은 활용 예제를 선보이게 되어 자연어처리 최우수 학회인 ACL에서 좋은 평가를 받은 것 같습니다.
Q DarkBERT가 다크 웹에서 사용되는 범죄 관련 용어를 이해할 수 있다는 점 사이버 보안 분야에서 활발하
게 활용될 것으로 기대되는데, 대표적인 usecase라고 한다면 어떤 것이 있을까요?
A : 우선, DarkBERT는 BERT와 RoBERTa와 같이 기존에 있던 대형 언어 모델과 성능 비교를 위해 총 4가지 사용 사례 실험을 진행했습
니다. 실험은 다크 웹 활동 분류, 랜섬웨어 유출 사이트 탐지, 사이버 위협 스레드 탐지, 그리고 위협 키워드 추론으로 이루어져 있었
는데, 이 중 랜섬웨어 유출 사이트 탐지 및 사이버 위협 스레드 탐지는 다크 웹 내의 웹 페이지들을 지속해 crawling이 가능할 경우
실제 환경에서 바로 적용할 수 있는 활용 사례라고 볼 수 있으며, Cyber threat intelligence 분야에 다양하게 활용할 수 있습니다.
이와 같은 활용 사례에 대해 조금 더 설명을 덧붙이자면, 다크 웹 내 underground 포럼은 종종 불법 정보를 교환하는 데 사용되며,
보안 전문가들은 사이버 위협 관련하여 포럼 내의 주목할 만한 스레드를 모니터링하여 최신 정보를 얻고 빠르게 대응할 수 있습니
다. 하지만 매일 많은 새로운 포럼 게시물이 생겨나기 때문에, 각 스레드를 사람이 수작업으로 검토하는 데는 엄청난 인적 자원과
시간이 소모됩니다. DarkBERT를 이용하면 crawling 한 스레드의 내용을 분석해서 잠재적으로 악의적인 스레드의 탐지를 자동화
할 수 있습니다. 이렇게 하면 보안 전문가들이 모든 다크 웹 포럼의 모든 스레드를 모니터링하지 않고 DarkBERT가 분석하여 필터
링한 적은 수의 스레드만을 검사하면 되기 때문에 보안 전문가들의 업무 부담을 크게 줄일 수 있다고 생각합니다. 또한, 다크 웹 내
에서 많이 발생하는 사이버 범죄 유형 중 하나는 Lazarus 등 랜섬웨어 그룹에 의해 유출된 기관이나 개인의 사적 및 기밀 데이터를
판매하거나 공개하는 것입니다. 유출된 데이터를 공개할 시, 피해자의 민감한 데이터(금융 정보, 자산, 개인정보 등)를 공개하겠다고
위협하는 유출 사이트(leak site)를 이용하는 것이 보편적입니다. DarkBERT를 사용하면 이러한 다크 웹 내에서 이러한 leak site들
을 자동으로 찾을 수 있어, 랜섬웨어 피해 대응의 효율성과 신속성을 크게 향상할 수 있습니다. 마지막으로, BERT family의 모델 특
성상 문장에서 특정 단어를 가리고 그 안에 어느 단어가 가장 알맞은지 예측하는 masked language modeling이라는 task를 이용
하여 위협 키워드 추론도 가능합니다. 이를 DarkBERT에 적용하면, 다크 웹에서 마약 판매 또는 특정 단어가 다크 웹 은어로 쓰이는
경우, 이러한 키워드를 도출해 내기 위해 문장을 mask 하여 가장 비슷한 키워드의 집합을 반환하는 방식으로 사용될 수 있습니다.
14 Graduate School Of Information Security 15