top of page

[제167호] 이병재 전문연구원 - 이행기 정의 연구와 머신러닝의 활용


제167호


이병재

(연세대학교 통일연구원 전문연구원)



이행기 정의 연구와 머신러닝의 활용


머신러닝 및 인공지능 기술의 급격한 발전은 사회의 모든 분야에서 데이터 수집과 처리 과정에서 상상하지 못했던 급격한 변화를 가져오고 있다. 이러한 변화는 인권 관련 자료의 수집과 연구에도 커다란 영향을 미칠 것으로 생각된다. 북한의 인권 문제와 한반도에서의 통일 연구 및 이행기 정의의 경우도 예외는 아니다. 본 글에서는 머신러닝을 활용한 기법을 이행기 정의 연구 및 인권 관련 연구에 어떻게 적용할 수 있는가를 제시하고 사례를 살펴보고자 한다.

머신러닝(Machine Learning)은 컴퓨터가 스스로 학습할 수 있도록 하는 것을 목표로 하는 인공 지능의 하위 분야이다. 컴퓨터 알고리즘을 통해 패턴을 인식하고, 설명하는 모델을 구축하며, 때로는 사전에 프로그래밍된 규칙과 모델 없이도 예측이 가능하다. 이전에는 데이터 분류를 위한 패턴을 수동으로 정의해야 했기 때문에 오랜 시간이 걸렸지만, 머신러닝을 사용하면 필요한 노동력을 획기적으로 줄일 수 있다. 머신러닝에 대한 정보를 제공하는 도구와 리소스는 매우 많다. 예컨대, Google은 머신러닝의 개념과 방법의 이해 및 활용에 도움이 되는 무수히 많은 도구 및 자료를 제공한다. 리소스의 급속한 개발로 서비스, 제품, 라이브러리, 하드웨어 등 비교적 저렴한 비용으로 이용할 수 있는 리소스가 풍부해지면서, 머신러닝 분야에 대한 진입장벽이 낮아지고 있다. 이러한 리소스에는 Tensorflow, DeepLens, AWS 머신 러닝, Google의 Cloud AI 등이 포함된다.

머신러닝은 아직 개발 단계에 있기는 하지만, 일부 인권 관련 업무에 적용되고 있다. 머신러닝 프로그램은 인권 침해를 감지하고 기존 시스템을 개선하며 위험한 상황을 예방하는 데 도움이 될 수 있다. 인권 분야 실무자들은 보고서, 증거 및 기타 데이터의 분류 작업에서 머신러닝 도구 를 활용하여 문장을 분류하고 자신들이 관심 있는 특정 주제에 맞게 조정 가능한 도구를 활용함으로써 작업 수행에 필요한 시간을 단축할 수 있다. 또한, 물체, 소리, 음성, 텍스트 및 사건 유형을 감지할 수 있는 비디오 분석을 이용하는 도구도 있는데, 이를 통해 사용자는 무수히 많은 영상 자료 내에서 시맨틱 쿼리를 통해 상황을 파악할 수 있다. 예를 들어 비디오 분석을 이용하여 시리아와 우크라이나에서 전쟁 범죄의 증거로 사용할 수 있는 검증된 동영상을 제공하고 있다 (Noremvoka et al 2023; York 2023). 또한 인권 침해를 문서화하고, 사법 심리를 예측하기도 한다.

디지털 시대에는 소셜 미디어와 스마트 기기의 발달로 인해 인권 침해 사례의 처리나 분석이 따라가지 못할 정도로 빠른 속도로 기록되고 문서화되고 있다. 여기서 문서화(documentation)에는 인권 침해의 신고 및 문의부터 뉴스 기사, 보도자료, 성명서, 녹취록에 이르기까지 공식 및 비공식 정보가 모두 포함될 수 있는데, 이 모든 것이 인권 침해에 대한 기록이 될 수 있는 것이다. 콘텐츠의 양이 방대하여 이를 사법 또는 정책업무에 사용하기 위해 신속하게 종합하고 분석하기는 매우 힘들다. 정의 및 책임성 구현을 위해 이러한 자료는 중요하기 때문에 이를 활용 가능한 정보로 변환할 방법을 찾아야 하는데 예전과 같은 수작업으로 수집 및 분석하기에는 한계가 있다. 이 과정에서 정보의 분석, 보고 및 사용에 새로운 기술은 중요한 역할을 할 수 있다. 직접적인 접근이 제한된, 분쟁 상황이나 권위주의 체제하에서 자행되는 인권 침해의 경우 특히 중요하다.

전 세계적으로 무력 분쟁과 대규모 인권 침해가 지속되고 있으며 날로 가속화되는 상황이다. 많은 국가들에서 여전히 분쟁이 지속되고 있으며, 과거 대규모 인권 침해가 발생했던 시기로부터 벗어나지 못하고 있다. 인권 침해가 너무 많고 심각해서 일반 사법 시스템으로는 적절히 대응할 수 없는 경우가 많다. 각 사회는 지속 가능한 평화로의 전환을 위해 다양한 사법 및 비사법적 조치를 마련하는데, 이를 이행기 정의(transitional justice)라고 한다. 각 나라가 처한 상황과 조건에 따라 다양한 형태의 이행기 정의가 도입되지만, 가장 일반적인 접근 방식에는 가해자의 사법처리, 진실화해위원회 등의 진실 규명 이니셔티브, 배상 프로그램 및 제도 개혁이 포함된다. 이행기 정의는 개인의 존엄성을 인정하고, 인권 침해에 대한 가해자 처벌과 피해자의 회복, 재발을 방지하고, 사회적 화해에 기여하는 것을 목표로 한다. 이행기 정의는 1970년대 이후 100개국 이상에서 다양한 방식으로 도입되었다(Stan and Nedelsky 2023).

이행기 정의 메커니즘의 작동을 위해서는 신뢰할 수 있는 데이터의 집적이 필수적이다. 인권 침해에 관한 기존 문서는 중요한 데이터 소스인데, 문서화 작업은 이행기 정의 메커니즘이 데이터에 기반하여 정책, 연구 계획, 조사 전략을 설계할 수 있게 해준다. 또한 기존 문서는 이행기 정의 메커니즘이 작동하는 기간 동안 진술서 작성이나 조사 등을 통해 자체적으로 수집할 수 있는 정보의 보강에 크게 기여한다.

진상조사위원회 또는 진실화해위원회와 같은 이행기 정의 메커니즘은 기간이 한시적으로 운영되는 경우가 많다. 대개의 경우 진실화해위원회는 1~2년 동안 제한된 인력으로 운영된다. 이러한 상황에서 머신러닝 기술은 현존하는 방대하고 다양한 문서의 처리를 통해 데이터 기반 이행기 정의 작업을 진행할 수 있는 플랫폼 마련에 도움이 될 수 있다. 이 과정에서 구체적으로 머신 러닝 작업은 다음의 용도로 사용될 수 있다.

첫 번째 단계는 인권 침해 관련 자료의 수집인데, 인권 침해의 사례와 관련된 데이터는 그 특성상 직접적으로 수집되기 매우 어렵다. 시민 사회가 주도하든, 이행기 정의의 일환으로 국가에 의해 설립된 기관에서 주도하든 이 과정은 보통 수작업으로 노동집약적인 방식으로 인터뷰 또는 아카이브 등에 산재하는 자료들을 대상으로 이루어진다.1) 이 경우 디지털 콘텐츠를 캡처하는 자동화 된 시스템은 이행기의 사법 업무에서 매우 유용하게 사용될 수 있다. 이러한 시스템은 오래 전부터 기술적으로 가능하기는 했지만, 이행기 정의에는 아직 사용되지 않고 있다. 사실 이러한 자동화 된 콘텐츠 수집 시스템은 매핑 프로젝트 팀이 수행하는 것과 같은 수동 검색 및 필터링을 대체할 수 있으며, 훨씬 적은 노력과 감독을 필요로 할 것이다. 자동화 시스템은 주로 뉴스 소스를 모니터링하는 대규모 프로젝트에 사용되기 시작했다. 하지만, 과거의 분쟁이나 다양한 소스의 데이터를 결합하는 프로젝트에도 활용될 여지가 많다.

둘째, 수집된 문서를 분류, 필터링 후에 관련 정보의 분석과 추출에 머신러닝은 유용하게 사용될 수 있다. 이러한 작업은 보통 수작업으로 진행되는데, 연구원들은 관련 정보를 코딩하고 데이터베이스에 입력하는 작업을 한다. 머신러닝의 기법이 도입되면 이러한 작업은 수작업이 아닌 자동화를 통해 진행될 수 있다. 텍스트 마이닝을 비롯한 다양한 머신러닝 콘텐츠 분석 기술은 이러한 정보를 자동으로 추출하고 코딩하는 데 도움을 주며 데이터 해석에 많은 도움을 줄 수 있다. 딥러닝을 활용한 자연어 처리 및 텍스트 분석 도구를 활용하여 실무자와 연구자들은 훨씬 효율적으로 작업을 진행할 수 있다. 아직은 기술은 사용하기 어렵고 오차 범위가 너무 커서 아직 이행기 정의의 사법 상황에서 일상적으로 사용되는 단계에 이르지 못하고 있다.

셋째, 선택되고 추출된 정보의 다른 정보와의 교차 검증에 머신러닝이 사용될 수 있다. 진실 추구 메커니즘에서 인권 탄압의 추세와 패턴은 물론 근본 원인과 선행 요인을 파악하기 위해서는 데이터의 교차검증이 중요한데, 이 과정에서 진실 위원회와 기타 이행기 정의 메커니즘은 일반적으로 정보 관리 시스템을 활용한 다양한 데이터베이스를 사용한다. 현재 많은 이행기 정의 메커니즘에서 기본적인 관계형 데이터베이스를 활용하지만 다양한 형태의 비정형 데이터를 포함하여 향후 보다 정교한 형태의 데이터베이스의 구축도 가능할 것이다.

마지막으로, 데이터베이스의 시각화 작업이다. 점점 더 많은 인권 데이터가 시각적 형태로 제공되고 있으며, 사용자가 쉽게 이해하고 분석할 수 있도록 대화형 데이터 시각화 기법을 사용하는 비정부기구도 늘어나고 있다. 복잡한 정보를 시각화할 수 있다면 데이터를 더욱 유용하게 활용할 수 있다. 이러한 작업은 인권 실무자들에게 더욱 유용하다. 연구자들이 집적된 데이터에서 각 사용자의 관심사가 무엇인지 정확하게 예측할 수 없기 때문에, 대화형 기능을 통해 실무자 스스로 시각화를 위해 관련 데이터를 선택할 수 있다. 이렇게 작성된 자료는 진실 규명, 피해자 배상, 책임 규명 작업의 중요한 토대가 된다.

이행기 정의 및 인권 연구 분야에서 머신러닝과 인공지능 기술은 많은 가능성에도 불구하고, 인권 활동가들은 그 잠재력을 이해하고 활용하는 데 어려움을 겪고 있는 반면, 머신러닝 실무자들은 인권 실무에 대한 이해에 어려움을 겪고 있다. 이러한 격차를 해소하기 위해 두 그룹 간의 개방적이고 다양한 대화와 다양한 주체들이 긴밀히 협력하는 장기적인 프로젝트가 필요하다. 이는 머신러닝의 공정성, 책임성 및 투명성은 인권 프레임워크 내에서 근본적인 역할을 하며 머신러닝 시스템의 설계 및 개발 프로세스에 대한 대화와 연결되기 때문에 인권 활동가와 머신러닝 실무자 모두에게 공감할 수 있는 기반을 제공할 것으로 기대된다.


1) 예컨대 최근 지리한 내전이 종식된 후 이행기 정의를 도입하기로 합의한 스리랑카의 경우, 분쟁 매핑 및 아카이브 프로젝트(Sri Lanka Conflict Mapping and Archive Project)의 연구원들은 온라인과 기록 보관소에서 6,000개에 가까운 문서를 직접 검색하고 읽었다고 한다. 해당 프로젝트의 연구원들은 이러한 문서 더미에서 인권 침해 가능성에 대한 관련 정보를 샅샅이 찾아내는데, 이 과정에는 18개월 동안 약 12 명의 자원봉사 인권변호사들을 포함하여, 다수의 헌신적인 학생들이 수많은 시간의 노력이 투입되었다.


References

Aronson, Jay. D. 2018. “Computer Vision and Machine Learning for Human Rights Video Analysis: Case Studies, Possibilities, Concerns, and Limitations.” Law & Social Inquiry 43(4): 1188-1209.

Nemkova, Poli, Solomon Ubani, Suleyman Olcay Polat, Nayeon KMim and Rodney D. Nielsen. 2023. “Detecting Human Rights Violations on Social Media during Russia-Ukraine War.” ArXiv (https://arxiv.org/pdf/2306.05370.pdf).

Stan, Lavinia and Nadya Nedelsky. 2023. Encyclopedia of Transitional Justice, 3 vols. 2nd. ed. New York: Cambridge University Press.

York, Joanna. 2023. “‘Accountability and justice’:Gathering digital evidence of war crimes in Ukraine.” France 24 (Feb. 28)

https://www.france24.com/en/europe/20230228-accountability-and-justice-gathering-digit al-evidence-of-war-crimes-in-ukraine (검색일: 2024년 2월 7일).




● Issue Brief는 집필자의 견해를 토대로 작성된 것으로 연세대학교 통일연구원의 공식 입장과는 관련이 없습니다.  





최근 게시물

전체 보기

Comments


bottom of page