국회회의록 데이터 구조화 연구 개요

국회회의록
데이터구조화
연구 개요
비정형 국회회의록 데이터의 구조화 연구 개요
Author
Affiliation

Choi, Kyeonghyeon

Academy of Korean Studies

Keywords

Toponym NER, Spatial Dataization, Political Placeness, Spatialization of Discourse, RDB, National Assembly Minutes

NoteWork-in-Progress

연구 제목

비정형 정치 텍스트의 구조화 방법론 연구: 국회회의록 기계 가독성 향상과 지명 개체명 인식(NER)을 중심으로

서론

  • 연구 배경: 현재 국회사무처에서 API를 통해 xml을 호출할 수 있는 서비스를 제공하고 있으나, 이는 포장만 xml일 뿐, 호출된 xml을 살펴보면 회의의 한정된 정보와, 회의록의 pdf를 다운로드 받을 수 있는 링크만을 제공하고 있음. 현대 정치지리학은 고정된 행정구역을 넘어 담론을 통해 구성되는 모호한 공간에도 주목하고 있으나, 이러한 공간을 분석하기 위한 표준화된 방법론이 부재함.
  • 기존 방법론의 한계: 현재의 국회회의록은 기계가독성이 매우 떨어져, AI 시대에 적합하지 않은 데이터임. 기존의 개체명 인식(NER)은 공식 행정구역, 사회문화적·정치적 의미가 담긴 모호한 권역 등을 구분하지 않아, 정치적 장소성이나 모호한 공간을 포착하는 데 구조적 한계가 존재함(정민경, 2022).
  • 연구의 목적: 정치지리학에 특화된 텍스트의 공간성을 추출, 보존, 분석하기 위한 통합적 데이터 구조화 방법론을 제안하고 그 효용을 입증하기 위함.

방법론 설계 1: 국회회의록의 기계가독성 제고

  • XML 활용

방법론 설계 2: 정치지리학적 지명 개체명 분류 체계 구축

  • 정치적 장소성을 반영한 분류체계 설계: 정치지리학에 특화된 지명 태그 가이드라인 제안.
    • LOC-ADMIN: 행정적 경계(예: 대한민국(전국), 경기도, 성남시, 분당구, 운중동, 통, 반, 번지 등)
    • LOC-ELECT: 정치적 권역(예: 성남시 분당구 갑, 종로구(선거구)(v. 종로구(LOC-ADMIN)), 비례대표 등)
    • LOC-VAGUE: 담론을 통해 유동적으로 구성되는 정치적·사회적 권역(예: 호남권, 수도권, 지방, 강남, 판교(v. 판교동(LOC-ADMIN)) 등)
    • LOC-FACILITY: 공간적 갈등의 매개체가 되는 시설(예: 동남권 신공항, 고리 원전 등)

방법론 설계 3:

Tip📂 Code & Data Access

이 분석에 사용된 코드와 데이터는 아래 깃허브 저장소에서 확인하실 수 있습니다.

GitHub에서 소스 보기

참고문헌

정민경. (2022). 장소의 개념화를 통한 개체명 분류 -<장소>, <기관>, <인공물> 개체명을 중심으로- [Master’s thesis]. https://lib.aks.ac.kr/eds/detail?an=edsker.000005039831\&dbId=edsker