국회회의록 데이터 구조화 연구 개요

국회회의록
데이터구조화
연구일지
비정형 국회회의록 데이터의 구조화 연구 개요
Author
Affiliation

Choi, Kyeonghyeon

Academy of Korean Studies

Keywords

Toponym NER, Spatial Dataization, Political Placeness, Spatialization of Discourse, RDB, National Assembly Minutes

NoteWork-in-Progress

연구 제목

비정형 정치 담론의 공간 데이터화 방법론 연구: 국회회의록 내 지명 개체명 인식(NER) 및 RDB 구축을 중심으로

서론

  • 연구배경: 현대 정치지리학은 고정된 행정구역을 넘어 담론을 통해 구성되는 관계적 공간에 주목하고 있으나, 텍스트 형태의 비정형 데이터를 계량적·공간적으로 분석하기 위한 표준화된 방법론이 부재함.
  • 기존 방법론의 한계: 기존의 개제명 인식(NER)은 공식 행정구역, 사회문화적·정치적 의미가 담긴 모호한 권역 등을 구분하지 않아, 정치적 장소성이나 모호한 공간 척도를 포착하는 데 구조적 한계가 존재함.
  • 연구의 목적: 정치지리학에 특화된 텍스트의 공간성을 추출, 보존, 분석하기 위한 통합적 데이터 구조화 파이프라인을 제안하고 그 효용을 입증하기 위함.

방법론 설계 1: 정치지리학적 지명 개체명 분류 체계 구축

  • 정치적 장소성을 반영한 분류체계 설계: 기존 NER 체계의 일원화되거나 정치지리학에 특화되지 않아(정민경, 2022), 정치적 맥락을 반영한 세분화된 지명 태그 가이드라인 제안.
    • LOC-ADMIN: 행정적 경계(예: 대한민국, 경기도, 성남시, 분당구, 운중동, 통, 반, 번지 등)
    • LOC-VAGUE: 담론을 통해 유동적으로 구성되는 정치적·사회적 권역(예: 호남권, 수도권, 지방, 강남, 판교(v. 판교동: LOC-ADMIN))
    • LOC-FACILITY: 공간적 갈등의 매개체가 되는 시설(예: 동남권 신공항, 고리 원전 등)

방법론 설계 2: 공간 데이터 구조화 자동화 파이프라인

Tip📂 Code & Data Access

이 분석에 사용된 코드와 데이터는 아래 깃허브 저장소에서 확인하실 수 있습니다.

GitHub에서 소스 보기

참고문헌

정민경. (2022). 장소의 개념화를 통한 개체명 분류 -<장소>, <기관>, <인공물> 개체명을 중심으로- [PhD thesis]. https://lib.aks.ac.kr/eds/detail?an=edsker.000005039831\&dbId=edsker