국회회의록 데이터 구조화 연구 개요
국회회의록
데이터구조화
연구일지
비정형 국회회의록 데이터의 구조화 연구 개요
Keywords
Toponym NER, Spatial Dataization, Political Placeness, Spatialization of Discourse, RDB, National Assembly Minutes
NoteWork-in-Progress
연구 제목
비정형 정치 담론의 공간 데이터화 방법론 연구: 국회회의록 내 지명 개체명 인식(NER) 및 RDB 구축을 중심으로
서론
- 연구배경: 현대 정치지리학은 고정된 행정구역을 넘어 담론을 통해 구성되는 관계적 공간에 주목하고 있으나, 텍스트 형태의 비정형 데이터를 계량적·공간적으로 분석하기 위한 표준화된 방법론이 부재함.
- 기존 방법론의 한계: 기존의 개제명 인식(NER)은 공식 행정구역, 사회문화적·정치적 의미가 담긴 모호한 권역 등을 구분하지 않아, 정치적 장소성이나 모호한 공간 척도를 포착하는 데 구조적 한계가 존재함.
- 연구의 목적: 정치지리학에 특화된 텍스트의 공간성을 추출, 보존, 분석하기 위한 통합적 데이터 구조화 파이프라인을 제안하고 그 효용을 입증하기 위함.
방법론 설계 1: 정치지리학적 지명 개체명 분류 체계 구축
- 정치적 장소성을 반영한 분류체계 설계: 기존 NER 체계의 일원화되거나 정치지리학에 특화되지 않아(정민경, 2022), 정치적 맥락을 반영한 세분화된 지명 태그 가이드라인 제안.
- LOC-ADMIN: 행정적 경계(예: 대한민국, 경기도, 성남시, 분당구, 운중동, 통, 반, 번지 등)
- LOC-VAGUE: 담론을 통해 유동적으로 구성되는 정치적·사회적 권역(예: 호남권, 수도권, 지방, 강남, 판교(v. 판교동: LOC-ADMIN))
- LOC-FACILITY: 공간적 갈등의 매개체가 되는 시설(예: 동남권 신공항, 고리 원전 등)
방법론 설계 2: 공간 데이터 구조화 자동화 파이프라인
Tip📂 Code & Data Access
이 분석에 사용된 코드와 데이터는 아래 깃허브 저장소에서 확인하실 수 있습니다.
참고문헌
정민경. (2022). 장소의 개념화를 통한 개체명 분류 -<장소>, <기관>, <인공물> 개체명을 중심으로- [PhD thesis]. https://lib.aks.ac.kr/eds/detail?an=edsker.000005039831\&dbId=edsker