국회회의록 데이터 구조화 연구 개요
국회회의록
데이터구조화
연구 개요
비정형 국회회의록 데이터의 구조화 연구 개요
Keywords
Toponym NER, Spatial Dataization, Political Placeness, Spatialization of Discourse, RDB, National Assembly Minutes
NoteWork-in-Progress
연구 제목
비정형 정치 텍스트의 구조화 방법론 연구: 국회회의록 기계 가독성 향상과 지명 개체명 인식(NER)을 중심으로
서론
- 연구 배경: 현재 국회사무처에서 API를 통해 xml을 호출할 수 있는 서비스를 제공하고 있으나, 이는 포장만 xml일 뿐, 호출된 xml을 살펴보면 회의의 한정된 정보와, 회의록의 pdf를 다운로드 받을 수 있는 링크만을 제공하고 있음. 현대 정치지리학은 고정된 행정구역을 넘어 담론을 통해 구성되는 모호한 공간에도 주목하고 있으나, 이러한 공간을 분석하기 위한 표준화된 방법론이 부재함.
- 기존 방법론의 한계: 현재의 국회회의록은 기계가독성이 매우 떨어져, AI 시대에 적합하지 않은 데이터임. 기존의 개체명 인식(NER)은 공식 행정구역, 사회문화적·정치적 의미가 담긴 모호한 권역 등을 구분하지 않아, 정치적 장소성이나 모호한 공간을 포착하는 데 구조적 한계가 존재함(정민경, 2022).
- 연구의 목적: 정치지리학에 특화된 텍스트의 공간성을 추출, 보존, 분석하기 위한 통합적 데이터 구조화 방법론을 제안하고 그 효용을 입증하기 위함.
방법론 설계 1: 국회회의록의 기계가독성 제고
- XML 활용
방법론 설계 2: 정치지리학적 지명 개체명 분류 체계 구축
- 정치적 장소성을 반영한 분류체계 설계: 정치지리학에 특화된 지명 태그 가이드라인 제안.
- LOC-ADMIN: 행정적 경계(예: 대한민국(전국), 경기도, 성남시, 분당구, 운중동, 통, 반, 번지 등)
- LOC-ELECT: 정치적 권역(예: 성남시 분당구 갑, 종로구(선거구)(v. 종로구(LOC-ADMIN)), 비례대표 등)
- LOC-VAGUE: 담론을 통해 유동적으로 구성되는 정치적·사회적 권역(예: 호남권, 수도권, 지방, 강남, 판교(v. 판교동(LOC-ADMIN)) 등)
- LOC-FACILITY: 공간적 갈등의 매개체가 되는 시설(예: 동남권 신공항, 고리 원전 등)
방법론 설계 3:
Tip📂 Code & Data Access
이 분석에 사용된 코드와 데이터는 아래 깃허브 저장소에서 확인하실 수 있습니다.
참고문헌
정민경. (2022). 장소의 개념화를 통한 개체명 분류 -<장소>, <기관>, <인공물> 개체명을 중심으로- [Master’s thesis]. https://lib.aks.ac.kr/eds/detail?an=edsker.000005039831\&dbId=edsker