본문 바로가기

Interest

스마트그리드를 위한 오픈소스 하둡(Hadoop)

KISTI 『글로벌동향브리핑(GTB)』 2009-06-08
일단 처음 보기에는 웹사이트에서 만들어진 대형 데이터셋을 분석하기 위해 개발된 오픈소스 소프트웨어 프레임워크, 하둡(Hadoop)이 전력망에 과연 어떻게 유용하게 활용될지 잘 알지 못한다. 또한 전력사업자들은 그동안 오픈소스 툴 등을 크게 사용하지 않은 측면도 있다. 그러나 하둡을 상용화시킨 신생기업 Cloudera에 따르면 현재 TVA(Tennessee Valley Authority: 미국 남부의 종합적 개발을 위하여 설립된 공사)와 NERC(North American Electric Reliability Corp.: 북미전력안정위원회)가 전력망의 건강상태에 관한 데이터를 모으고 처리하는데 하둡을 활용하고 있다고 한다.

TVA는 PMU(phasor measurement unit) 장치를 이용하여 전력망의 전기 신뢰성에 관한 데이터를 모으고 있다. NERC는 TVA 시스템을 전기 데이터의 국가적 저장소로 지명한 상태이다. TVA 시스템은 계속해서 100개 이상의 PMU 장치를 통해 정보를 모으고 있는데, 그 정보에는 전압, 전류, 주파수, 위치 등의 정보가 포함되어 있다.

그러나 TVA는 하둡이 그러한 광대한 데이터량을 관리하는 저비용의 방식이라고 말한다. 왜냐하면 하둡은 많은 저렴한 컴퓨터에서 구동될 수 있게 설계되었고, 시스템을 더욱 신뢰성 있게 만들며, 대규모 데이터를 처리하기 쉽게 하는 분산 기능을 갖고 있기 때문이다.

가장 중요한 특징은 하둡의 분산파일시스템(distributed file system)이다. 이것은 구글의 파일시스템에서 모델화됐는데, 구글 파일시스템은 파일시스템 데이터를 복수의 서버에 분산시키고, 그 모든 데이터를 복수의 복사본으로 유지한다. 이 아이디어는 한 서버가 다운되어도 다른 서버를 통해 정보를 여전히 접속할 수 있다는 데에서 출발한다. 나아가 그 시스템은 계속해서 정전을 복구할 수 있다. TVA는 하둡의 공격적인 복사 구조 때문에 모든 물리적인 기기가 파손되어도 운영파일 시스템이 유지되는 효과가 있다고 말한다.

하둡의 다른 특징은 분산프로세싱 프레임워크(distributed processing framework)이다. 이 기능은 구글이 소위 MapReduce라고 부르는 유명한 알고리즘을 사용하여 컴퓨터의 업무를 수백 또는 수천 가지의 노드로 분리하는 것이다. MapReduce 프레임워크는 페타바이트 이상의 대용량 데이터를 신뢰할 수 없는 컴퓨터로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해서 개발되었다. TVA는 NERC와 자사의 연구자들이 병렬로 연결된 서버에서 빠르게 전력 관련 데이터에 접속하고 운영할 수 있기 때문에 이 기능을 선호한다고 말한다.

앞으로 스마트 그리드가 구축되면서 막대한 데이터가 형성될 것이다. 새로운 송전 및 배전 시스템을 구축하면서 발굴될 정보 및 홈 에너지관리 툴을 통해 나오는 정보는 저렴하고 강력한 하둡이란 툴을 통해 빠르게 접속, 처리될 수 있게 될 것으로 기대되고 있다.

http://earth2tech.com/2009/06/02/how-to-use-open-source-hadoop-for-the-smart-grid/