BuzzWeb/eThink

[시사용어]빅 데이터(Big Data)

BUZZWeb 2012. 12. 11. 09:16

[시사용어] 빅 데이터(Big Data)

 

에릭 슈미트 구글 CEO에 따르면 전 세계에서 2일 단위로 생성되는 데이터 양이 인류 문명의 시작부터 2003년까지 생성된 데이터의 양과 동일하다고 한다.
 
바야흐로 `빅 데이터` 시대가 도래했다.  빅 데이터(Big Data)의 개념을 간단히 짚어본다.
 
■ 개념
기존의 데이터베이스나 아키텍처가 저장, 관리, 분석할 수 있는 범위를 초과하는 거대한 규모의 데이터 집합 또는 이를 분석하는 기법을 뜻함
 
■ 빅 데이터가 차세대 이슈로 떠오른 이유
① ICT 주도권이 데이터로 이동, ② 공간, 시간, 관계, 세상을 담는 데이터, ③ 미래 경쟁력과 가치창출의 원천 등으로 분석됨

 

* 신 가치창출 엔진, 빅데이터의 새로운 가능성과 대응전략(한국정보화진흥원, 2012)
    
■ 기대효과
산업 각 분야의 효율 증진과 비용 감소에 기여할 수 있음

 

* 마케팅 : 예전에는 의미 부여가 힘들었던 대용량 데이터를 분석할 수 있기 때문에 소비자의 심리나 행태를 파악하고 전략을 짜기 용이
* 정치 : 미국 대선 및 한국 총선ㆍ대선에서도 빅 데이터 분석에서 선거결과를 예측할 수 있을 것으로 기대
 
■ 최근 동향
IT서비스 기업들은 국내 기업들이 모바일 센서나 소셜미디어 등에서 생성되는 대량의 비즈니스 데이터에 집중하는 점에 주목하며 잇따라 관련 솔루션을 선보이고 있음
 
최근 경제·사회 현안들을 해결하는 실마리가 될 수 있어 새롭게 각광받고 분야임
  
* 지난 2012년 1월에 열린 세계경제포럼(다보스포럼)에서 빅 데이터 기술은 ‘새로운 가능성을 여는 중요한 기술’로 지목됨

 

 

------------------------------------------------------------

 

# 세계에 실존하는 8개의 빅데이터 거점

 

세계에 있어서 데이터의 총량은 18개월마다 2배가 된다고 말해지고 있다. 본 기사에서는 다양한 업계에 실존하는 8개의 빅데이터를 소개한다.세계의 데이터량은 폭발적으로 증대하여, 18개월마다에 2배가 된다고 이야기되고 있다. 빅데이터에 관해서는 그것이 일으키는 문제나 잠재적인 유익성 등에 관한 논의가 활발하다. 그러나 일부에서는 그러한 논의를 이미 행동으로 옮기는 사람도 있다. 본 기사에서는 세상에 실존하는 빅데이터의 8가지 사례를 소개한다. 상세한 것은 TechAmerica Foundation Big Data Commission의 case Study를 참조했으면 한다.

 

■ 1:미국해양대기국(NOAA)의 국내 기상 서비스
 
미국 해양대기국의 빅 데이터에 관한 취급은 실로50년이나 된다. 대기국에서는 현재, 위성이나 선박, 항공기, 부표, 기타 센터로부터 1일에 35억건 이상의 관측 정보를 수집하여 년간 30페타 바이트의 신규 데이터를 관리하고 있다. 직접 측정한 대기나 해양, 육상의 데이터와 복잡하며 고충실한 예측 모델링을 조합하여 미국국립기상국(NWS)을 지탱하고 있다. 미국국립기상국의 모델은 기상주의보외, 미국방부나 미항공우주국 (NASA)과 같은 정부기관을 포함한 공공/민간부문의 예보 지향의 예측 등, 매일 수백만 종류의 정보를 만들어 내고 있다.

 

■ 2:AM Biotechnologies의DNA염기 배열분석 솔루션
 
미국 텍사스 주 휴스턴에 거점을 둔 AM Biotechnologies는 Aptamer라 불리는 화학 수식된 DNA기반 분자 실체를 생성하는 새로운 Proprietary 기술의 개발에 주력하고 있다. Aptamer는 혈액 샘플 중의 특정 분석물을 수치화해서 진단하거나, 약물을 신체중의 특정 환부에 delivery 하거나 하는 데에 이용되고 있다. 이러한 Aptamer를 개발하는 데에는 최대로 수백억건에 이르는 짧은 DNA염기배열을 분석할 필요가 있다. 이 회사에서는 CD-HIT와Galaxy의 Web기반의 빅 데이터 분석 툴을 사용해서 데이터를 처리하였다.
 
■ 3:미국국공립문서기록관리국(NARA)의 전자기록 아카이브
 
미국국립공문서기록관리국은 정부 관계의 자료 등을 보관하는 공문서관이다. 관리하는 정보량은 142 데라 바이트에 달하며, 증가를 계속하고 있다. 연방 정부나 미국 의회, 복수의 대통령 도서관 등, 대상수는 70억만점을 초과한다. 전자화된 기록에는 4800종류 이상의 포멧이 존재한다. 2016년까지에 전자기록정보의 95%를 연구자에게 제공할 계획이다. 이국에서는 다양한 법적 방법으로 관리 운영되고 있는 복수의 아카이브 기능이나 기록 관리 기능을 잘 연계하기 위해, Electronic Records Archive를 “복수시스템으로부터 이루어지는 시스템”으로 구축해 왔다.

 

■ 4:Vestas Wind Systems에 의한 풍력 터빈 설치와 보수
 
덴마크 기업의 Vestas Wind Systems에서는 슈퍼컴퓨터와 빅 데이터의 모델링¬솔루션을 이용해서 풍력 터빈의 최적 설계 장소를 선정하여 발전량의 최대화와 전력 비용의 삭감을 실현하고 있다. 이 회사는 세계 각 지역의 기수 시스템 데이터와 이 회사의 기존 터빈으로부터 취득한 데이터를 조합한 바람 라이버러리를 활용하고 있다. 이 라이버러리의 데이터량은 현재, 2.8 페타 바이트에 달하고 있다. 기온, 기압, 습도, 강수량, 풍향, 풍속(최대 지상 300피트까지) 그리고 이 회사에서 기록한 역사적 데이터 등의 파라메터가 포함된다. Vestas는 앞으로 세계의 벌채량이나 위성 영상, 지리 공간 데이터, 달과 조류의 밀고 당기기에 관한 데이터 등을 추가할 계획이다.
 
■ 5:미국내 국세입청의 컴플라이언스 데이터 웨어하우스

 

미국내국세입청(IRS)은 1996년, 한해의 소득신고데이터를 분석용으로 업로드하는 프로젝트에 착수하였다. 이 프로젝트가 최종적으로는 1 페타 바이트 이상의 정보를 취급한 컴플라이언스 데이터 웨어하우스였다. 레가시 데이터의 대부분은 구조화 데이터 이지만, 전자적인 소득 신고나 국제조세협정 각국, 제3자 기관으로부터 취득한 신규 데이터는 XML 등 반 구조화/비구조화 데이터가 되어 있다. 이 세입청의 연구 그룹은 이와 같은 데이터를 사용해서 분석하여, 미국에 있어서 Tax Gap의 추정이나 ID 절도의 예측, 납세자 부담의 계측, 세금에 관한 정책 변경이 주는 영향의 시물레이션 등을 행하고 있다.

 

■ 6:온타리오공과대학의 의료모니터링
 
온타리오공과대학은 IBM과 연계하여, 의료모니터링 기술의 향상을 지향한 Artemis 프로젝트에 전념해 왔다. 이것은 병원내 감염 등에 의해서 환자의 Vital 신호가 급변하여 심각한 상태로 빠지기 전에, 그 전조가 되는 변화를 검출하는 것을 가능하게 한다. 이 프로젝트에는 분석 소프트웨어「IBM InfoSphere Streams」를 활용하고 있다. 쏟아지는 스트리밍 데이터를 연속적으로 분석하여 실시간의 의사 결정을 지원하기 위한 정보처리 아키텍처이다.

 

■ 7:TerraEchos의 침입탐지시스템
 
TerraEchos는 중요 인프라의 보호나 감시 기술을 전문으로 하는 기업이다. 고객인 미국에너지부의 연구소에는 과학정보나 기술, 리소스 보호를 제공하고 있다. 이것에는 잠재적 위협(생물적, 비생물적인것을 불구하고)의 탐지, 분류, 특정, 추적을 가능하게 하는 기술 솔루션이 필요하여, 더욱이 수 마일 앞의 속삭이는 소리와 바람소리를 판별할 필요도 있었다. 이것을 실현하기 위해 이 솔루션에서는 센서와 분석 소프트웨어, 고성능 컴퓨팅(HPC)을 사용하여 인간이나 동물, 대기상태에 의해서 발생하는 진동이나 움직임에 관한 대량의 정보를 연속적으로 처리, 분석하고 있다.

 

■ 8:미국항공우주국(NASA)의 유인우주비행의 영상 수집, 아카이브, 호스팅
 
NASA의 존슨우주센터는 미국 우주비행사나 국제우주스테이션(ISS)의 미션운용 등에 있어서 중요한 역할을 담당하고 있다. 1959년이래, 400만 매 이상의 정지 사진, 950만 피트의 16mm 필름, 8만5000본의 비디오 테입과 파일을 가지고 있다. 동영상의 길이는 아날로그/디지털 형식으로 합계 8만1616 시간에 이른다. 이 수집은 미디어용 컨텐츠로 사용되는 외, 과학/기술 커뮤니티에도 활용되고 있다. NASA에서는 「Imagery online」로 불리는 어플리케이션을 개발하여, 이미지 파일의 명칭과 그것에 관련된 모든 메터 데이터를 결합하고 있다. 이와 같은 수집을 살아있는Native format과 보다 적은 액세스하기 쉬운 미디어 포멧의 양쪽으로 일반 공객하려는 커다란 과제에 직면하고 있다.

 

* 출처 : Computerworld 2012.12.08

 

 

-------------------------------------------------------------

 

# 관련 기사

- [책] 빅데이터와 소셜분석 사이, 블로터닷넷, 2012.12.10 

- 여기에 당신의 욕망이 보인다- 빅 데이터에서 찾아낸 70억 욕망의 지도, 송길영 | 쌤앤파커스 | 2012-11-15

- NHN, 빅테이터에서 미래를 보다, ZDNet Korea, 2012-12-08

- LG경제연구원 ‘빅데이터 시대의 스마트 비서 경쟁 시작되었다’, K모바일, 2012-12-05

- <2012년 결산>‘소모클로(SoMoClo)․빅데이터’ 돌풍 IT시장 새로운 패러다임..., 아이티데일리, 2012-12-04