티스토리 뷰

근래 몇 년간 빅데이터라는 용어가 어떤 IT분야에서도 쉽게 나오고 우선시 되었습니다. 과연 빅데이터란 무엇일까요? 빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술입니다. 쉽게 말하면 그냥 대용량 데이터를 뜻하며 이 대용량 데이터가 IT기술의 발달에 따라 보관, 가공, 처리가 가능한 형태가 되어 가치가 높아짐에 빅데이터라는 용어로 사용되고 있습니다. 특히 세계 경제 포럼은 2012년 떠오르는 IT 10대 기술 중 그 첫 번째를 빅 데이터 기술로 선정 했으며 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정 하는 등 최근 세계는 빅 데이터를 주목하고 있습니다. 2017년인 아직까지도 IT분야에서 빅데이터의 인기는 시들지 않고 있습니다. 이러한 IT업계의 빅데이터 환경을 설명하기 위해서는 먼저 빅데이터 기술 구성을 살펴보아야 합니다. 빅데이터 기술 구성은 크게 인프라, 분석 기법, 표현 기술로 구분되어 있습니다. 인프라는 수집, 처리, 관리 기술을 뜻하며 BI, DW, 클라우드 컴퓨팅, 분산 데이터베이스, 분산 병렬처리, 분산파일 시스템이 있습니다. 다음으로 분석 기법은 데이터를 분석하는 기술과 방법론을 의미합니다. 그 종류에는 IT분석기술인 통계, 데이터마이닝, 기계학습, 자연어처리, 패턴인식, 예측 모델링 등이 있습니다. 마지막으로 표현기술은 일반적으로 데이터 시각화로 알려져 있으며, 분석된 결과를 소프트웨어나 웹을 통해 얼마나 잘 보여주는지에 대한 기술입니다. 보다 구체적으로 빅데이터 분석 기법을 알아보면 전통적인 IT분석기법을 벗어나 주로 텍스트마이닝(Text Mining), 평판 분석(Opinion Mining), 소셜 네트워크 분석(Social Network Analytics), 클러스터 분석(Cluster Analysis)이 활용됩니다. 텍스트마이닝은 비정형 텍스트 데이터에서 가치와 의미를 찾아내는 기술로써 주로 문자인식과 음성인식에 많이 활용되어 졌습니다. 빅데이터 분야에서도 빠질 수 없겠죠? 평판분석은 IT제품이나 서비스 등에 대한 평판을 추출해 내는 기술입니다. 다음으로 소셜 네트워크 분석은 SNS 내 영향력, 관심사, 성향 및 행동 패턴을 IT기술을 통해 분석, 추출하는 기술입니다. 마지막으로 클러스터 분석은 데이터 간의 유사도를 정의하고 각 데이터 간의 거리를 구하고 서로의 거리가 가까운 것부터 순서대로 합쳐가는 방법입니다. 빅데이터 분야에서는 일반적인 IT데이터베이스에서 사용하는 SQL방식이 아닌 NoSQL을 활용합니다. NoSQL은 일반적 RDBMS가 데이터 모델링에서부터 시작해서 정규화를 통해(중복 제거) 테이블을 만들어내고, 해당 테이블을 통해 쿼리를 수행해 결과를 뽑아낸다고 하면, NoSQL은 이와 정반대의 접근을 합니다. NoSQL 데이터베이스는 전통적인 관계형 데이터베이스 보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 매커니즘을 제공합니다. 이러한 접근에 대한 동기에는 디자인의 단순화, 수평적 확장성, 세세한 통제를 포함합니다. NoSQL 데이터베이스는 단순 검색 및 추가 작업을 위한 매우 최적화된 키 값 저장 공간으로, 레이턴시와 스루풋과 관련하여 상당한 성능 이익을 내는 것이 목적입니다. NoSQL 데이터베이스는 빅데이터와 실시간 웹 애플리케이션의 상업적 이용에 널리 쓰이고 있습니다. 또, NoSQL 시스템은 SQL 계열 쿼리 언어를 사용할 수 있다는 사실을 강조한다는 면에서 "Not only SQL"로 불리기도 합니다. IT에서 현재 빠질 수 없고 미래 트렌드에도 핵심인 빅데이터 기술 어디까지 발전할지 궁금하면서도 기대가 됩니다.

댓글