학부/클라우드 컴퓨팅

빅데이터의 기본 개념

녱녱 2022. 11. 21.

 

약 20년 만에 국제 도량 협회에 새로운 숫자 단위가 추가되었다. 이유는

데이터 저장용량의 폭발적 증가!

2021년 기준 1분 동안 생성되는 데이터의 양이라고 한다. 정말 진짜 엄청 많다.

AWS 서비스에 관심이 생기기도 하고 위와 같은 이슈들로

빅데이터/클라우드 관련해서 배웠던 것들을 다시 정리하고 옮겨와보려고 한다

모든 내용은 교수님의 강의내용, 이것저것 찾아본 것들에 기인한다

혹시 오류가 있다면 알려주시면 감사하겠습니다 :)

빅데이터(Big Data)

Big data is term for data sets that are so large or complex that traditional data processing application software are inadequate to deal with them
- WIKIPEDIA

쉽게 말해서 너무 크거나 복잡해서 전통적인 방식으로 처리하기 힘든 데이터를 말한다.

비정형/반정형 데이터가 섞여있기도 하다.

즉, 여기서 말하는 전통적인 방식은 RDBMS 같이 테이블로 표현되는 정형화 된 DB를 말한다.

 

하지만 이러한 데이터가 단순히 "쌓이기"만 하면 되는 것이 아니라

해당 데이터들을 잘 정제해 어떠한 가치를 뽑아 낼 때 진가를 발휘할 수 있는 것이다.

 

빅데이터를 잘 활용하면 새로운 이론을 발견하는 실험의 토대가 되기도, 마케팅의 일환이 되기도, 고장의 선제적 예방이 되기도 하는 등 다양한 분야에서 이점을 얻을 수 있다. 대규모 데이터로부터 상대적으로 저렴한 비용으로 가치를 추출할 수 있게 되는 것이다.

 

빅데이터는 크기(Volume), 속도(Velocity), 다양성(Variety) 라는 3가지의 특징이 있다.

 

빅데이터의 3대 요소_크기(Volume)

데이터의 양을 말한다. 일반적으로 수십 테라바이트/페타바이트 이상이 빅데이터의 범위에 해당된다.

 

-> 기존 파일 시스템에 저장하기 어려운 양일 뿐만 아니라, 데이터 웨어하우스 같은 솔루션에서 소화하기 어려울 정도로 급격히 데이터의 양이 증가하게 되었고, 자연스럽게 확장 가능한(Scalable)한 방식으로 데이터를 저장하고 분석하는 분산 컴퓨팅(Distributed Computing) 기법으로 접근할 필요성이 생겼다.

 

빅데이터의 3대 요소_속도(Velocity)

속도는 실시간 처리(Real-time Processing)과 장기적인 접근(Batch Processing)이라는 두가지 측면에서 바라볼 수 있다.

 

위의 인포그래픽에서도 알 수 있듯이 오늘날 디지털 데이터는 매우 빠른 속도로 생성되며, 이에 따라 데이터의, 생산, 저장, 유통, 수집, 분석 등에 있어서 실시간 처리가 매우 중요해진 것은 당연하다.

 

장기적으로는 수집된 대량의 데이터를 다양한 분석 기법과 표현 기술로 분석할 수 있어야 한다. (데이터의 수집과 적재처리, 분석, 예측까지 속도적 측면으로 보는 것이다)

 

빅데이터의 3대 요소_다양성(Variety)

정형(Structured) : 고정된 필드에 저장되는 데이터를 말한다. 기존의 솔루션(DB)을 이용해 비교적 쉽게 보관/분석/처리 작업이 가능하다

 

반정형(Semi-Structured) : 고정된 필드로 저장되어 있지는 않지만 XML, HTML, JSON과 같이 메타 데이터나 스키마 등을 포함하는 데이터비정형(Unstructured) : 고정된 필드에 저장되어 있지 않은 데이터를 말한다. 동영상, 사진, 오디오 데이터, 메신저로 주고 받은 대화  내용, 스마트폰에서 기록되는 위치 정보, 유무선 전화로 발생 하는 통화 내용등이 모두 비정형 데이터에 들어간다.

 

빅데이터의 중요성

우선 가장 중요한 비용적 측면이 있다. 하둡과 같은 빅데이터 기술과 클라우드 기반의 분석이 유의미한 비용적 이점을 가져다 줄 수 있다. 또한 이런 빅데이터를 분석해 더 빠르고, 좋은 선택을 할 수도 있고 새로운 상품이나 서비스를 개발 할 수 있다. 

 

빅데이터를 관통하는 내용은 장기적 관점에서 다량의 데이터를 통한 유의미한 가치 창출이라고 생각한다.

 

+ Veracity, Value가 추가 되어 5V라 부르기도, Validity, Volatility가 추가 되어 7V라 부르기도 한다.

 

📕Reference

https://www.allaccess.com/merge/archive/32972/infographic-what-happens-in-an-internet-minute

댓글