- CRM(Customer relationship management) : 빅데이터가 있기 전, 고객 정보를 분석하여 경영 상 의사결정에 도움을 주는 분석 기술

http://ko.wikipedia.org/wiki/%EA%B3%A0%EA%B0%9D_%EA%B4%80%EA%B3%84_%EA%B4%80%EB%A6%AC


- DW(Data Warehouse) : 마찬가지로 빅데이터가 있기 전, 데이터를 분석하여 경영 상 의사결정에 도움을 주는 분석 기술을 의미

http://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%9B%A8%EC%96%B4%ED%95%98%EC%9A%B0%EC%8A%A4


- Hadoop : 빅데이터를 처리하는 오픈소스 분산 파일 시스템. 아래 블로그에서 매우 설명을 잘하였다.

그러면 빅데이터를 다루는 기술들은 어떤 것들이 있을까요? 빅데이터라는 용어를 이끌어 낸 것도 Hadoop과 NoSQL의 성공에 있다고 볼 수 있기 때문에 가장 중요한 기술은 Hadoop 이라고 할 수 있습니다. 

Hadoop 자체는 파일 시스템과 분산 처리 플랫폼이지만 Hadoop을 중심으로 다양한 에코 시스템이 구축되면서 이제 Hadoop은 빅데이터에 있어 산업계 표준이라고 할 수 있습니다. 
다음은 빅데이터를 다루는데 필요한 기술입니다. 

- 원본 데이터 저장: 대용량 분산 파일 시스템(Hadoop File System 등) 
- 구조적 데이터 저장: 대용량 분산 데이터 저장소(NoSQL-HBase, Cassandra, MongoDB 등) 
- 배치 분산 병렬 처리: MapReduce(Hadoop), 그래프 분석(Pregel, GlodenORB 등) 
- 데이터 스트리밍 프로세싱: S4, Storm 
- 데이터 마이닝: Mahout 
- 다양한 데이터 분석 알고리즘 
- 기타: 분산 관리(ZooKeeper), 분산 큐(kafka), 분산 캐쉬(Memcached, Redis), 
- 기존 전통적인 솔루션: BI/DW, RDBMS 등 
- 데이터 분석 기술

http://www.jaso.co.kr/451

http://blrunner.com/12


- NoSQL 에 대해 정리된 아주 좋은 글

결론은 구글이 만든 BigTable에 기반한 게 잘한다고...? 

http://www.oss.kr/?mid=oss_repository14&document_srl=81878&sort_index=regdate&order_type=asc

http://eincs.com/2012/06/nosql-is-not-useful/


- NoSQL for 하둡

우선 위의 글과 좀 다른점은, 실제 서비스가 이루어지는 분야에서는 transaction 등이 매우 중요하므로 NoSQL이 한정적으로 쓰일 수 는 있다. 그러나 빅데이터에서는 그러한 transaction 보다 데이터를 어떻게든 빠르게 처리하는 것이 훨씬 중요한 것으로 보이며 따라서 NoSQL이 필수적인 것 같다. 그래서 많이 쓰이는 도구는 다음과 같다.

Hbase

Cassandra

http://helloworld.naver.com/helloworld/textyle/29533


- Spark : 하둡보다 2~3배의 성능을 내며 최근 각광받고 있는 새로운 분산 파일 시스템. 아래의 스파크란.pptx를 읽어보길 바란다.

--------------

여러 자료들을 참고하여 요약 정리해보았다.

빅데이터플랫폼.pptx


다음은 참고한 자료들이다.

머하웃이란.pdf

스파크란.pdf

하둡이란.pdf


'프로그래밍 > 오픈소스, 빅데이터' 카테고리의 다른 글

IPython Notebook 사용법  (0) 2015.06.02
빅데이터 플랫폼  (0) 2015.04.13
오픈소스 라이센스 및 개발 가이드  (0) 2015.04.13
openFramework, ofxFenster 버그 수정  (0) 2015.03.15
Git 사용방법  (0) 2014.05.07
by 곽동현 이스텔리앙 2015.04.13 21:14
| 1 2 3 4 5 |