- CRM(Customer relationship management) : 빅데이터가 있기 전, 고객 정보를 분석하여 경영 상 의사결정에 도움을 주는 분석 기술
http://ko.wikipedia.org/wiki/%EA%B3%A0%EA%B0%9D_%EA%B4%80%EA%B3%84_%EA%B4%80%EB%A6%AC
- DW(Data Warehouse) : 마찬가지로 빅데이터가 있기 전, 데이터를 분석하여 경영 상 의사결정에 도움을 주는 분석 기술을 의미
http://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%9B%A8%EC%96%B4%ED%95%98%EC%9A%B0%EC%8A%A4
- Hadoop : 빅데이터를 처리하는 오픈소스 분산 파일 시스템. 아래 블로그에서 매우 설명을 잘하였다.
그러면 빅데이터를 다루는 기술들은 어떤 것들이 있을까요? 빅데이터라는 용어를 이끌어 낸 것도 Hadoop과 NoSQL의 성공에 있다고 볼 수 있기 때문에 가장 중요한 기술은 Hadoop 이라고 할 수 있습니다.
Hadoop 자체는 파일 시스템과 분산 처리 플랫폼이지만 Hadoop을 중심으로 다양한 에코 시스템이 구축되면서 이제 Hadoop은 빅데이터에 있어 산업계 표준이라고 할 수 있습니다.
다음은 빅데이터를 다루는데 필요한 기술입니다.
- 구조적 데이터 저장: 대용량 분산 데이터 저장소(NoSQL-HBase, Cassandra, MongoDB 등)
- 배치 분산 병렬 처리: MapReduce(Hadoop), 그래프 분석(Pregel, GlodenORB 등)
- 데이터 스트리밍 프로세싱: S4, Storm
- 데이터 마이닝: Mahout
- 다양한 데이터 분석 알고리즘
- 기타: 분산 관리(ZooKeeper), 분산 큐(kafka), 분산 캐쉬(Memcached, Redis),
- 기존 전통적인 솔루션: BI/DW, RDBMS 등
- 데이터 분석 기술
- NoSQL 에 대해 정리된 아주 좋은 글
결론은 구글이 만든 BigTable에 기반한 게 잘한다고...?
http://www.oss.kr/?mid=oss_repository14&document_srl=81878&sort_index=regdate&order_type=asc
http://eincs.com/2012/06/nosql-is-not-useful/
- NoSQL for 하둡
우선 위의 글과 좀 다른점은, 실제 서비스가 이루어지는 분야에서는 transaction 등이 매우 중요하므로 NoSQL이 한정적으로 쓰일 수 는 있다. 그러나 빅데이터에서는 그러한 transaction 보다 데이터를 어떻게든 빠르게 처리하는 것이 훨씬 중요한 것으로 보이며 따라서 NoSQL이 필수적인 것 같다. 그래서 많이 쓰이는 도구는 다음과 같다.
Hbase
Cassandra
http://helloworld.naver.com/helloworld/textyle/29533
- Spark : 하둡보다 2~3배의 성능을 내며 최근 각광받고 있는 새로운 분산 파일 시스템. 아래의 스파크란.pptx를 읽어보길 바란다.
--------------
여러 자료들을 참고하여 요약 정리해보았다.
다음은 참고한 자료들이다.
'Development > for Machine Learning' 카테고리의 다른 글
TensorFlow Extreme Performance Tuning (0) | 2017.01.20 |
---|---|
TensorFlow 프로그래밍 (0) | 2016.09.13 |
Practical Theano Tutorial (0) | 2015.03.11 |
Theano 사용법 (0) | 2015.01.20 |
CUDA Programming (2) | 2014.11.17 |
댓글