Data

[1028 from 실무로 배우는 빅데이터 기술 By 김강원 01] 도메인이해

<소프트웨어 아키텍처>

수집 : 플럼 , 카프카, 스톰

적재 : 하둡, HBase, 레디스                           - 업무시스템

처리/탐색 : 하둡, 휴(하이브/스파크, 우지, 수쿱) - 업무시스템 DB

분석/응용 : 임팔라, 제플린, 머하웃, R, 텐서플로 - 서비스 API Flask 

빅데이터 시작 모바일시대 > 빅데이타 시작> IOT.. 4차산업형명 : 인공지능, Iot, 사물인터넷...
과거 데이터 현상이해 미래예측... . 
일부문제 발생해도 영향 없으면 큰수의 법칙. .. 후속조치. 
6V 3V : 데이터 크기, 다양성, 속도 + 2V: 진실성, 시각화 = 1V 가치

빅데이터 레이크 & 웨어 하우스 : Volume, Variety, Velocity
빅데이터 마트 :상품/서비스+고객/마케팅+리스크관리 : Veracity
인사이트:현상이해 +현상발견+현상예측 : Visualization
비즈니스 : 비용절감+수익창출+문제해결 : value
데이터 목적  데이터 & 사람 & 기술. -> 인사이트 : 비용절감, 수익창출, 문제해결. 

빅데이터 인사이트

1. 현상이해 : 회원가입, 평균이용시간, 이용경로, 서비스 관심도, 상품및 휴면/해지율:  현황이해 
2. 현상발견 : 고객증가, 매출증가, VOC 원인은? 
3. 현상예측 : 모형을 만들어 예측 - 머신러닝, 딥러닝. 
빅데이터
vs  AI
빅데이터 시스템                                                     AI시스템
BI 데이터 마트 + AI 데이터 마트    ---학습데이터 -->    머신러닝   딥러닝
빅데이터 웨어하우스                                               AI 개발/학습
빅데이터 레이크 
빅데이터 활용 상품/서비스 : 상품/서비스 개발 및 개선에 활용
마케팅 지원 - 빅데이터를 대규모 고객 및 시장 분석에 활용
리스크 관리 - 빅데이터를 리스크 검출 밒 예측 분석에 활용. 
RDBMS , 
BigData 
RDBMS ,  BigData  : 상호 보완적. 
프로젝트 플랫폼 구축형 프로젝트
: 빅데이터 SI 구축형 사업 ,   수집-> 적재-> 처리-> 탐색-> 분석 기능구현, 3~10개월.  하드웨어 소프트웨어구성
: 프로젝트관리자-아키텍트 
      - 플랫폼파트(설치/구성) + 전처리파트(수집/적재) + 후처리 파트(처리 / 탐색 / 분석)
빅데이터 분석 프로젝트
      - 빅데이터 플랫폼 구축 완료후 수행, 빅데이터 탐색으로 데이터의 이해가 높아질때 시작. 
        조직의 가치사슬 중 대규모 분석이 필요한 시점에 추진, 1~3개월 일정으로 추진
         분석주제영역 - 마케팅/고객, 상품/서비스 개발, 리스크 관리 
    ***IT, 업무담당자 조율이 중요.  빠른성과 기대 위험. 데이터 양 탐색 단계적으로 높일 것. 
         조직도 - 빅데이터 분석 프로젝트 
         프로젝트 관리자 - 비즈니스 + 데이터 분석 + 데이터 엔지니어링 
빅데이터 운영프로젝트
        : 구축 완료된 플랫폼을 중장기적으로 유지관리
          대규모 하드웨어 /소프트웨어로 운영 비용높음
          빅데이터 분야별 전문가 그룹이 확보되어야 함. 
           빅데이터 거버넌스 체계를 수립해야함. : 전사시스템.. 여러부서 여러 담당자 ... 표준화, 역할 , 데이터 표준화 
구축단계  <전처리>
수집 : 내외부 데이터 연동
적재 : 대용량/실시간 데이터 처리, 분산 파일 시스템 저장 
처리 : 데이터 선택, 변환, 통합, 축소, 데이터 워크플로 및 자동화
<후처리>
탐색 : 대화영 데이터 질의, 탐색적Ad-Hoc 분석
분석 : 빅데이터 마트 구성, 퉁계분석 고급 분석
<활용>
응용 : 보고서 및 시각화 분석 정보 제공 
구축단계
수집 -> 적재 -> 처리/탐색 <->분석/응용
emerging market
: 급성장하는 시장. 
대용량 저장소, 대규모 배치처리
> 실시간 처리 온라인분석
> 전처리 및 분석 마트 고급분석 및 마이닝. 
빅데이터 기술 변화 인프라스트럭처        : HP, IBM, Cisco, Dell, RedHat
+ 소프트웨어 플랫폼 : Cloudera, MapR, KT넥스알, 그루터, 크라우디인 
+ IT서비스 : KTDS, LG CNS, 삼성SDS, SK C&C, 다음소프트

2014년 기준 점유율 :  Cloudera 51%, HortonWorks 33%,  MapR 테크놀로지스 16%
수집 수집- 정재, 변환, 필터링 -> 빅데이터저장
상 : 크기, 속도, 다양성
하 : 정확성, 시각화, 가치
적재 분산스토리지 영구/임시저장
HDFS : 대용량 영구저장  , 실시간X   :  하둡
No-sql,  카산드라 영구저장.            :  Hbase
레디스 웹캐시 : 임시저장.               : 레디스
MOM                                        : 카푸카

상: 크기, 속도, 진실성 
중 : 다양성                       ----트레이드 오프 주의
하 : 시각화 가치 
처리/탐색 - 탐색적 분석
- 탐색적분석 : sql하둡

상: 크기,  진실성, 시각화
중 : 가치                       ----트레이드 오프 주의
하 : 속도, 다양성 
분석/응용 -통찰력
데이터마이닝/머신러닝... 현재개선. 
빅데이터 분석기술로 찾아 알고리즘... 
선형적확장 가능... 
머신러닝 --- 군집, 분류, 회기,   
상 : 6v ; 크기, 속도, 다양성, 시각화, 정확성, 가치 
빅데이터와 보안 시스템보안
데이터 보안   ------
네트워크 보안
물리적보안
코드보안
접근제어 보안-----
전송보안
1. 데이터보안
- 개인정보 비식별화 .   정보XXXX                데이터 3법.. 아직적용안됨
개인식별 가능한 어떠한 정보 수집않는다....  너무 다향.... 
- 개인정보 재식별화 : 주변다른데이터 특정개인 식별력올라감. 
이름-연령-성별-거주지-직업-전화번호 + 취미-차량모델  :: 유일할수 있다. >> 프라이버시 유권해석 ..법률팀검토
비식별화 + 대체키 활용.  : 분석결과... 공유. 
2. 접근제어 보안
빅데이터 저장소(하둡) 개인정보, 거래정보, 행동이력. 
서디파티 접근제어기술 사용:
- 아파치 녹스 :    클라이언트 - DMG 구간 아파치녹스 - 하둡 에코시스템 + LDAP+KDC
- 아파치 센트리 서버
: 아파치 센트리버 , 정책 메타 스토어 연결.  각각 임팔라, 하이브 서버, 하둡 네임노트가 센트리 에이전트로 아파츠센트리버와 연결되어 있임. 
- 아파치 레인저 서버
: 아파치 레인저 서버, 정책메타 스토어 연결, 각각 HBase, 녹스, HDFS,스톰, 하이브서버 레인저 플러그인으로 연결. 
- 케베로스 
클라이언트- 하둡에코시스템은 티켓을 확인하고 접근을허용함. 
Kerberos Key Distribution Center 에 인증서버, 티켓발행서버가 있어 
인증서버에 클라이언트가 인증요청을 하고, 티켓발행서버가 티켓 획득 
R&R _ 분석 R&R 
분석가-모델러  - 데이터엔지니어 - 개발자인프라 - 관리자 기획
빅데이터 센터 : 표준 CEO - 빅데이터센터- 빅데이터 분석 부서
IT부서- 빅데이터 플랫폼팀 
파일럿 프로젝트 : 선행연구.  -PoC : Proof of Concept :  컨셉 증명
-PoV : Proof of Value : 가치증명
-BMT : BenchMark Test :  대규모 인프라에대한 성능 테스트

voc  Voice Of Customer 고객불만

거버넌스 : governence : 공동의 목표달성.  주어진 자원 제약하에서 모든 이해 당사자들이 책임감을 가지고 투명의사결정수행 제반장치. 

빅데이터 기술의 변화

낮은비용 스토리지 솔루션 -> 이머징기술. 

**소프트웨어 플랫폼.... 순수 오픈소스. + 기업 배포판 

 

1. 파일럿 프로젝트 도메인이해

요구사항 도출, 분석

차량내 디바이스(카 인포테인먼트 플랫폼 --> 빅데이터)

-> 제공서비스(주행거리연동보험, 운전행동 기반보험, 트래픽내비게이션, 광고, 카세어링)

요구사항 1:  차량의 다양한 장치로부터 발생하는 로그 파일을 수집해서 기능별상태 점검

데이터 발생위치, 종류, 발생주기, 수집주기, 수집규모, 타입, 분석주기, 처리 유형, 구분자, 스키마, 

요구사항 2: 운행정보 로그를 실시간 수집 주행패턴 분석

<파일럿시스템>

스마트카 로그 시뮬레이터 

->

스마트카 이상징후 예측 + 스마트카 운전패턴 군집 + 스마트카 차량용품 추천 : 빅데이터 마트 

-------------------------------------------------------------------------------------

스마트카 상태정보 +마스터 정보+ 운행정보+구매이력 : 데이터 웨어하우스

-------------------------------------------------------------------------------------

수집-> 적재-> 처리/탐색-> 분석/응용