<소프트웨어 아키텍처>
수집 : 플럼 , 카프카, 스톰
적재 : 하둡, HBase, 레디스 - 업무시스템
처리/탐색 : 하둡, 휴(하이브/스파크, 우지, 수쿱) - 업무시스템 DB
분석/응용 : 임팔라, 제플린, 머하웃, R, 텐서플로 - 서비스 API Flask
빅데이터 시작 | 모바일시대 > 빅데이타 시작> IOT.. 4차산업형명 : 인공지능, Iot, 사물인터넷... 과거 데이터 현상이해 미래예측... . 일부문제 발생해도 영향 없으면 큰수의 법칙. .. 후속조치. |
6V | 3V : 데이터 크기, 다양성, 속도 + 2V: 진실성, 시각화 = 1V 가치 빅데이터 레이크 & 웨어 하우스 : Volume, Variety, Velocity 빅데이터 마트 :상품/서비스+고객/마케팅+리스크관리 : Veracity 인사이트:현상이해 +현상발견+현상예측 : Visualization 비즈니스 : 비용절감+수익창출+문제해결 : value |
데이터 목적 | 데이터 & 사람 & 기술. -> 인사이트 : 비용절감, 수익창출, 문제해결. 빅데이터 인사이트 1. 현상이해 : 회원가입, 평균이용시간, 이용경로, 서비스 관심도, 상품및 휴면/해지율: 현황이해 2. 현상발견 : 고객증가, 매출증가, VOC 원인은? 3. 현상예측 : 모형을 만들어 예측 - 머신러닝, 딥러닝. |
빅데이터 vs AI |
빅데이터 시스템 AI시스템 BI 데이터 마트 + AI 데이터 마트 ---학습데이터 --> 머신러닝 딥러닝 빅데이터 웨어하우스 AI 개발/학습 빅데이터 레이크 |
빅데이터 활용 | 상품/서비스 : 상품/서비스 개발 및 개선에 활용 마케팅 지원 - 빅데이터를 대규모 고객 및 시장 분석에 활용 리스크 관리 - 빅데이터를 리스크 검출 밒 예측 분석에 활용. |
RDBMS , BigData |
RDBMS , BigData : 상호 보완적. |
프로젝트 | 플랫폼 구축형 프로젝트 : 빅데이터 SI 구축형 사업 , 수집-> 적재-> 처리-> 탐색-> 분석 기능구현, 3~10개월. 하드웨어 소프트웨어구성 : 프로젝트관리자-아키텍트 - 플랫폼파트(설치/구성) + 전처리파트(수집/적재) + 후처리 파트(처리 / 탐색 / 분석) 빅데이터 분석 프로젝트 - 빅데이터 플랫폼 구축 완료후 수행, 빅데이터 탐색으로 데이터의 이해가 높아질때 시작. 조직의 가치사슬 중 대규모 분석이 필요한 시점에 추진, 1~3개월 일정으로 추진 분석주제영역 - 마케팅/고객, 상품/서비스 개발, 리스크 관리 ***IT, 업무담당자 조율이 중요. 빠른성과 기대 위험. 데이터 양 탐색 단계적으로 높일 것. 조직도 - 빅데이터 분석 프로젝트 프로젝트 관리자 - 비즈니스 + 데이터 분석 + 데이터 엔지니어링 빅데이터 운영프로젝트 : 구축 완료된 플랫폼을 중장기적으로 유지관리 대규모 하드웨어 /소프트웨어로 운영 비용높음 빅데이터 분야별 전문가 그룹이 확보되어야 함. 빅데이터 거버넌스 체계를 수립해야함. : 전사시스템.. 여러부서 여러 담당자 ... 표준화, 역할 , 데이터 표준화 |
구축단계 | <전처리> 수집 : 내외부 데이터 연동 적재 : 대용량/실시간 데이터 처리, 분산 파일 시스템 저장 처리 : 데이터 선택, 변환, 통합, 축소, 데이터 워크플로 및 자동화 <후처리> 탐색 : 대화영 데이터 질의, 탐색적Ad-Hoc 분석 분석 : 빅데이터 마트 구성, 퉁계분석 고급 분석 <활용> 응용 : 보고서 및 시각화 분석 정보 제공 구축단계 수집 -> 적재 -> 처리/탐색 <->분석/응용 |
emerging market : 급성장하는 시장. |
대용량 저장소, 대규모 배치처리 > 실시간 처리 온라인분석 > 전처리 및 분석 마트 고급분석 및 마이닝. |
빅데이터 기술 변화 | 인프라스트럭처 : HP, IBM, Cisco, Dell, RedHat + 소프트웨어 플랫폼 : Cloudera, MapR, KT넥스알, 그루터, 크라우디인 + IT서비스 : KTDS, LG CNS, 삼성SDS, SK C&C, 다음소프트 2014년 기준 점유율 : Cloudera 51%, HortonWorks 33%, MapR 테크놀로지스 16% |
수집 | 수집- 정재, 변환, 필터링 -> 빅데이터저장 상 : 크기, 속도, 다양성 하 : 정확성, 시각화, 가치 |
적재 | 분산스토리지 영구/임시저장 HDFS : 대용량 영구저장 , 실시간X : 하둡 No-sql, 카산드라 영구저장. : Hbase 레디스 웹캐시 : 임시저장. : 레디스 MOM : 카푸카 상: 크기, 속도, 진실성 중 : 다양성 ----트레이드 오프 주의 하 : 시각화 가치 |
처리/탐색 | - 탐색적 분석 - 탐색적분석 : sql하둡 상: 크기, 진실성, 시각화 중 : 가치 ----트레이드 오프 주의 하 : 속도, 다양성 |
분석/응용 | -통찰력 데이터마이닝/머신러닝... 현재개선. 빅데이터 분석기술로 찾아 알고리즘... 선형적확장 가능... 머신러닝 --- 군집, 분류, 회기, 상 : 6v ; 크기, 속도, 다양성, 시각화, 정확성, 가치 |
빅데이터와 보안 | 시스템보안 데이터 보안 ------ 네트워크 보안 물리적보안 코드보안 접근제어 보안----- 전송보안 1. 데이터보안 - 개인정보 비식별화 . 정보XXXX 데이터 3법.. 아직적용안됨 개인식별 가능한 어떠한 정보 수집않는다.... 너무 다향.... - 개인정보 재식별화 : 주변다른데이터 특정개인 식별력올라감. 이름-연령-성별-거주지-직업-전화번호 + 취미-차량모델 :: 유일할수 있다. >> 프라이버시 유권해석 ..법률팀검토 비식별화 + 대체키 활용. : 분석결과... 공유. 2. 접근제어 보안 빅데이터 저장소(하둡) 개인정보, 거래정보, 행동이력. 서디파티 접근제어기술 사용: - 아파치 녹스 : 클라이언트 - DMG 구간 아파치녹스 - 하둡 에코시스템 + LDAP+KDC - 아파치 센트리 서버 : 아파치 센트리버 , 정책 메타 스토어 연결. 각각 임팔라, 하이브 서버, 하둡 네임노트가 센트리 에이전트로 아파츠센트리버와 연결되어 있임. - 아파치 레인저 서버 : 아파치 레인저 서버, 정책메타 스토어 연결, 각각 HBase, 녹스, HDFS,스톰, 하이브서버 레인저 플러그인으로 연결. - 케베로스 클라이언트- 하둡에코시스템은 티켓을 확인하고 접근을허용함. Kerberos Key Distribution Center 에 인증서버, 티켓발행서버가 있어 인증서버에 클라이언트가 인증요청을 하고, 티켓발행서버가 티켓 획득 |
R&R _ 분석 | R&R 분석가-모델러 - 데이터엔지니어 - 개발자인프라 - 관리자 기획 |
빅데이터 센터 : 표준 | CEO - 빅데이터센터- 빅데이터 분석 부서 IT부서- 빅데이터 플랫폼팀 |
파일럿 프로젝트 : 선행연구. | -PoC : Proof of Concept : 컨셉 증명 -PoV : Proof of Value : 가치증명 -BMT : BenchMark Test : 대규모 인프라에대한 성능 테스트 |
voc Voice Of Customer 고객불만
거버넌스 : governence : 공동의 목표달성. 주어진 자원 제약하에서 모든 이해 당사자들이 책임감을 가지고 투명의사결정수행 제반장치.
빅데이터 기술의 변화
낮은비용 스토리지 솔루션 -> 이머징기술.
**소프트웨어 플랫폼.... 순수 오픈소스. + 기업 배포판
1. 파일럿 프로젝트 도메인이해
요구사항 도출, 분석
차량내 디바이스(카 인포테인먼트 플랫폼 --> 빅데이터)
-> 제공서비스(주행거리연동보험, 운전행동 기반보험, 트래픽내비게이션, 광고, 카세어링)
요구사항 1: 차량의 다양한 장치로부터 발생하는 로그 파일을 수집해서 기능별상태 점검
데이터 발생위치, 종류, 발생주기, 수집주기, 수집규모, 타입, 분석주기, 처리 유형, 구분자, 스키마,
요구사항 2: 운행정보 로그를 실시간 수집 주행패턴 분석
<파일럿시스템>
스마트카 로그 시뮬레이터
->
스마트카 이상징후 예측 + 스마트카 운전패턴 군집 + 스마트카 차량용품 추천 : 빅데이터 마트
-------------------------------------------------------------------------------------
스마트카 상태정보 +마스터 정보+ 운행정보+구매이력 : 데이터 웨어하우스
-------------------------------------------------------------------------------------
수집-> 적재-> 처리/탐색-> 분석/응용
'Data' 카테고리의 다른 글
[1028 from 실무로 배우는 빅데이터 기술 By 김강원 05]하둡, 주키퍼 명령어 (0) | 2021.05.24 |
---|---|
[1028 from 실무로 배우는 빅데이터 기술 By 김강원 04] 빅데이터 클러스터 구성 (0) | 2021.05.22 |
[1028 from 실무로 배우는 빅데이터 기술 By 김강원 03] 서버설정 크라우데라 설치 (2) | 2021.05.21 |
[1028 from 실무로 배우는 빅데이터 기술 By 김강원 02] 소프트웨어/하드웨어 (2) | 2021.05.18 |
[1028 from 점프 투 파이썬, 부스트캠프]Python (0) | 2021.05.02 |