언어, 교육

빅데이터 준전문가(ADsP) 요약 (1과목)

물리터리 2023. 6. 3. 17:03

빅데이터 준전문가 요약본입니다.

수제비 빅데이터 준전문가 책을 활용하여 기출문제와 확인해서 정리한 내용이며, 주관식으로 나온 기출문제는 별도 표시했습니다.

저는 이것만 공부해서 합격할 수 있었습니다~! 모두들 열심히 공부해서 희망하시는 바를 이루시기 바랍니다.

 

*빨간색 글씨는 두문글자, 파란색 글씨는 서술로 기출된 사항입니다.

반응형

1과목

 

데이터 정의

1. 개별데이터 자체로는 의미가 없음.

2. 객관적 사실로서 가공 전의 순수한 자료

3. 추론, 추정의 근거로서 다른 객체와의 상호관계 속에서 가치가 생김

 

유형 (양수도기 성언문)

정량적 데이터 : 수치,도형,기호

정성적 데이터 : 언어, 문자

 

암묵지와 형식지 (공표연내)

암묵지(공통화) --표출화--> 형식지(연결화) --내면화-->암묵지(공통화)

*암묵지: 혼자만 아는 것

*형식지: 모두가 공통으로 알게되는 것, 메뉴얼화

 

데이터, 정보, 지식, 지혜   ---> 서술형 (정보, 지식)

데이터 : 이 책은 A마트는 1000원, B마트는 2000원

정보 : 이 책은 A마트가 저렴(데이터 가공,상관관계 간의 이해를 토대로 패턴 인식 그 의미 부여)

지식 : A마트에서 사야겠다

지혜 : 다른 물건도 A마트가 싸겠지

 

데이터베이스의 정의 : 데이터집합으로 대용량데이터 관리

특징 (통저공변)

1. 통합된 데이터 : 동일 내용으로 데이터 중복

2. 저장된 데이터 : 컴퓨터가 접근 가능한 저장매체에 저장

3. 공용데이터 : 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용

4. 변화되는 데이터 : 삽입,삭제,갱신으로 항상 변화

 

데이터베이스의 장단점

단점 : 전문가 필요, 큰 비용, 백업 및 복구 힘듬, 일부 장애시 전체 장애, 모든 데이터 문제 해결 불가

 

DBMS유형

1. 관계형 : 행과 열로 구성된 테이블

2. 계층형 : 트리 형태로 구성된 1:N

3. 네트워크: M:N관계

4. 객체지향형 : 사용자 정의 타입, 비정형 정보 타입 지원

 

SQL 

1. 데이터 정의어(DCL) : create, alter, drop, trunc  ---> 크알드트

2. 데이터 조작어(DML) : select, insert, update, delete ----> 세인업데

3. 데이터 제어어 : grant, revoke

*having 절에는 group by 사용

 

데이터베이스 활용

 

기업내부

1.제조부분

가. ERP : 회사의 모든 정보 + 공급망 + 고객 주문정보 관리

나. 데이터마트 : 특정주제, 부서중심으로 구축된 작은 규모의 데이터웨어하우스

다. DW(데이터웨어하우스) (주통시비)

     1) 주제지향적

     2) 통합적: 일관성을 유지

     3) 시계열적 : 시간에 따른 변경 반영

     4) 비휘발적 : 읽기 전용 형태 스냅샷

라. BI(business intelligence)

 

2. 금융부분

가. EAI : 기업에서 운용하는 다른 기종의 시스템 통합

나. ERP

다. e-CRM : 온라인 상에서 고객을 분석하는 인터넷 기반 마케팅

라. 블록체인 : 관리대상이 되는 데이터를 P2P방식 기반으로 생성~~~~누구나 임의수정 불가~~

 

3. 유통부분

가. CRM : 고객별 구매이력 데이터분석하여 마케팅에 활용

나. SCM(공급망 관리) : 외부 공급업체 또는 제휴업체와의 통합된 정보시스템으로 시간 및 비용 최적화

 

4, 사회기반구조(중요X)

지리 : NGIS,GPS,   교통 : ITS,  교육 : NEIS  등

 

메타데이터 : 다른 데이터를 설명하는 데이터

 

빅데이터 : 막대한 양의 정형, 비정형 데이터

 

특징 (규다속 가신 정휘)

3V: 규모,다양성,속도  -----> 규모의 예로 구글 번역시스템

5V: 가치,신뢰성

7V: 정확성, 휘발성

 

빅데이터 유형

1. 정형데이터 : CRM, SCM, 관계형DB, 재고데이터

2. 반정형데이터 : XML, 기상청 날씨 데이터, 모바일 데이터

3. 비정형데이터 : 이메일, QR코드

 

빅데이터 이후 본질적 변화 ( 후전양상)

후 : 사전처리에서 사후처리로

전 : 표본조사에서 전수조사로

양 : 질보다는 양

상 : 인과관계에서 상관관계

 

빅데이터 가치선정의 어려운 이유

1. 데이터 활용 방식 다양화(재사용, 재조합)

2. 새로운 가치창출의 어려움

3. 분석기술의 급속한 발전

 

빅데이터 활용사례 : 번역, 상품진열, 병원 등

 

빅데이터 활용 기본기법

1. 연관분석 : 상관관계를 통한 분석 ( 커피 구매한는 사람이 탄산음료를 더 사먹는가?)

2. 분류분석 : 집단에 분류 (개인신용도 평가)

3. 유전자 알고리즘 : 생명의 진화를 모방해 최적의 해 찾기, 최적화에 대해 자연선택 및 돌연변이 적용 (응급실에서 응급처치 프로세스를 어떻게 배치하는 것이 가장 효율적인지?)

4. 기계학습 : 훈련데이터를 교육해 예측 --> 대규모 데이터 시 상당한 시간 소요

5. 회귀분석 : 독립변수 조작에 따른 종속변수 변화 확인

6. 감성분석 : 긍정, 부정, 평판 분석

7, 소셜네트워크 분석 : 고객들간의 관계 분석

 

위기요인

1. 사생활 침해 : 동의에서 책임으로 전환, 익명화 기술이 발전 중이지만 충분하지 않다.

2. 책임원칙 훼손 : 결과기반 책임원칙 (ex, 범죄예측 프로그램이 대표적인 책임원칙 훼손)

3. 데이터 오용 : 알고리즘 접근 허용 (알고리즈미스트 필요--> 오용에 따른 피해를 대변해주는 대변인)

 

빅데이터 활용에 필요한 기본 3요소

데이터, 기술, 인력

 

사물인터넷(IOT) L 인터넷을 기반으로 사물을 연결해 사람과 사물 상호소통~~

 

데이터사이언스 의미와 역활 (의다포총)

의 : 데이터로부터 의미 있는 정보추출

다 : 다양한 데이터 유형을 대상으로 함

포 : 포괄적 개념

총 : 총체적 접근법 사용

 

데이터 이언티스트 요구역량

소프트스킬 (협통전)

협력, 통찰, 설득력 있는 전달

하드스킬 (숙지)

숙련도, 지식

 

가드너가 데이터사이언티스트에게 필요하다고 하는 요소 (분데소비)

분석모델링, 데이터관리, 소프트스킬, 비즈니스 분석

 

인문학열풍 외부요소

1. 경제 산업의 논리가 생산에서 시장창조로 변화

2. 비즈니스의 중심이 생산에서 서비스로 변화

3. 단순세계화인 컨버젼스에서 복잡세계관인 디버전스로 변화

 

데이터의 크기

KB-MB-GB-TB-PB-EB-ZB-YB  (PEZY, 폐지)

반응형