자격증/ADsP

·자격증/ADsP
20240731 TIL1. 인과관계의 이해 종속변수-다른 변수의 영향을 받는 변수-어떤 실험이나 조사에서 변화의 결과로 나타나는 변수ex) 학업 성적을 예측하고자 할 종속변수 - 학업 성적독립변수 - 공부시간, 수면시간, 출석률 산점도 - 두 변수 간의 관계를 시각적으로 나타내는 그래픽 표현 방법 중 하나산점도에서 확인할 사항 (객관식 자주)두 변수 사이의 선형관계(직선관계)가 성립하는가?두 변수 사이의 함수관계(직선관계 또는 곡선관계)가 성립하는가?이상값이 존재하는가?몇 개의 집단으로 구분(층별) 되는가?2. t-검정-두 집단 간 평균의 차이가 유의미한지 검정하는 방법(=두 집단의 평균이 다른 것을 말할 수 있는가)t-value = 평균의 차이/평균의 불확실성** 평균 차가 클수록 t-value 커짐 ..
·자격증/ADsP
20240730 TIL확률변수- 어떤 확률 실험이나 상황에서 발생할 수 있는 각각의 결과를 수치적 값으로 표현하는 변수= 확률변수는 표본 공간에 있는 모든 원소들을 수치적 값(실수)으로 만드는 함수 확률분포- 확률변수가 특정 값들을 가질 확률을 나타내는 함수(=확률함수)= 확률이 만들어지는 확률 함수가 그리는 패턴 이산확률분포-각 분포의 종류와 특징 알기-값이 하나씩 떨어져 있는 것(확률질량함수) ▶ 베르누이 분포 - 확률 변수가 0 또는 1 두개의 결과만 갖는 분포▶ 이항분포 - n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포▶ 기하분포 - 성공확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 k번 실패할 확률(=첫 성공이 일어나기 위해 필요한 시행횟수)▶ 다항분포 - n번의 ..
·자격증/ADsP
1. 통계분석의 이해▶ 통계 개요 모집단 - 자료로부터 유용한 정보를 이끌어 낼 때 해당 정보에 대한 대상을 의미개념적으로 상정된 모집단통계 자료 획득 방법전수조사 - 대상 집단 모두를 조사하는 것으로 많은 비용과 시간 소요된다는 단점표본조사 - 모집단을 대표할 수 있는 표본을 추출하여 조사하는 것▶ 표본추출 방법더보기 단순 랜덤 추출법(simple random sampling)N개의 원소로 구성된 모집단에서 n개(n ≤ N)의 표본을 추출할 때 각 원소에 1,2,3...N까지의 번호 부여예시) 사다리 타기, 제비뽑기  계통 추출법(systematic sampling)모집단의 모든 원소들에게 1, 2, 3... N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K개(K = N/n)씩 n개의 구간으로 나..
·자격증/ADsP
20240702 ADsP 6일차 데이터 전 처리1. 데이터 마트데이터 마트란?데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스효율적인 데이터 마트 개발을 위해서는 R에서 제공하는 다양한 패키지 활용데이터 마트로 분리시 시간/공간적인 효율성을 기대할 수 있음데이터 전처리전처리에는 데이터를 정제하는 과정과 분석 변수를 처리하는 과정 포함데이터 정제 과정은 크게 결측값과 이상값을 처리하는 내용요약변수원래 데이터로부터 기본적인 통계 자료를 추출한 데이터 마트에서 가장 기본적인 변수많은 모델을 공통으로 사용될 수 있어 재활용성 높음파생변수특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미(목적)을 부여한 변수주관적일 수 있으므..
·자격증/ADsP
20240701 ADsP 4일차 : 분석 마스터플랜1. 마스터플랜 수립 개요마스터플랜 수립 프레임워크 개요우선순위를 정하는 일분석 과제의 적용 범위 및 방식 설정분석 과제의 우선순위와 적용 범위 및 방식을 종합적으로 고려하여 최종적으로 분석 구현의 로드맵 수립우선순위 고려요소>적용범위 / 방식 고려요소1. 전략적 중요도적용 우선순위 설정1. 업무 내재화 적용 수준Analytics 구현 로드맵 수립2. 비즈니스 성과/ROI2. 분석 데이터 적용 수준3. 실행 용이성3. 기술 적용 수준 빅데이터의 특징을 고려한 분석 ROI 요소4V3V1. 크기(Volume)데이터 규모 / 양>투자비용 요소(Investment)2. 다양성(Variety)데이터 종류 / 유형3. 속도(Velocity)데이터 생성속도 / 처리속..
·자격증/ADsP
20240701 ADsP 3일 차 : 데이터 분석 기획1. 데이터 분석기획 분석 기획 정의:분석 기획은 실제 분석을 수행하기 전에 과제의 정의와 결과 도출을 관리하는 사전 계획 작목표 달성에 필요한 데이터와 방법을 계획하는 중요한 사전 작업분석 기획 특징:데이터 사이언티스트의 요구 역량: 수학/통계학적 지식, 데이터 및 프로그래밍 기술, 비즈니스 이해와 전문성 분석 대상과 방법에 따른 4가지 분석 주제:최적화 : 문제와 방법이 명확할 때솔루션 : 문제는 명확하지만 방법을 모를 때발견 : 문제와 방법 모두 모를 때통찰력 : 문제는 모르는 데 방법을 알 때목표 시점별 분석 기획:과제 중심 접근 : 빠른 문제 해결 필요시장기 마스터플랜 : 지속적인 분석 내재화 필요시 당면한 분석 주제의 해결(과제 단위)지속적..
·자격증/ADsP
20240630 ADsP 2일차 : 데이터의 가치와 미래1. 빅데이터 정의가트너그룹의 더그래니의 정의(3V)-데이터의 양(Volume) -데이터 유형과 소스 측면의 다양성(Variety) -데이터수집과 처리 측면에서 속도(Velocity) 빅데이터의 새로운 특징(4V)3V의 추가로 Value(가치) or veracity(정확성)를 포함해 4V로 설명하기도 함여기에 Visualization(시각화), variability(가변성) 등을 추가하는 견해도 있음 빅데이터 출현 배경 출현배경내용산업계고객 데이터 축적-양질 전환 법칙으로 설명 가능-양적인 변화가 축적되면 질적인 변화도 이루어짐학계거대 데이터 활용 과학 확산-필요한 기술 아키텍처 및 통계 도구들이 지속적으로 발전기술발전관련 기술의 발달-저장 기술의 ..
·자격증/ADsP
20240630 ADsP 1일차 : 데이터와 정보 1. ADsP 개요1. 데이터 이해 2. 데이터분석기획 3.데이터 분석 ADsP : 데이터 이해를 바탕으로 데이터 분석 기획, 데이터 분석 능력을 갖추고 있는지 평가,실기 없이 필기만 객관식 50문항 시간은 90분 2. 데이터의 이해데이터(Data)=정보(Information)저장이나 처리에 효율적인 형태로 변환된 정보 1 Byte == 8 Bit1 Kilo == 1000 Byte1 Mega == 1000 Kilo1 Giga == 1000 Mega1 Tera == 1000 Giga1 Peta == 1000 Tera1 Exa  == 1000 Peta1 Zeta == 1000 Exa1 Yota == 1000 Zeta>>무한하게 증가하는 데이터를 잘 저장하고 ..
임빵빵
'자격증/ADsP' 카테고리의 글 목록