본문 바로가기

Data Analysis

(22)
데이터 개요 본 문서는「2026 이기적 빅데이터분석기사 필기 기본서」를 바탕으로 데이터의 개론을 다룬다.이 글은 데이터의 정의와 속성, 수집 과정을 다룬 후, 데이터가 정보와 지식으로 전환되어 가치가 창출되는 과정을 순차적으로 살펴본다. 01 데이터의 정의 "데이터(data)"는 1646년 영국 문헌에 처음 등장한 용어로, 라틴어 datum에서 유래하며 "주어진 것"을 의미한다.1940년대 이전까지 데이터는 관념적·추상적 개념으로 인식되었으나,이후 자연과학과 사회과학의 발달과 함께 기술적·사실적 개념으로 변화하였다. 데이터는 다음 두 가지 관점에서 이해할 수 있다. 1 | 추론과 추정의 근거가 사실 2 | 현실 세계에서 관찰·측정을 통해 수집한 사실 데이터의 특징은 다음 네 가지로 요약할 수 있다. ..
제 8장 - 오즈비 Reporting Date: October. 5, 2024 오즈비와 연구 설계에 대해 다루고자 한다.목차01 오즈비02 코호트 연구03 사례 대조 연구 01 오즈비Odds Ratio, OR앞서 다룬 카이제곱 검정과 로그 우도비 검정은 범주형 변수 간의 통계적 유의성을 판단하는 데 초점을 두었다.본 장에서는 그 관계의 크기(효과 크기) 를 수치화하는 지표인 오즈비(OR) 를 다룬다. 두 집단 간 사건 발생 가능성의 상대적 비교를 제공하며, 특히 2×2 분할표 분석과 로지스틱 회귀분석에서 널리 사용된다. 위험비(Risk Ratio)와 유사하지만, 사건이 발생할 확률 대비 발생하지 않을 확률(odds)의 비율을 사용한다. 1 . 정의 및 기본 공식두 집단(노출 vs 비노출)에 대해 사건(또는 성공)의 발..
제 8장 - 카이제곱 통계 Reporting Date: October. 5, 2024질적변수의 분석에 널리 이용되는 다항분포, 카이제곱검정을 소개하고교차표에 대한 기초적인 분석에 대해 다루고자 한다.목차01 데이터의 분류02 카이제곱 분포03 카이제곱 적합도 검정04 교차분석 01 데이터의 분류 1 . 양적 데이터Quantitative Data관찰 대상의 속성을 수치로 측정할 수 있는 데이터로, 덧셈과 뺄셈 등의 산술 연산이 가능하다.척도의 성격에 따라 구간 척도와 비율 척도로 구분된다.① 구간 척도 (Interval Scale)값들 간의 간격이 일정하다는 특성을 지니며, 절대적 영점이 존재하지 않는다.따라서 0은 속성의 부재(absence)를 의미하지 않으며, 덧셈과 뺄셈은 가능하지만 곱셈이나 나눗셈을 통한 비율 비교는 ..
아나콘다 옵션 선택 방법 Anaconda 설치 중에 나오는 옵션들에 대해 각각 어떤 것을 선택하는 것이 좋은지 설명하고자 한다. 1. Create shortcuts (supported packages only)→ 체크하는 것이 좋습니다.바탕화면이나 시작 메뉴에 Anaconda Navigator, Anaconda Prompt 같은 유용한 바로가기를 만들어줍니다. 2. Add Anaconda3 to my PATH environment variable**→ 체크하지 않는 것이 권장됩니다 (기본 설정 그대로 두세요).이 항목은 체크하지 않는 게 안전합니다.PATH에 추가하면 다른 Python 설치와 충돌할 수 있어, VSCode, PyCharm 등이 이상하게 동작할 가능성이 있습니다.대신 시작 메뉴에 추가된 Anaconda Prompt..
3장 네이버 블로그 크롤링 Reporting Date: March. 18, 2025동적 크롤링을 위한 준비 및 네이버 블로그 크롤링 실습에 대해 다루고자 한다.목차01 자바 설치 방법02 Selenium을 사용한 동적 크롤링03 네이버 블로그 크롤링 01 자바 설치 방법 1 . 파이썬과 자바의 관계일반적으로 파이썬은 자바 없이 독립적으로 실행할 수 있다.하지만, 특정 라이브러리(예: JPype, PySpark, Jython 등)는 자바(Java)를 필요로 한다.따라서 사용하려는 기능이 자바 기반이라면, 먼저 자바가 설치되어 있어야 한다. 2 . 자바 설치 여부 확인Anaconda 프롬프트 실행한 다음 명령어 입력 후 실행.# 자바가 설치되어 있다면 버전 정보가 출력됨.# "java is not recognized..."..
2장 네이버 뉴스 기사 제목 크롤링 Reporting Date: March. 11, 2025웹 크롤링 개념 및 정적 크롤링 실습에 대해 다루고자 한다.목차01 데이터 종류02 크롤링03 라이브러리04 정적 크롤링05 데이터 전처리06 워드 클라우드 01 데이터 종류 1 . 정형 데이터(Structured Data)일정한 형식을 갖춘 데이터로, 데이터베이스의 테이블처럼 행과 열로 정리된다.예: 엑셀, SQL 데이터베이스, 고객 정보(이름, 나이, 주소 등).룰세팅(Rule Setting) 데이터를 저장할 때 고정된 형식(테이블, 행/열 구조, 스키마 등)을 미리 정의하는 것. 2 . 비정형 데이터(Unstructured Data)형식이 일정하지 않아 체계적으로 저장하기 어려운 데이터.예: 텍스트(SNS 게시글, 이메일), 이미지,..
제 7 장 - 상관분석 Reporting Date: Septemger. 28, 2024두 연속형 변수들 간의 연관성을 측정하는 데 사용되는 상관계수에 대해 다루고자 한다.(4장 두 변수 자료의 요약과 이어지는 내용이다.)목차두 변수의 공분산 구하는 과정 1. 피어슨의 적률상관계수 2. 스피어만의 순위상관계수⌎사례: 소득과 지출 사이에는 상관관계가 있는가?3. 편상관계수⌎사례: 기능과 디자인에 대한 만족도 간에 상관관계가 있는가?4. 신뢰도 분석 5. 크론바흐의 알파⌎ 사례: 기업 구성원의 의식을 알아보기 두 변수의 공분산 구하는 과정 1. 각 데이터에서 평균을 빼서, 두 변수의 편차를 각각 구한다. 2. 두 변수 각각의 편차를 곱한 후 합산하는 방식이다. 더한 값에서 데이터 개수 n – 1 로 나눈 값이 표준 공분산이..
제 6 장 - 두 모집단에 대한 비교 Reporting Date: Setember. 18, 2024두 모집단의 모평균, 모비율, 모분산의 차이에 대한 가설검증 문제를 다루고자 한다.(12장: 두 모집단의 비교와 이어지는 내용이다.)목차[1] 모분산이 알려진 경우[2] 표본의 크기가 큰 경우[3] 모분산이 같다고 가정할 경우[4] 모분산이 다르다고 가정할 경우 1. 독립표본에 의한 두 모평균의 비교: 독립표본 t – 검정 ⌎ 사례: 새로운 강의방식이 초등학생 독해력 향상에 도움이 되는가?2. 대응표본에 의한 두 모평균의 비교: 대응표본 t – 검정⌎ 사례: 컴퓨터 교육을 실시하기 전과 후의 성적에 차이가 있는가?3. 독립표본에 의한 두 모비율의 비교: 피셔의 정확검정⌎ 사례: 현 정부에 대한 지지율이 성인 남녀별로 차이가 있는가?4..