모든 자료 출처 : 스파르타코딩클럽
Pandas는 데이터분석의 이 부분에서 사용!
- 문제 정의 및 가설 설정하기
- 데이터 분석 기본 세팅 하기
- 데이터 분석하기
- 분석 결과 시각화 하기
- 최종 결론 내리기
상관관계 분석을 위한 pandas 이렇게 진행!
- Pandas 사용 선언 하기
- 데이터 가져오기
- 데이터 확인 및 표 읽기
- 공백란 제거하기
------------------------------------------------
1. Pandas 라이브러리 사용 선언하기
import pandas as pd
2. 데이터를 Colab 으로 가져오기
(1) csv 파일 Colab에 업데이트 하기 ⇒ 파일 폴더 아이콘을 클릭
(2) 아이콘 클릭 폴더를 colab에 업로드 하기
(3) 데이터 가져오기
titanic = pd.read_table('파일경로',sep=',')
(참고) pandas에서 엑셀 파일 열기
titanic = pd.read_excel('파일이름.xlsx',engine='openpyxl')
(4) 표 읽기 및 데이터 확인
#데이터의 처음 n줄의 데이터를 출력
#아무 입력이 없을 경우 5줄을 기본으로 출력
titanic.head(n)
(5) 공백란 제거하기
# 1.Null(공백) 데이터 파악하기
print(titanic.isnull().sum())
# 2. 공백 데이터 제거하기
titanic = titanic.dropna()
3. 데이터 분석하기
(1) 상관계수 구하기
corr=titanic.corr(method='pearson')
상관계수 : 상관관계 분석했을 때 나오는 -1~1 사이의 숫자!
양, 음수와 상관 없이 숫자가 크면 강한 상관관계!
(2) 결과 확인하기
corr
(3) 상관계수 Survived 요소가 1(최대)이 아닌 수만 불러오기
생존률과 생존률의 상관관계를 굳이 확인할 필요는 없음!
상관계수가 1인 요소를 빼고 데이터를 불러옴
corr = corr[corr.Survived !=1]
'데이터 공부' 카테고리의 다른 글
파이썬, 리스트와 딕셔너리 개념 이해하기 (0) | 2023.05.01 |
---|---|
데이터 분석 기초 (0) | 2023.04.16 |
댓글