부스트코스 코칭스터디 2주차 정리 (2022/11/13)

2023. 3. 20. 14:24

1. 서울 종합병원 분포 확인하기

- df.head() : 앞 부분 확인

- df.tail() : 뒷 부분 확인

- df.sample() : 랜덤 확인 (항상 출력이 일정하지 않음)

- df.info() : 데이터프레임의 컬럼들의 정보를 확인할 수 있음

- df.columns() : 컬럼명 확인

- df.dtypes() : 컬럼별 데이터 유형 확인

- df.isnull() : null값이면 True 반환

- df.isnull().sum() : null값은 True이고 1로 반환되므로, 컬럼에 얼마나 null값이 있는지 확인 가능

- 컬럼명.plot.barh(figsize = (5, 7)) : 컬럼의 막대그래프를 옆으로 시각화

- df.sort_values(by = '컬럼명', ascending = False) : 컬럼명에 의해 내림차순 정렬

- NaN == Not a Number : 결측치를 의미

- df['컬럼명'].mean() : 평균

- df['컬럼명'].median() : 중간값

- df['컬럼명'].max() : 최댓값

- df['컬럼명'].min() : 최솟값

- df['컬럼명'].count() : 개수

- df['컬럼명'].describe() : 사분위수

- df.describe(include = 'number') : 숫자 정보만

- df.describe(include = 'object') : top은 가장 많이 등장한 것

- df['컬럼명'].nunique() : 갯수

- df['컬럼명'].unique() : 컬럼명에 속한 데이터

- df['컬럼명'].value_counts() : 컬럼명에 따른 갯수

- df['컬럼명'].value_counts(normalize = True) : 컬럼명에 따른 갯수 비율

- df['컬럼명'].str.contains('특정문자') : 컬럼명 데이터에 특정 문자가 속해 있는지 확인

Casa young