[데이터분석] 구성한 데이터 셋을 확인해보자

Python의 pandas 라이브러리를 사용하여 데이터 셋을 확인할 수 있다. 그 과정을 서술해보고자 한다.

데이터 셋 확인법

1. 데이터프레임의 상위 몇 개 행 보기

print(merged_data.head())  # 기본적으로 상위 5개 행을 출력

   student_id     name  grade
0           1    Alice      A
1           2      Bob      B
2           3  Charlie      A
3           4    David      C
4           5  Patrick      A

2. 데이터프레임의 기본 정보 확인

print(merged_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   student_id  5 non-null      int64 
 1   name        5 non-null      object
 2   grade       5 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes
None

merged_data는 pandas.core.frame.DataFrame 클래스의 인스턴스이다.
인덱스는 0부터 4까지 총 5개의 항목을 가지고 있습니다. 이는 데이터프레임에 5개의 행이 있다는 것을 의미한다.
데이터프레임은 총 3개의 열을 가지고 있으며, 각 열의 이름과 데이터 유형이 표시하고 student_id 열은 정수형(int64), name과 grade 열은 문자열 객체(object)이다.
각 열에는 5개의 'non-null' 값이 있습니다. 이는 데이터프레임에 결측치가 없음을 의미한다.
메모리 사용량은 대략 224.0+ 바이트이다.

info() 함수는 데이터프레임의 구조와 열의 데이터 형식, 메모리 사용량 등 유용한 정보를 제공하여 데이터셋의 개요를 이해하는 데 도움을 준다.

3. 데이터프레임의 통계 요약 확인

print(merged_data.describe())

count: 열의 개수
mean: 평균값
std: 표준편차, 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타냄
min: 최소값.
max: 최대값
25%(1사분위수): 하위 25%
50%(중앙값): 중앙값
75%(3사분위수): 상위 25%
100%(최대값): 이 값은 max와 동일

4. 특정 열의 고유 값 확인

print(merged_data['grade'].unique())

['A', 'B', 'C']

기본적으로 확인하는 방법들로 통해 병합된 데이터프레임의 구조와 내용을 쉽게 파악할 수 있다.

'IT > 데이터분석 도전하기' 카테고리의 다른 글

[크롤링] 메타코드M 웹 크롤링 기초 강의_크롤링 입문, 뉴스 크롤링 (0)	2024.05.05
[파이널 팀 프로젝트] 로고 제작 (0)	2024.04.02
[프로젝트] 대규모 파일 병합하기 feat.프로젝트 (0)	2024.03.28
[데이터 분석가] 데이터 분석가가 되고 싶다면? 이런 유형에게 딱! (0)	2024.03.20
cifar10 데이터 load 오류 해결하는 법 (0)	2024.02.26

데이터 셋 확인법

'IT > 데이터분석 도전하기' 카테고리의 다른 글

티스토리툴바