[데이터분석] 구성한 데이터 셋을 확인해보자

Python의 pandas 라이브러리를 사용하여 데이터 셋을 확인할 수 있다. 그 과정을 서술해보고자 한다.



데이터 셋 확인법

 

1. 데이터프레임의 상위 몇 개 행 보기

print(merged_data.head())  # 기본적으로 상위 5개 행을 출력
   student_id     name  grade
0           1    Alice      A
1           2      Bob      B
2           3  Charlie      A
3           4    David      C
4           5  Patrick      A



2. 데이터프레임의 기본 정보 확인

print(merged_data.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   student_id  5 non-null      int64 
 1   name        5 non-null      object
 2   grade       5 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes
None
  • merged_data는 pandas.core.frame.DataFrame 클래스의 인스턴스이다.
  • 인덱스는 0부터 4까지 총 5개의 항목을 가지고 있습니다. 이는 데이터프레임에 5개의 행이 있다는 것을 의미한다.
  • 데이터프레임은 총 3개의 열을 가지고 있으며, 각 열의 이름과 데이터 유형이 표시하고 student_id 열은 정수형(int64), name과 grade 열은 문자열 객체(object)이다.
  • 각 열에는 5개의 'non-null' 값이 있습니다. 이는 데이터프레임에 결측치가 없음을 의미한다.
  • 메모리 사용량은 대략 224.0+ 바이트이다.

info() 함수는 데이터프레임의 구조와 열의 데이터 형식, 메모리 사용량 등 유용한 정보를 제공하여 데이터셋의 개요를 이해하는 데 도움을 준다.



3. 데이터프레임의 통계 요약 확인

print(merged_data.describe())

 

  • count: 열의 개수
  • mean: 평균값
  • std: 표준편차, 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타냄
  • min: 최소값.
  • max: 최대값
  • 25%(1사분위수): 하위 25%
  • 50%(중앙값): 중앙값
  • 75%(3사분위수): 상위 25%
  • 100%(최대값): 이 값은 max와 동일



4. 특정 열의 고유 값 확인

print(merged_data['grade'].unique())
['A', 'B', 'C']

 



기본적으로 확인하는 방법들로 통해 병합된 데이터프레임의 구조와 내용을 쉽게 파악할 수 있다.