Python의 pandas 라이브러리를 사용하여 데이터 셋을 확인할 수 있다. 그 과정을 서술해보고자 한다.

데이터 셋 확인법
1. 데이터프레임의 상위 몇 개 행 보기
print(merged_data.head()) # 기본적으로 상위 5개 행을 출력
student_id name grade
0 1 Alice A
1 2 Bob B
2 3 Charlie A
3 4 David C
4 5 Patrick A
2. 데이터프레임의 기본 정보 확인
print(merged_data.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 student_id 5 non-null int64
1 name 5 non-null object
2 grade 5 non-null object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes
None
- merged_data는 pandas.core.frame.DataFrame 클래스의 인스턴스이다.
- 인덱스는 0부터 4까지 총 5개의 항목을 가지고 있습니다. 이는 데이터프레임에 5개의 행이 있다는 것을 의미한다.
- 데이터프레임은 총 3개의 열을 가지고 있으며, 각 열의 이름과 데이터 유형이 표시하고 student_id 열은 정수형(int64), name과 grade 열은 문자열 객체(object)이다.
- 각 열에는 5개의 'non-null' 값이 있습니다. 이는 데이터프레임에 결측치가 없음을 의미한다.
- 메모리 사용량은 대략 224.0+ 바이트이다.
info() 함수는 데이터프레임의 구조와 열의 데이터 형식, 메모리 사용량 등 유용한 정보를 제공하여 데이터셋의 개요를 이해하는 데 도움을 준다.
3. 데이터프레임의 통계 요약 확인
print(merged_data.describe())
- count: 열의 개수
- mean: 평균값
- std: 표준편차, 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타냄
- min: 최소값.
- max: 최대값
- 25%(1사분위수): 하위 25%
- 50%(중앙값): 중앙값
- 75%(3사분위수): 상위 25%
- 100%(최대값): 이 값은 max와 동일
4. 특정 열의 고유 값 확인
print(merged_data['grade'].unique())
['A', 'B', 'C']
기본적으로 확인하는 방법들로 통해 병합된 데이터프레임의 구조와 내용을 쉽게 파악할 수 있다.
'IT > 데이터분석 도전하기' 카테고리의 다른 글
| [크롤링] 메타코드M 웹 크롤링 기초 강의_크롤링 입문, 뉴스 크롤링 (0) | 2024.05.05 |
|---|---|
| [파이널 팀 프로젝트] 로고 제작 (0) | 2024.04.02 |
| [프로젝트] 대규모 파일 병합하기 feat.프로젝트 (0) | 2024.03.28 |
| [데이터 분석가] 데이터 분석가가 되고 싶다면? 이런 유형에게 딱! (0) | 2024.03.20 |
| cifar10 데이터 load 오류 해결하는 법 (0) | 2024.02.26 |