반응형

python 의 대표적 시각화 모듈인 matplotlib 모듈을 활용한 다양한 시각화 기법

 

  1. matplotlib 모듈 기초 문법
    • 2차원 그래프 주로 그리는 패키지
    • 동작하는 OS 제한 없음
    • MATLAB과 유사한 인터페이스
    • 그림 요소 상세한 서식 지정 
    • 다양한 출력 양식으로 저장 가능 


 


 











 

이 외에도 다양한 차트 작성 가능  / 다른 차트 종류는 www.matplotlib.org 에 !

반응형
반응형

1. Numpy 모듈 활용한 데이터 관리

  • C언어로 구현된 파이썬 라이브러리
  • 고성능 수치 계산 위해 제작
  •  벡터, 행렬 연산에 있어 편리한 기능
  • 데이터분석 라이브러리인 pandas와 matplotlib 의 기반으로 사용
cmd>> pip install numpy
#소스 코드에 import
import numpy as np #as np는 별명

2. Numpy 모듈 사용하기

1) Array 생성, 조회

arr = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr

>>>arr([[1,2,3],
	[4,5,6],
        [7,8,9])
#array의 형태(크기)를 확인할 수 있다
arr.shape
>>>(3, 3)

#array의 자료형을 확인할 수 있다.
arr.dtype
>>>dtype('int64')

2) Array 연산 가능 

arr1 + arr2
arr1 / arr2
arr1 * arr2
arr1 - arr2

 

3) Array 생성, 조회

arr1 = np.arrange(10)
arr1 
>>>array([0,1,2,3,4,5,6,7,8,9])


arr1[0]
>>>0

arr1[3:9]
#3번째 요소부터 8번째 요소
>>>arr1([3,4,5,6,7,8])

arr1[:]
>>>>>>array([0,1,2,3,4,5,6,7,8,9])

 

4)numpy 모듈의 주요 함수

- 난수 발생 함수 : np.random.rand(5,3)

 

- 각 성분 절대갑 계산 : np.abs(arr1)

 

- 각 성분 제곱 계산 : np.square(arr1)

 

- 각 성분의 소수 첫 번째 자리에서 올림한 값 계산 : np.ceil(arr1)

 

- 각 성분의 소수 첫 번째 자리에서 내림한 값 계산 : np.floor(arr1)

 

- 각 성분이 NaN인 경우 True를, 아닌 경우 False를 반환하기 : np.isnan(arr1)

 

- 각 성분이 무한대인 경우 True를, 아닌 경우 False를 반환하기 : np.isinf(arr1)

 

- 각 성분에 대해 삼각함수 값 계산(cos / cosh / sin / sinh/ tan / tanh) : np.cos(arr1)

 

- 전체 성분에 대해 오름차순 정렬 : np.sort(arr1)

 

- 전체 성분에 대해 내림차순 정렬 : np.sort(arr1)[::-1]

 

- 행 방향으로 오름차순으로 정렬 : np.sort(arr1, axis = 0)

 

 

5)Numpy 모듈 주요 통계 함수 

- 전체 성분 합 계산 : np.sum(arr1)

 

- 열 간의 합을 계산 : np.sum(arr1, axis  = 1)

 

- 행 간의 합을 계산 : np.sum(arr1, axis = 0)

 

- 전체 성분의 평균 계산 : np.mean(arr1)

 

- 행 간 평균 계산 : np.mean(arr1, axis = 0)

 

- 전체 성분의 표준 편차, 분산, 최소값, 최대값 계산(std, var, min, max) : np.std(arr1)

 

- 전체 성분의 최소값, 최대값이 위치한 인덱스를 반환 (argmin, argmax) : np.argmin(arr1)

 

- 맨 처음 성분 부터 각 성분까지의 누적합 / 누적곱 계산(cumsum , cumprod) : np.cumsum(arr1)

 

3. Pandas 모듈 활용한 데이터 관리

- 정형 데이터 관리 시 사용

 

cmd>> pip install pandas

 

 

1) 주요 데이터 유형

 

2) Series 유형 : 생성하기

인덱스도 바꿀 수 있음
딕셔너리 형태로 생성

 

3) Series 유형 : 조회하기 

 

4) Series 유형 : 데이터 연산

 

5) Dataframe 유형 : 생성

6) Dataframe 유형 : 정렬

7) Dataframe 유형 : pandas에서 xls형식과 csv 형식 불러오기 (pip install xlrd 작업 후 )

 

8) DataFrame 유형 : 특정 컬럼 조회

 

9) DataFrame 유형 : 원하는 조건으로 조회 

 

10) Dafa Frame 유형 : 새로운 행과 열 추가하기

 

 

11) Data Frame 유형 : 행과 열 삭제하기

반응형

'Language Study > R' 카테고리의 다른 글

matplotlib 모듈을 활용한 시각화  (0) 2020.03.23
Pandas - 행단위 데이터 읽기 (loc, iloc)  (0) 2020.02.16
반응형

데이터를 행 단위로 가져오려면 판다스에서 제공하는 함수 사용

  • loc : 인덱스 기준으로 행 데이터 읽기
  • iloc : 행 번호를 기준으로 행 데이터 읽기

현재는 데이터가 숫자 형식으로 정렬되어 있어 행 번호 처럼 보이지만,

인덱스는 문자열로 지정할 수 있고, 숫자도 다르게 지정할 수 있습니다. 

인덱스 2를 삭제하면 행번호는 0번부터 시작해서 순서대로 이어지지만

인덱스는 그렇지 않다

 

loc 로 행 추출하기

-0번 인덱스 데이터 가져오기

import pandas as pd
comment1 = pd.read_excel('C:/Users/USER/Desktop/연습문제/댓글내용.xlsx')

print(comment1.loc[0])

 

번호 1
댓글내용 첫번째 댓글입니다
Name: 0, dtype: object

여러 개의 인덱스에 해당하는 행 데이터 추출

-만약,  1 , 2 인덱스의 데이터를 한꺼번에 가져오고 싶으면

리스트에 원하는 인덱스를 담아 loc 속성에 전달

import pandas as pd
comment1 = pd.read_excel('C:/Users/USER/Desktop/연습문제/댓글내용.xlsx')

print(comment1.loc[[0,1]])
 번호   댓글내용
0  1    첫번째 댓글입니다
1  2    두번째 댓글입니다

 

iloc 속성으로 행 데이터 읽어오기

행 번호를 통해 행 데이터를 가져온다

데이터프레임명.iloc[행번호]

print(comment1.iloc[0])

 

음수를 사용해서 데이터를 추출할 수도 있다

print(comment1.iloc[-1])

 

iloc를 통해 여러개의 행 데이터 가져오기

원하는 행 번호를 리스트에 담아 전달

iloc같은 경우는 행과 열 인덱스에 정수리스트를 전달해야 한다

print(comment1.iloc[[0,-1]])

 

loc, iloc를 통해 행과 열 데이터 가져오기

모든 행(:) 에 대해 'year' 과 'continent' 열 데이터만 가져와라

( : ) 모든 데이터를 가져와라 

print(df.loc[:,['year', 'continent']])

 

 

모든 행에 대하여 3번열 데이터 전까지 country(0), continent(1), year(2)의 열데이터만 출력

print(df.iloc[:,:3])

반응형

+ Recent posts