본문 바로가기

대딩/DS4

MinMax scaling, Standard scaling 하는 법(with iris data) Scaling 데이터 셋에 키와 몸무게 Feature가 있다고 가정해보자. 키와 몸무게의 평균적인 값들과 단위는 다르기에, 이를 정제 없이 훈련시킨다면 모델의 정확성이 떨어진다. 따라서 데이터 Feature 들의 크기 규모를 동일하게 하는 작업이 필요한데, 이를 Scaling 이라 한다. - Tip💡 이 글에서는 iris 데이터를 이용하여 실습을 진행하고 있다. iris 데이터는 붗꽃 데이터로, 해당 데이터에는 꽃받침의 길이, 꽃받침의 너비, 꽃잎의 길이, 꽃잎의 너비와 꽃의 종류가 기술되어있다. 다운 받고 싶은 분이 계시다면 Kaggle 참조 Iris Species Classify iris plants into three species in this classic dataset www.kaggle.co.. 2021. 11. 1.
Numpy Indexing, Boolean Indexing, Fancy Indexing Numpy Indexing View(reference) 혹은 Copy를 리턴하는 Indexing 방법들에 대해 알아보자. Numpy Indexing Tutorials Indexing & Slicing : view 리턴 리스트의 인덱싱, 슬라이싱과 동일하게 [](bracket) 을 사용하여 부분 배열을 추출한다. - 1차원 배열의 indexing & slicing import numpy as np arr = np.array([1, 2, 3, 4, 5]) print(arr[0]) print(arr[-1]) print(arr[-2]) output: 1 5 4 왼쪽의 인덱스는 0 부터 시작한다. 배열의 맨 뒷부분 부터 접근하기 위해서는 -1 부터 시작하는 음수의 인덱스를 사용하면 된다. Python 리스트에서와.. 2021. 10. 31.
Numpy 배열 생성하기와 형태 변형하기 Numpy numerical python, 행렬과 관련된 연산에 사용하는 python 라이브러리. python 리스트를 이용한 연산보다 빠르며, 메모리를 적게 차지한다. Numpy Tutorials Tip 💡 Numpy 실습은 jupyternotebook에서 하는 것이 가장 편리하다. 아직 jupyter를 설치하지 않은 분이 계시다면 jupyternotebook 배열 생성하기 np.array() 리스트 데이터를 활용하여 array를 생성할 수 있다. import numpy as np ary = np.array([[1, 2, 3], [4, 5, 6]]) ary output: array([[1, 2, 3], [4, 5, 6]]) np.asarray() np.array() 와 동일하게 array를 생성할 수 .. 2021. 10. 30.
[Matplotlb:3.4.3] Matplotlib와 Python으로 시각화 하는법 Matplotlib 파이썬 언어를 이용하여 데이터를 시각화 할 수 있는 대표 라이브러리 데이터 시각화 라이브러리는 matplotlib 이외에도 seaborn, plotly 등 다양하지만, 대부분 matplotlib를 기반으로 개발됨 matplotlib Tutorials Installation - pip command 를 이용한 설치 (기본) python -m pip install -U pip python -m pip install -U matplotlib - Anaconda 사용자 설치 conda install matplotlib - Tip 💡 matplotlib는 jupyternotebook에서 python 언어로 데이터를 시각화할 때 주로 사용된다. 따라서 jupyternotebook을 아직 셋팅 하.. 2021. 10. 30.