devskim blog
Search
🏀

One Hot Encoding

Tags
Python
Created
Jan 6, 2023 12:41 AM
Last Updated
Jul 30, 2023 09:49 AM
 
 

개념

  • 범주형 변수를 변환할때 사용하는 인코딩 방법으로, 0 또는 1의 값을 가진 하나 이상의 새로운 특성으로 변환한다.
    • 혈액형에 따른 분류할 때, 0~3이 아니라 (1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1)의 형태로 나누는 것을 의미한다.
  • 숫자의 크고 작음에 따른 중요도를 없애기 위하여 사용된다.
  • 다중공선성 문제가 있어서, n개의 변수보다는 n-1개의 변수를 만드는 것이 좋다.
    • 혈액형의 변수를 4개가 아니라 3개로 처리하여, (1, 0, 0), (0, 1, 0), (0, 0, 1), (0, 0, 0)의 형태로 나타내는 것이다.
 

코드

  • 라이브러리 불러오기
    • 코드를 불러오는 중 입니다 ...
  • 데이터 불러오기
    • 코드를 불러오는 중 입니다 ...
      notion image
  • 범주형으로 추정되는 데이터 분포 확인
    • 코드를 불러오는 중 입니다 ...
      notion image
  • OneHotEncoder 적용해보기
    • 코드를 불러오는 중 입니다 ...
      notion image
  • OneHotEncoder 적용 후 데이터 프레임에 합쳐보기
    • 코드를 불러오는 중 입니다 ...
  • OneHotEncoder 컬럼 분포 확인 함수
    • 코드를 불러오는 중 입니다 ...
  • origin에 함수 적용해보기
    • 코드를 불러오는 중 입니다 ...
      notion image
  • OneHotEncoder 적용된 컬럼의 분포 확인
    • 코드를 불러오는 중 입니다 ...
      notion image
 
PREV머신러닝 개념 정리
NEXTnumpy, pandas 코드 정리