본문 바로가기

ML,DL10

[머신러닝/딥러닝] 데이터 인코딩(레이블, 원-핫) 데이터 인코딩에 대해 정리한 내용이다. 데이터 인코딩 머신러닝 모델은 문자 데이터를 인식하지 못하기 때문에 문자로 구성된 범주형 데이터는 숫자로 바꿔야 한다. 이미 숫자로 구성된 범주형 데이터도 모델 성능 향상을 위해 다른 숫자 데이터로 바꾸기도 한다. 1. 레이블 인코딩 (label encoding) 레이블 인코딩은 범주형 데이터를 숫자로 일대일 매핑해주는 인코딩 방식 범주형 데이터를 숫자로 치환 사이킷런의 LabelEncoder로 구현 다음은 사이킷런의 LabelEncoder로 레이블 인코딩을 적용해 과일 문자열 데이터를 숫자형으로 변환하는 코드다. from sklearn.preprocessing import LabelEncoder # 레이블 인코더 fruits = ['사과', '블루베리', '바나나.. 2022. 9. 19.
[머신러닝/딥러닝] 분류와 회귀, 평가지표 머신러닝의 지도학습은 크게 분류와 회귀로 나뉜다. 간단하게 정리하면 예측하려는 타깃값이 범주형 데이터라면 '분류'문제, 수치형 데이터면 '회귀'문제다. 분류(Classification) : 어떤 대상을 범주에 구분해 넣는 작업 머신러닝에서 분류는 피처에 따라 어떤 대상을 유한한 범주(타깃값)으로 구분하는 방법이다. 여기서 중요한 점은 타깃값, 즉 예측하려는 값이 범주형 데이터라는 것이다. 분류 문제는 크게 이진분류와 다중분류로 나뉜다. 이진분류: 타깃값이 두 개 다중분류: 타깃값이 세 개 이상 범주형 데이터 범주형 데이터는 객관식 문제와 같이 선택지가 있는 값이다. 개와 고양이를 구분하는 문제, 스팸 메일과 일반 메일을 구분하는 문제, 검사 결과가 양성인지 음성인지 구분하는 문제 등 유한한 선택지 중 하.. 2022. 9. 18.