머신러닝8 [머신러닝/딥러닝] 범주형 데이터 이진분류 경진대회: 분석정리 및 시각화 범주형 데이터를 활용해 이진부류를 하는 경진대회 문제를 풀어보았다. 다양한 범주형 데이터를 활용해 타깃값 1에 속할 확률을 예측하는 것이 목표이다. Categorical Feature Encoding Challenge https://www.kaggle.com/competitions/cat-in-the-dat/overview Categorical Feature Encoding Challenge | Kaggle www.kaggle.com https://www.kaggle.com/code/kabure/eda-feat-engineering-encode-conquer/notebook EDA & Feat Engineering - Encode & Conquer Explore and run machine learnin.. 2022. 10. 4. [머신러닝/딥러닝] 피처 스케일링: min-max 정규화, 표준화 이번에는 피처스케일링과 그 방법 중 가장 많이 쓰이는 min-max 정규화와 표준화에 대해 정리해보았습니다. 피처 스케일링서로 다른 피처 값의 범위(최댓값 - 최솟값)가 일치하도록 조정하는 작업값의 범위가 데이터마다 다르면 모델 훈련이 제대로 안 될수도 있다 서로 다른 피처값의 범위란 어떤 의미인지 키(m)와 몸무게(kg)로 예를 들 수 있다. 이름키(m)몸무게(kg)옷 사이즈광일1.775L혜성1,555S덕수1.860? 이 데이터에서 덕수의 옷 사이즈를 예측한다고 하자.키와 몸무게를 더하는 방법을 사용할 수 있다. 광일: 1.7 + 75 = 76.7혜성: 1.5 + 55 = 56.5덕수: 1.8 + 60 = 61.8 덕수의 키와 몸무게 합은 혜성에 더 가깝기 때문에 머신러닝 모델은 덕수의 옷 사이.. 2022. 9. 19. [머신러닝/딥러닝] 데이터 인코딩(레이블, 원-핫) 데이터 인코딩에 대해 정리한 내용이다. 데이터 인코딩 머신러닝 모델은 문자 데이터를 인식하지 못하기 때문에 문자로 구성된 범주형 데이터는 숫자로 바꿔야 한다. 이미 숫자로 구성된 범주형 데이터도 모델 성능 향상을 위해 다른 숫자 데이터로 바꾸기도 한다. 1. 레이블 인코딩 (label encoding) 레이블 인코딩은 범주형 데이터를 숫자로 일대일 매핑해주는 인코딩 방식 범주형 데이터를 숫자로 치환 사이킷런의 LabelEncoder로 구현 다음은 사이킷런의 LabelEncoder로 레이블 인코딩을 적용해 과일 문자열 데이터를 숫자형으로 변환하는 코드다. from sklearn.preprocessing import LabelEncoder # 레이블 인코더 fruits = ['사과', '블루베리', '바나나.. 2022. 9. 19. [머신러닝/딥러닝] 분류와 회귀, 평가지표 머신러닝의 지도학습은 크게 분류와 회귀로 나뉜다. 간단하게 정리하면 예측하려는 타깃값이 범주형 데이터라면 '분류'문제, 수치형 데이터면 '회귀'문제다. 분류(Classification) : 어떤 대상을 범주에 구분해 넣는 작업 머신러닝에서 분류는 피처에 따라 어떤 대상을 유한한 범주(타깃값)으로 구분하는 방법이다. 여기서 중요한 점은 타깃값, 즉 예측하려는 값이 범주형 데이터라는 것이다. 분류 문제는 크게 이진분류와 다중분류로 나뉜다. 이진분류: 타깃값이 두 개 다중분류: 타깃값이 세 개 이상 범주형 데이터 범주형 데이터는 객관식 문제와 같이 선택지가 있는 값이다. 개와 고양이를 구분하는 문제, 스팸 메일과 일반 메일을 구분하는 문제, 검사 결과가 양성인지 음성인지 구분하는 문제 등 유한한 선택지 중 하.. 2022. 9. 18. 이전 1 2 다음