썸네일 20일차 - 지도학습 3 그래디언트 부스팅 회귀 트리 여러 개의 결정 트리를 묶어 강력한 모델을 만드는 앙상블 기법 중 하나. 이름은 회귀지만 회귀와 분류에 모두 사용 가능 장점 지도학습에서 가장 강력함. 가장 널리 사용하는 모델 중의 하나 특성의 스케일 조정이 불필요 -> 정규화 불필요. 단점 매개변수를 잘 조정해야 한다는 것. 긴 훈련 시간. 트리 기반 모델을 사용. -> 희소한 고차원 데이터는 부적합. (특성이 많고 값이 별로 없는 데이터셋) 매개변수 n_estmators: 트리의 개수 지정 너무 클 경우 모델이 복잡해지고 과대적합 가능성 learning_rate: 이전 트리의 오차 보정 강도 조절. 메모리 한도에서 n_estimators 부터 설정. 이후 적절한 learning_rate 설정. 학습률이 크면 트리를 강하게..
썸네일 19일차 - 지도학습 2 나이브 베이즈 분류기 선형 모델과 매우 유사한 분류기. 각 특성을 개별로 취급해 파라미터 학습. 각각의 통계를 다 내어 취합하는 방식. GaussianNB 연속적인 데이터에서도 적용 가능 텍스트 데이터 분류에 주로 사용 BernoulliNB 이진 데이터에 적용 가능 텍스트 데이터 분류에 주로 사용 MultinomialNB 카운트 데이터에 적용 가능. 카툰트 데이터 -> 개수를 나타내는 정수형 특성 (문장에 나타난 단어의 횟수) + 파이썬 Numpy의 axis를 이용한 덧셈 axis를 이용하여 배열의 축을 이용한 덧셈 axis가 증가할 수록 안쪽으로 들어감. 매개변수 매개 변수 조절만으로 정확도를 높일 수 있음. alpha: 모델의 복잡도를 조절 (alpha가 크면 완만해지고 복잡도 낮아짐.) 장, 단점 ..
썸네일 18일차 - 지도학습 1 주피터 한글 폰트 # 사용자 운영체제 확인 import platform platform.system() # 운영체제별 한글 폰트 설정 if platform.system() == 'Darwin': # Mac 환경 폰트 설정 plt.rc('font', family='AppleGothic') elif platform.system() == 'Windows': # Windows 환경 폰트 설정 plt.rc('font', family='Malgun Gothic') plt.rc('axes', unicode_minus=False) # 마이너스 폰트 설정 # 글씨 선명하게 출력하는 설정 %config InlineBackend.figure_format = 'retina' k-최근접 이웃 회귀 회귀: 끊어지지 않는 애매한 ..
썸네일 17일차 - 머신러닝(ML) 머신러닝 (ML) 미래에 관한 예측분석이 목표. ex.) 영화 추천, 음식 주문 지도 학습 이미 알려진 사례를 바탕으로 일반화된 모델을 만들어 의사 결정 프로세스를 자동화 하는 것. 지도 학습 알고리즘 입력과 출력으로부터 학습하는 머신러닝 알고리즘 분석하기도 좋고 성능을 측정하기도 좋다. 비지도 학습 알고리즘 입력을 주어지지만 출력은 제공되지 않음. ex). 블로그 글의 주체 구분, 고객들의 취향이 비슷한 그룹으로 묶기. 지도 학습과 비지도 학습 컴퓨터가 인식할 수 있는 형태로 데이터 준비 열 (속성) -> 특성(Feature) 행 (데이터) -> 샘플(Sample), 데이터 포인트(Data point) 오픈소스 싸이킷런(scikit-learn) https://scikit-learn.org/stable/..