일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 머신러닝 #ml #미분 #기본기
- 머신러닝 #ml #기본기
- 속성중요도
- Kotlin
- 디자인 패턴 #싱글톤
- db
- 지니불순도
- featurescaling
- ML
- Java
- bootstrapping
- 11049
- featureimportances
- 운영체제
- cross_val_score
- ml
- 멀티 프로그래밍
- min-max
- 머신러닝 #ml #선형대수학 #기본기
- 다항회귀
- Mutual exclusion
- 코틀린
- 경쟁 조건
- JetBrains
- 상호 배제
- Mutex lock
- 에다 부스트
- 결정트리
- jdk #javac #jre #java standard library #javadoc #jar #java
- gridsearch
- Today
- Total
목록전체 글 (26)
코딩하는 오리

01. k겹 교차 검증(k-fold cross validation)트레이닝 셋과, 테스트 셋으로 데이터를 나눴다.딱 이 테스트 셋에서만 성능이 좋거나 안 좋을 수도 있다.. 교차 검증은 이 문제를 해결하는 방법~k겹 교차검증은 전체 데이터를 k개의 같은 사이즈로 나눈다..그리고 하나를 테스트 셋으로 두고, 나머지를 트레이닝 셋으로 두기를 k번 반복해 구한 성능의 평균을 모델의 성능으로 보는 것모델의 성능을 여러번 다른 데이터로 검증하여 평가에 대한 신뢰 상승 k : 데이터 셋을 몇 개로 나눌 건지 정하는 변수가장 일반적으로 5 사용... 10겹,, 20겹,, 교차검증 03. scikit-learn으로 k겹 교차 검증 해보기 from sklearn.model_selection import cross_va..

01. 편향(Bias)과 분산(Variance) 머신 러닝 모델이 정확한 예측을 못하는 경우 직선 모델은 너무 간단해서 복잡한 곡선 관계를 학습할 수 없다 -> 편향이 크다모델이 데이터 사이의 관계를 완벽하게 학습했따 -> 편향이 작다 편향이 작으면 항상 좋나?평균 제곱 오차로로 성능 구한다~위의 경우에는 새로운 데이터에서 오히려 직선 보다 성능 안좋음..외워버렸다 분산 : 데이터 셋 별(training set vs test set)로 모델이 얼마나 일관된 성능을 보여주는지성능이 비슷하다 -> 분산이 낮다성능이 들쭉날쭉 -> 분산이 높다 편향이 높은 모델은 너무 간단해서 주어진 데이터의 관계를 잘 학습하지 못한다(1차함수 vs 11차 함수)편향이 낮은 모델은 주어진 데이터와의 관계를 잘 학습한다.직선 ..

01. 머신 러닝 더 빠르고 정확하게 토픽 머신 러닝 알고리즘의 속도와 정확도를 높이는 방법(아무렇게 쓰면 성능 떨어짐)이 이론들을 scikit-larn과 pandas 라이브러리에서 적용하는 과정 ~ 03. Feature Scaling : Normalization입려 변수/속성을 조정하는 것 정의 : 머신 러닝 모델에 사용할 입력 변수들의 크기를 조정해서 일정 범위 내에 떨어지도록 바꾸는 것 연봉과 나이 차이가 크니까 1 이내로 들어오도록 조정 Feature Scaling- 경사 하강법을 좀 더 빨리 할 수 있게 도와준다 ! min-max normalizationnormalizatoin = 숫자의 크기를 0과 1 사이로 만든다 최솟값, 최댓값을 이용해서 데이터의 크기를 0과 1 사이 값으로 만든다 ..

01. Boosting~전보다 더 크거나 높게 하다 ! 일부러 성능이 안 좋은 모델들을 사용한다.먼저 만든 모델들의 성능이 뒤에 있는 모델이 사용할 데이터 셋을 바꾼다모델들의 예측을 종합할 때, 성능이 좋은 모델의 예측을 더 반영한다 핵심 : 성능이 안 좋은 약한 학습자(weak learner)들을 합쳐서 성능을 극대화 한다 ! 02. 에다 부스트(Adaboost) 개요에다 부스트에서는 랜덤 포레스트에서처럼 깊은 결정 트리가 아니라루트 1개와 분류 노드 2개를 갖는 얕은 결정 트리를 만든다(단순).성능 : 평균적으로 50%보다 조금 좋은 성능을 낸다일부러 일반 결정트리가 아닌 스텀프를 사용한다.+ 부스팅 기법 답게 각 모델이 사용하는 데이터 셋을 임의로 만들지 않는다 앞에 있는 스텀프가 틀린 애들의 ..

01. 결정 트리와 앙상블결정 트리의 큰 단점 The Elements of Statistical Learning 책에서'결정 트리는 이상적인 머신 러닝 모델이 되기 힘든 한 가지 특징을 갖는다. 바로 부정확성이다.'성능이 안좋다.. 하지만 결정 트리를 응용하면 성능이 좋은 다른 모델을 만들어낼 수 있다 ! 앙상블(ensemble) : 여러 독립적인 객체들이 만들어내는 조화로운 단체 하나의 모델을 쓰는 대신, 수많은 모델들을 사용해 종합적인 판단을 하는 것수많은 모델들을 만들고, 이 모델들의 예측을 합쳐서 종합적인 예측을 하는 기법 모델을 100개... 만든다 -> 각 모델의 결과를 종합해 최종 결과를 예측한다. 02. 랜덤 포레스트 1: Bagging랜덤 포레스트 : 트리 모델들을 임의로(random)..

01. 결정 트리란?정의 : 질문들이 있고, 질문을 답해가면서 분류하는 알고리즘 !예/아니오 질문들 + 이 질문들을 답해나가면서 분류하여 예측 ex) 교통 사고 생존 여부 분류안전벨트를 했나요 ? => YES or NO주행 속도가 시속 100km가 넘었나요 ? => ...여러 질문들에 대해 순차적으로 답을 한다.- 똑같은 속성에 하위 트리에서 다시 질문할 수 있다.- 하나의 시작 질문에서 뻗어나간다.- 질문 박스 하나하나를 노드- 시작 질문은 루트 노드- 마지막 예측값을 담은 것은 리프 노드 05. 지니 불순도 (Gini Impurity) 머신러닝에서 결정트리를 만들 때는 내용이 정해져있는게 아니라, 경험을 통해 직접 과정을 정해나가야한다.데이터를 분류해보면서, 각 위치에서 어떤 노드가 제일 좋을지 골..

01. 분류 문제머신러닝 : 지도학습 vs 비지도학습지도학습 : 회귀 vs 분류분류 : 정해진 몇 개의 값 중에 예측(0, 1, 2) 이를 선형 회귀를 통해서 분류한다면 0.5 이상이면 통과, 아니면 탈락으로 예측 가능 이렇게 간단하지만, 우리는 분류에 선형 회귀를 잘 사용하지 않는다.Why?예를들어서 10000시간 공부한 데이터가 추가되었을 경우 이 하나의 데이터로 인해 그래프가 더 눕는다.이로 인해 통과 지점이 100시간 이상에서 200시간 이상으로 변해버림선형 회귀는 예외적인 데이터에 민감하여 분류 할 때는 잘 사용하지 X 03. 로지스틱 회귀 (Logitstic Regression) 선형 회귀는 데이터에 잘 맞는 1차 함수를 찾는것이라면로지스틱 회귀는 데이터에 잘 맞는 시그모이드 함수를 찾는 ..

01. 다항 회귀 직선보다는 곡선이 더 가설함수가 정확할 수 있다.데이터에 잘 맞는 곡선이 이차함수, 삼차함수 등등 다양차수가 많을 수록 굴곡이 많은 곡선. 다항식 등 데이터에 잘 맞는 곡선을 찾는 것을 다항 회귀 03. 단일 속성 다항 회귀 다항 회귀도 2가지로 나뉨1. 속성 1개2. 속성 여러 개 (다중 다항 회귀) 사실 다중 선형 회귀와 비슷하게 생김 05. 다중 다항 회귀 2차 함수일 때 2차항과 가설함수 모양 동일하게 다항 회귀 처럼, 입력 변수가 9개인 다중 선형 회귀와 동일하게 취급 가능 07. 다항 회귀의 힘 다항 회귀를 사용하면 단순히 복잡한 고차식에 데이터를 맞추는 거를 넘어서 어떻게 모델의 성능을 극대화할 수 있는지 ex) 집 높이, 집 너비의 2가지 데이터 아무리 너미가 커도..