'머신러닝/혼공 머신러닝' 카테고리의 글 목록

머신러닝/혼공 머신러닝

[혼공머신] 11기 6주가 끝이 났다.

좋아좋아브라이언 2024. 2. 8. 11:19

2024. 2. 8. 11:19

[ 목차 ]

1. 들어가기 전에

시간은 빨리가도 월급날은 더디온다.. 혼공머신을 공부한 6주는 월급날 보다 더 긴 느낌이다. TT

책장속에 책을 볼 때다. 책을 주문할 때의 열정은 어디 갔는지.. 봐야지 봐야지 생각은 있는데... 내일 봐야지 내일 봐야지... 미루 둔 것이 어언 2년이 흘렀다. 작년 23년 6월에 본 혼공학습단 모집... 선정이 되었지만... 안했다...아니 못했다..

OO님, 혼공학습단 10기에 선정되신 것을 축하드립니다! 안내 사항을 확인해 주세요.

연말에 다시 모집 메일을 보면서..... 미안하면서도 이 번에 꼭 끝내리라 ... 1번의 공수표는 있어도 2번은 없다.. 맘 속 다짐을 한다.

[한빛미디어] OO님, 혼공학습단 11기에 오신 것을 환영합니다!

2. 시작하기전 내 맘속의 다짐.

다음 2가지를 꼭 실천하리라 다짐을 하고 시작을 하였다..

토요일 까지 학습한 것을 Posting 한다...이를 위해서는 금요일 부터 시작해야 한다.
쉴 때 못 쉬고,, 운동할 것 못하고,.. 시간을 내는 만큼 집중해서 보자..

지금까지 일 하듯..큰 뼈대를 먼저 잡은 후에 세부적인 내용은 천천히 이해하는 방식으로 진행을 하였다..

3. 공부 하면서 얻은 것

6번 금요일 또는 토요일 올리고.. 지각을 안했다!!!와우!!.... 아..나도 한다면 한다!!
미션을 하기 위해서 책을 열심히 봤다. 잘 이해안되는 것은 인터넷을 활용하여 어느 정도 이해가 될 수 있었다.
- 모델의 주요 개념, 모델의 속성을 이해했다.
- 책에 나온 소스의 주요 방법론을 이해했다.
- Scikit-learn, numpy등의 라이브러리를 이해했다. numpy의 행렬변환이 어려웠었는데 많이 편해 졌다.
- 이해를 위해 책을 활용하여, 나름 확장하여 이것 저것 시험을 해봤다... Decision Tree의 Gini 계수 결정을 안 잊어버릴 것 같다..족장(리더)님의 열정에 자극 받아...아.... 해결했을 때의 쾌감!!!!
정리 글은 항상 책을 다 보고 머리에 정리해서 큰 클을 만들고, 필요 부분은 책을 보면서 정리를 해 나갔다..(나름 뿌듯!!)

4. 혼공 학습단에 참가하면서 얻은 것

족장님의 응원, 열정, 관심을 보면서 6주간을 학습한 것 같다
- 그 많은 혼공족의 게시글을 읽은 후에 답변을 다는 것을 보고 오!! 그대야 말로 정말 프로페셔널이군요... 그렇담 나도 열심히 해야 겠군... 생각하며 진행했던 것 같다.
- 4주차 Decision Tree를 학습하면서 올린 질문은 나름 같이 공부하는 혼공족과 고민을 하고 싶어서 올렸는데...족장님이 그렇게 애는 모습을 보면서... 포기하지 말고 찾아보고... 해결을 한 것이... 책을 보며 학습한 것보다 이번 혼공 학습단에 참가하면서 느끼고 배운 것이 컸군요... (당신이 갖고 있는 누군가의 관심이 큰 영향이 갈 수 있습니다.)
- 단순한 실수를 해결할 수 있었네요... softmax 함수를 정의하면서 혼자 왜 안되지 고민한 것을 discord에 문의하였더니 혼공족님의 도움으로 해결하였어요... 한참 고민했었는데.... ㅎㅎ.. 그러고 보니 해결해준 혼공족님에게 고마움의 표시를 못했네요..아... 칭찬의 방에 올려야 겠군요 ^^
다른 사람이 헷갈리면 나도 헷갈린다.
- 우연찬게 본 족장님의 게시글 pandas의 axis가 헷갈려요....나도 한때는 공부 했었는데...... 이렇게 보니... 저렇게 하면 되겠구나 했는데.... 곰곰히 보니 나도 헷갈린다... 아마도 사용할 때마다 블러그를 보고 그 때 그때 해결했던것 같군요..... 인터넷 뒤져서.. 나름 규칙을 만들고 정리했다...다음 차 공부할때 np에서 axis가 나왔다.. 역쉬 pandas나 np나 동일한 개념이였다...
  - 처음 정리할 땐 나와 관련 없는 것인데 정리를 해 두니... 나도 잘 써 먹었다..
  - 족장님이 쪽집게 처럼 모두가 어려워 할 문제를 이슈 제기를 잘 한 것 같다.. 이것도 고맙다..
생각을 정리하는 것이 어렵다.
- 머리속에 이해된 것을 글로 쓴다는 것이 어려움을 다시 느낀다..번역서를 읽으면 왜 이리 이해 안되게 어렵게 투덜 거렸는데... 나 역시 정리를 하면서 어려움을 느낀다...생각 정리를 블로그로 해야 하나? 고민중...
블로그/페북의 기능을 알아가다
- 그림 복사하기가 가능한 것을 알게 됨!!
  - 블로그에 그림을 삽입할 때 항상 로컬PC에 저장한 다음에 올렸는데.... ... 요 기능 알고 나서는 유래카!!! 외침
  - 서식쓰기 가능이 있다는 것을 알고 적용해서 사용해 봄.. 와우!!
- 페북 채팅이 별도 프로그램 설치 없이 가능하다는 것을 알게됨 (족장님은 DM이라고 하던데... )

5. 앞으로 계획

. 6주 학습기간에는 머신러닝은 이런거야를 배웠다면.. 맘에 품은 질문은 왜 이럴까? 어떻게 가능할까? 를 계속 진행할 예정입니다.

그래서 또 다른 머신러닝책은 구매 했고 읽을 공부할 예정이고,,, 수학은 아래 책을 볼까 생각중인데... 혹시 추천 책이 있을까요?? (아 이놈의 질문병..)

핸즈온 머신러닝 들어가기 전에,,, 수학적 기초 온라인으로 듣고 있습니다. 혼공머신이 마중물이 되어서 ML, 딥러닝, LLM을 더 많이 이해 하고 싶네요

0. 감사의 글

책상속에 묻힐 책을 꺼내어 학습 할 환경을 마련해 주셔서 감사합니다... 책을 통해서 알아가고 , 부족한 것을 느끼고, 또 찾아가려는 나를 흐믓하게 바라볼 수 있는 좋은 기회였습니다.

직장인이 기술 서적을 혼자 읽기에는 많은 한계가 있는데.. 학습단을 통해 한계를 극복 할 수 있었습니다.

경제적 지원을 해주시 출판사와 리딩 해 주신 족장님께 감사드립니다. 독자로서 이런 사회적 가치를 실천하는 출판사를 응원하게 됩니다.

저작자표시

'머신러닝 > 혼공 머신러닝' 카테고리의 다른 글

[혼공머신] 6주차 딥러닝 (1)	2024.02.06
[혼공머신] 5주차 비지도 학습 (0)	2024.02.03
[혼공머신] 4주차 트리 알고리즘 (2)	2024.01.31
[번외] Encoding의 필요성 (0)	2024.01.31
Resources (0)	2024.01.31

[혼공머신] 6주차 딥러닝

좋아좋아브라이언 2024. 2. 6. 13:41

2024. 2. 6. 13:41

딥러닝을 이해하기 위해 지금까지 머신러닝을 공부하였구나 생각이 드네요..문제종류(회귀, 이진,다항분류..), 손실함수, 하이퍼파라미터 등..

1. 기본 개념도. 2.TensorFlow 기본 사용법.3 책의 예제로 입력/출력층으로 구성된 모델 살펴보기. 4. 다중 레이어로 구성된 모델 살펴보기로 정리를 해봤어요..

(아... cheatSheet 중간에 있음)

정리를 하다 보니 앞 부분에서 대충 넘어간 부분들을 다시 살펴볼 필요가 있네요... 그래도... 다시 봐야 하고 중점적으로 봐야 할지 느끼네... 아직 안개속에 있지만 안개가 희미하게 거치는 느낌!!!ㅎ

책을 살때의 매직.... 읽고 안 읽고는 나중 문제다.. 읽고 난 후의 모습을 상상하며 책을 산다....필독!!!

1. 주요 딥러닝 개념도

인간의 뇌를 본뜬 Perceptrons.. .
중간층은 입력값과 적절한 웨이트를 조절하여 새로운 의미의 속성을 표현한다고 개념적으로 생각하자.
- 만약 데이타가 세로, 가로라면 사람은 크기를 유추할 수 있다.
- 만약 데이타가 집의 크기, 침대 수, 우편번호, 거주자의 연봉이 있다면... 우편번호와 연봉으로 학교의 등급을 표현할 수 있다...
노드의 결과가 다른 노드로 전달할때 얼마의 값 으로 전달해야 할까? 활성화 함수..
- 이 노드의 결과는 다른 노드에 반영하지 말아야 해...아니야... 0.3만 반영해... 그렇지 않아... 음수로 반영해.....
결과 값을 찾았는데... 찾은 값이 오류가 있다고 판단을 하면,, 찾은 값을 증가 시켜야 할까?? 감소 시켜야 할까??
- 순전파 : 주어진 데이타로 결과를 찾는 방향...순방향
- 역전파: 결과를 찾았으면, 오류를 수정하기 위해....가중치를 수정한다..... 역방향..
Hyperparameters
- 은닉층의 수, 노드의 수, 활성화 함수, batch_size는 상황에 따라 지정해야 할 하이퍼 파라미터
  - 다만, 결과층의 활성화 함수는 문제에 따라 정해져 있다!!
- 옵티마이저 역시 하이퍼파라미터임!!
  - RMS,SGD등

860~1,000 억개의 신경세포와 100조개의 신호를 주고 받는 시냅스

예를 들어, 0.2와 0.9 두 개의 입력 값으로 0.5라는 예측값을 도출하는 인공신경망 모델을 학습시키는 과정을 생각해보겠습니다. 아래 그림과 같이 입력층에는 2개의 노드가 할당되며 출력 층에는 1개의 노드가 할당됩니다. 그리고 은닉층은 1개이며, 은닉노드는 3개로 임의로 설정합니다. 여기서 은닉층과 은닉노드의 개수는 다수의 반복실험을 통해 사용자가 적절하게 설정해야 하는 값입니다

문제에 따라 사용되는 활성화 함수와 손실 함수

2. Tensorflow 기초 사용법

모델 생성이 기존 머신러닝보다 복잡합니다. 레이어를 생성해야 하고, 활성화 함수를 지정해야 하고, loss 함수등을 지정해야 하는군요... 파란색으로 표기된 모델 생성과 학습부분을 세부 공부를 해야 겠군요.

Tensorflow의 cheat sheet를 옆에 끼고 공부하기..

Keras_Cheat_Sheet_gssmi8.pdf

5.79MB

TensorFlow Basic Sample

(손실함수와 마지막 활성화함수를 보니..이진분류이군요)

Machine Learning Basic Sample

import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

#데이타 생성
data = np.random.random((1000,100))
labels = np.random.randint(2,size=(1000,1))

#전처리

#모델 생성 및 학습
model = Sequential()
model.add(Dense(32,
                    activation='relu',
                    input_dim=100))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop',
                  loss='binary_crossentropy',
                  metrics=['accuracy'])

model.fit(data,labels,epochs=10,batch_size=32)

#예측
predictions = model.predict(data)

#평가

from sklearn import neighbors, datasets, preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

#데이터 생성
iris = datasets.load_iris()
X, y = iris.data[:, :2], iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33)

#전처리
scaler = preprocessing.StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

#모델 생성 및 학습
knn = neighbors.KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

#예측
y_pred = knn.predict(X_test)

# 평가
accuracy_score(y_test, y_pred)

3. MNIST 패선 다중 클래스 분류

10종류의 60,000개의 그림을 분류 하는 예제. 하나의 그림은 28*28 크기의 2차원 데이타를 1차원으로 변환하여 사용함. 즉 그림 하나는 784 = 28*28 크기임

입력은 784, 히든 층 없이 결과층을 node=10로 만듭니다.

다중 클라스 분류이므로 sparse+categorical_crossentropy를 사용하고 출력층의 활성화 함수는 softmax를 사용합니다.

import tensorflow as tf
from tensorflow import keras
from sklearn.model_selection import train_test_split
from tensorflow.keras.utils import *

# 실행마다 동일한 결과를 얻기 위해 케라스에 랜덤 시드를 사용하고 텐서플로 연산을 결정적으로 만듭니다. 
tf.keras.utils.set_random_seed(42)
tf.config.experimental.enable_op_determinism()

#데이타 갖고 오기
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

#전처리... 
#1. scaling
train_scaled = train_input / 255.0
#2. 데이타를 1차원으로 변경하기
train_scaled = train_scaled.reshape(-1, 28*28)

#데이타 사이즈 확인
print(f'데이타 크기 {train_scaled.shape}, 정답 크기{train_target.shape}')
# 학습/평가데이타 분류
train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42)

# 모델 생성
dense = keras.layers.Dense(10, activation='softmax', input_shape=(784,))
model = keras.Sequential(dense)
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')

# 모델 요약 정보 조회
model.summary()
plot_model(model, show_layer_names=False, show_shapes=True)

#모델 학습
history= model.fit(train_scaled, train_target, epochs=5)

#모델 평가
model.evaluate(val_scaled, val_target)

다음 함수로 Layer를 그려봅니다.

plot_model(model, show_layer_names=False, show_shapes=True)

다음 함수로 파라미터를 포함한 model을 확인합니다.

Dense Layer는 784개의 입력을 받아서 10개의 노드로 전달하고, 노드 수만큼의 편향이 있어서.. 784 * 10 + 10 = 7850이 되는 것을 알 수 있습니다.

즉 각 레이어의 파라미터는 입력수 * 노드 수 + 노드수임을 알 수 있습니다.

데이타 크기 (60000, 784), 정답 크기(60000,)
Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense (Dense)               (None, 10)                7850      
                                                                 
=================================================================
Total params: 7850 (30.66 KB)
Trainable params: 7850 (30.66 KB)
Non-trainable params: 0 (0.00 Byte)

가령, 입력이 100개 이고, 미집층에 있는 뉴런 개수가 10개일때 필요 파라미터는 입력수 * 노드 수 + 노드수이므로 100 * 10 +10 = 1010임을 알 수 있습니다.

정말 맞을까요?? 코드로 확인해보죠.. ^^

먼저 결과 입니다. 손으로 계산한 1010과 코드로 출력한 결과가 100잘 나왔습니다.

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense_1 (Dense)             (None, 10)                1010      
                                                                 
=================================================================
Total params: 1010 (3.95 KB)
Trainable params: 1010 (3.95 KB)
Non-trainable params: 0 (0.00 Byte)
___________________________________________________

입력에 대한 갯수가 없어 100개 입력을 했는지 확인해 보겠습니다. 출력을 보니 맞군요..

사용된 코드는 아래와 같습니다.

# 모델 생성
dense = keras.layers.Dense(10, activation='softmax', input_shape=(100,))
model = keras.Sequential(dense)
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')

# 모델 요약 정보 조회
model.summary()

# 모델 그림 그리기
plot_model(model, show_layer_names=False, show_shapes=True)

4. MNIST 패선 다중 클래스 분류 (다중 레이어)

하이퍼 파라미터인 은닉층 및 옵티마이저 추가하기
데이타가 28* 28 크기의 2차원 데이타를 Flatten Layer를 사용하여 2차원 데이타를 사용하기
- 3장에서는 np를 사용

import tensorflow as tf
from tensorflow import keras
from sklearn.model_selection import train_test_split
from tensorflow.keras.utils import *

# 실행마다 동일한 결과를 얻기 위해 케라스에 랜덤 시드를 사용하고 텐서플로 연산을 결정적으로 만듭니다. 
tf.keras.utils.set_random_seed(42)
tf.config.experimental.enable_op_determinism()

#데이타 갖고 오기
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

#전처리... 
#1. scaling
train_scaled = train_input / 255.0


#데이타 사이즈 확인
print(f'데이타 크기 {train_scaled.shape}, 정답 크기{train_target.shape}')
# 학습/평가데이타 분류
train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42)

# 모델 생성
model = keras.Sequential()

##데이타를 1차원으로 변경하기
## train_scaled.reshape(-1, 28*28) 대신 Flatten()를 사용한다.
model.add(keras.layers.Flatten(input_shape=(28, 28)))

model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))
## Optimizer를 사용한다.
sgd = keras.optimizers.SGD()
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')

# 모델 요약 정보 조회
model.summary()
plot_model(model, show_layer_names=False, show_shapes=True)

#모델 학습
history= model.fit(train_scaled, train_target, epochs=5)

#모델 평가
model.evaluate(val_scaled, val_target)

참고자료

https://www.hani.co.kr/arti/science/science_general/755976.html

1000억개 뉴런, 100조개 시냅스…이들은 기억에서 무슨 일할까

기억에 관한 연구 결과가 종종 뉴스로 보도됩니다. 기억을 다룬 과학 뉴스를 좀더 흥미롭게 보려면 신경과학의 몇 가지 용어에 익숙해지는 게 좋습니다. 기억은 뇌 신경세포와 시냅스에 저장된

www.hani.co.kr

https://www.lgcns.com/blog/cns-tech/ai-data/14558/

인공신경망이란 무엇인가? - LG CNS

2016년 3월, 세계적으로 큰 이슈를 몰고 온 게임이 성사되었습니다. 그것은 바로 세계 최고 바둑기사인 대한민국의 이세돌과 구글 딥마인드의 인공지능 바둑 프로그램 알파고(alphago)와의 대결인

www.lgcns.com

https://jalynne-kim.medium.com/%EB%94%A5%EB%9F%AC%EB%8B%9D-%ED%95%B5%EC%8B%AC-%EA%B0%9C%EB%85%90-%ED%95%B5%EC%8B%AC-%EC%9A%A9%EC%96%B4-%EC%89%BD%EA%B2%8C-%EC%95%8C%EC%95%84%EB%B3%B4%EC%9E%90-%EA%B0%80%EB%8A%A5%ED%95%9C-7196a39df5a0

[딥러닝] 핵심 개념&핵심 용어 쉽게 알아보자! (가능한)

안녕하세요, 오늘 주제는 [딥러닝]입니다.

jalynne-kim.medium.com

https://velog.io/@denev6/neural-network

velog

velog.io

https://github.com/hunkim/DeepLearningZeroToAll?tab=readme-ov-file

GitHub - hunkim/DeepLearningZeroToAll: TensorFlow Basic Tutorial Labs

TensorFlow Basic Tutorial Labs. Contribute to hunkim/DeepLearningZeroToAll development by creating an account on GitHub.

github.com

https://blog.skby.net/%EC%9D%B8%EA%B3%B5%EC%8B%A0%EA%B2%BD%EB%A7%9D-artificial-neural-network/

인공신경망 (Artificial Neural Network) < 도리의 디지털라이프

I. 분류와 예측 모형, 인공신경망, ANN 가. 인공신경망의 개념 인간의 뉴런을 모방하여 가중치 조정을 통한 분류와 예측을 위해 다수 노드를 연결한 계층적 조직 나. 인공신경망의 특징 특징 구성

blog.skby.net

https://velog.io/@yookyungkho/%EB%94%A5%EB%9F%AC%EB%8B%9D-%EC%98%B5%ED%8B%B0%EB%A7%88%EC%9D%B4%EC%A0%80-%EC%A0%95%EB%B3%B5%EA%B8%B0%EB%B6%80%EC%A0%9C-CS231n-Lecture7-Review

velog

velog.io

https://www.holehouse.org/mlclass/

Machine Learning - complete course notes

Stanford Machine Learning The following notes represent a complete, stand alone interpretation of Stanford's machine learning course presented by Professor Andrew Ng and originally posted on the ml-class.org website during the fall 2011 semester. The topic

www.holehouse.org

https://www.gttkorea.com/news/articleView.html?idxno=4086

저작자표시

'머신러닝 > 혼공 머신러닝' 카테고리의 다른 글

[혼공머신] 11기 6주가 끝이 났다. (2)	2024.02.08
[혼공머신] 5주차 비지도 학습 (0)	2024.02.03
[혼공머신] 4주차 트리 알고리즘 (2)	2024.01.31
[번외] Encoding의 필요성 (0)	2024.01.31
Resources (0)	2024.01.31

[혼공머신] 5주차 비지도 학습

좋아좋아브라이언 2024. 2. 3. 09:49

2024. 2. 3. 09:49

내 이야기를 들어주고 공감해 준다는 것이 큰 힘이 된다는 당연한 사실을 느끼는 한주였네요.. 누군가 나에게 이야기를 한다면 공감을 해주는 그런 사람이 되었으면 좋겠습니다..

2차원 데이타를 1차원으로 가공하여 데이타를 이용하는 것이 낯설었네요... 쉬운 데이타를 이용해서 책에 나온 비지도 학습의 k-means를 따라해봤어요.. 소스와 데이타 파일은 첨부해요..

numpy에서도 axis가 있네요.. pandas와 동일하네요... 정리하면서 왜 이리 깔끔하지 못해 투덜거렸는데... 원죄는 numpy일까???

apple_mean = np.mean(apple, axis=0).reshape(100, 100)

군집화(Clustering)

답/라벨없는 데이터 내에서 거리가 가까운 것들끼리 각 군집들로 분류하는 것이다 (분류라고 표현했지만, 지도학습인 classification과는 다르다). 즉 데이터 내에 숨어있는 패턴, 그룹을 파악하여 서로 묶는 것이라고 할 수 있다. 만약 라벨값이 존재하는 데이터라고 하더라도, 같은 라벨 내에서도 얼마든지 다른 군집으로 묶일 가능성이 있다.

Clustering(군집화) : 비슷한 샘플끼리 그룹으로 모으는 작업

Cluster(클러스터) : 군집 알고리즘에 의해 만든 그룹

1 K-Means / K-평균

K-Means 클러스터링은 클러스터링에서 가장 일반적으로 사용되는 알고리즘으로, 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. K-Means이므로 K개의 centroid를 지정한다. 이때 가장 가까운 포인트를 선택한다는 점에서 K-Means는 거리 기반 군집화 방법임을 알 수 있다

무작위로 k개의 클러스터 중심을 정한다.
각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다
클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다.
클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복한다.

2 K-평균 실습

모델이 얼마나 잘 학습하고 있나 확인을 위해 정답을 갖고 있는 데이타를 활용하여 결과를 비교하자. 질량, 크기(가로,세로), 색상으로 구성된 4개의 속성으로 ['apple' 'mandarin' 'orange' 'lemon'] 4 종류의 데이타 있다.

모델 학습 방법과, k개의 어떻게 찾는지 확인해 보자..

사용된 데이타. .mass, width, height, color만 featur로 사용한다.

1) 모델 학습과 예측

지도학습과 동일하게,, 전처리.모델학습, 예측을 진행한다.

그러나 정답이 없으므로 학습할때 학습데이타만 전달하고, 평가가 없다.

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

from sklearn.preprocessing import MinMaxScaler


X_fruits = fruits[['mass','width','height', 'color_score']].values
y_fruits = fruits[['fruit_label']] - 1

X_fruits_normalized = MinMaxScaler().fit(X_fruits).transform(X_fruits)  

kmeans = KMeans(n_clusters = 4, random_state = 0)
kmeans.fit(X_fruits_normalized)
print(f" 0번째 데이타의 예측 확인 : { kmeans.predict(X_fruits_normalized[0:1])}")

plot_labelled_scatter(X_fruits_normalized, kmeans.labels_, 
                      ['Cluster 1', 'Cluster 2', 'Cluster 3', 'Cluster 4'])

그래프는 첫번째, 두번째 feature를 이용하여 클러스터 결과를 보여준다. 가운데 부분에서 논란이 예상이 된다.

우리가 갖고 있는 정답과 모델이 예측한 값을 비교하니 다른 부분이 존재한다.

정답 label           : [[0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 2 2 2 2 2 2 2 2 2 2
  2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3]]
k-means model label : [0 0 0 1 1 1 1 1 3 3 3 3 3 0 0 0 0 0 3 3 3 3 3 3 2 2 2 0 1 3 3 3 3 0 0 0 3
 3 3 1 3 3 3 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1]

2) 최적의 k 값 찾기

4개로 분류된다는 지식으로 k=4를 사용하였다. 지식이 없다면, 적당한 k를 찾아야 한다. 엘보우 방법은 대표적인 갯수를 찾는 방식이다.

이너셔(inertia)는 클러스터 샘플이 얼마나 가까운지를 나타낸다. 클러스터의 중심과 샘플사이의 거리의 제곱 합이다.

클러스터 개수가 늘어나면 클러스터 개개의 크기는 줄어들기 때문에 이너셔도 줄어든다. 엘보우 방법은 클러스터 개수를 늘려가면서 이너셔의 변화를 관찰한다.

즉, 클러스터 개수를 증가시키면서 이너지를 그래프로 그리면 감소하는 속도가 꺽이는 지점을 선택한다. 아래 그림 처럼 꺽이는 부분이 4이고, 이를 선택한다.

inertia = []
for k in range(2, 7):
    km = KMeans(n_clusters=k, random_state=42)
    km.fit(X_fruits_normalized)
    inertia.append(km.inertia_)

plt.plot(range(2, 7), inertia)
plt.xlabel('k')
plt.ylabel('inertia')
plt.show()

3) 실습파일

k-means.ipynb

0.07MB

fruit_data_with_colors.txt

0.00MB

PCA

PCA는 고차원의 데이터를 낮은 차원의 데이터로 바꿔줄 수 있다는 것인데, 중요한 것은 "어떻게 차원을 잘 낮추느냐" 이다. 즉, 10개의 컬럼의 데이타를 4개 또는 5개만 이용 할 수 있다.

(PCA는 선형대수를 좀 공부한 후에 정리를 해야겠네요...라이브러리만 쓰면 뭐 별게 아닌데... 왜 그럴까까지 따져 들어가려니..... 결국에 수학...... 고등수학에 머신러닝때문에 선형대수가 교과에 들어갔다고 하는데.. 긍정적이면서 불쌍해 보이기도하고...)

가령 우리에게는 아래와 같은 2차원 공간에 데이터들이 있다.
우리의 목표는 이 2차원 공간의 데이터를 1차원 공간의 데이터로 만들어 주는 것이다.
차원 축소의 기본적인 컨셉. 여기에서 우리가 할수 있는 방법은 2가지 인데,

방법1 에서는 차원 x1, x2 에 냅다 데이터를 내려버렸다. 이렇게 할 경우 문제점은 내린 후에 값이 겹치는 데이터들이 많고, 아예 한 차원의 정보는 유실되게 된다.
반면 방법2 에서는 새로운 차원 (화살표) 에 데이터들을 내려줬다. 이렇게 한 결과 데이터들은 방법1에서의 문제를 어느정도 해결하게 된다.
여기서 중요한 것은 데이터들이 겹치지 않게 끔하는 화살표를 찾는 것!!!!

좌측에 사진처럼 2차원 상에서 무수히 다양한 화살표를 그릴 수 있다.
하지만 우리는 그 중 파란색 화살표 처럼 데이터를 해당 화살표에 1차원 으로 내렸을 때 겹치지 않게 하는 화살표를 찾아야 한다. (longest distance)
정리하자면,

수많은 화살표 들 중, 데이터 들을 화살표에 내렸을 때, 데이터가 최대한 안 겹치게, 멀리 퍼지게 하는 길이가 긴 화살표 찾기
거기에 데이터들을 투영
(2차원 이상의 경우 2차원으로 만들고자 한다면)
만약 또 하나의 화살표 만들 때 축 끼리는 직각이 되어야 함, 최대한 데이터가 겹치지 않도록

이를 선형대수학의 관점에서 해석하자면,

공분산 행렬에서 고유 벡터/고유값을 구하고
가장 분산이 큰 방향을 가진 고유벡터(e1) 에 입력데이터를 선형변환
고유벡터(e1) 과 직교하며, e1 다음으로 분산이 큰 e2 고유벡터에 또 선형변환.

1에서 행렬 A의 공분산 행렬의 고유벡터가 데이터가 최대한 안 겹치게, 멀리 퍼지게 하는 길이가 긴 축의 벡터가 된다.(나중에 증명)
2에서 고유값이 가장 큰 것에 매핑되는 고유 벡터(e1)가 1의 고유 벡터 중 데이터의 분산이 가장 큰(데이터가 최대한 안 겹치게, 멀리 퍼지게 하는 길이가 긴) 축의 벡터가 된다.
3에서 2의 벡터와 직교하며 다음으로 고유값이 큰(다음으로 분산이 큰) 벡터(e2)를 찾는다.

PCA에 대해 깔끔하게 정리된 글... 필요성.. 원리는 어떠한지.. (결국 선형대수 T.T)

https://velog.io/@lighthouse97/PCAPrincipal-Component-Analysis

iris를 구분하기 위해서 4개의 컬럼을 2개의 컬럼을 이용해서 분석한다. 분산량이 작은 2개 컬럼을 제거하는 예제가 좋군

https://velog.io/@swan9405/PCA

머신러닝 - PCA (Principal Component Analysis)

1. PCA(Principal Component Analysis) - 주성분 분석이란? 주성분이란 전체 데이터(독립변수들)의 분산을 가장 잘 설명하는 성분을 말한다. 변수의 개수 = 차원의 개수 e.g.) iris 데이터에서, 4개의 독립변인

velog.io

수학적 해석(?)이 있는 자료.. 투영, 편차, covariance

https://ddongwon.tistory.com/114

PCA (Principle Component Analysis) : 주성분 분석 이란?

1. PCA (주성분 분석) PCA는 대표적인 dimensionality reduction (차원 축소)에 쓰이는 기법으로, 머신러닝, 데이터마이닝, 통계 분석, 노이즈 제거 등 다양한 분야에서 널리 쓰이는 녀석이다. 쉽게 말해 PCA

ddongwon.tistory.com

저작자표시

'머신러닝 > 혼공 머신러닝' 카테고리의 다른 글

[혼공머신] 11기 6주가 끝이 났다. (2)	2024.02.08
[혼공머신] 6주차 딥러닝 (1)	2024.02.06
[혼공머신] 4주차 트리 알고리즘 (2)	2024.01.31
[번외] Encoding의 필요성 (0)	2024.01.31
Resources (0)	2024.01.31

[혼공머신] 4주차 트리 알고리즘

좋아좋아브라이언 2024. 1. 31. 23:49

2024. 1. 31. 23:49

decsion tree 알고리즘이 feature를 선택하여 분류하는지 따라가다보니 모델의 cost func()까지 찾아가보게 되었군요...

이번주 궁금한 것이 decision tree에서 분명 수식으로 계산된 값은 틀린것이 없는데 model 학습된 tree와 일치하지 않는 것이 있습니다. 소스와 데이타를 공유하니.. 무엇이 잘못되었는지 뎃글 공유해 주시면....감사하겠습니다.

(직접 계산하면 첫번째 노드가 날씨부터 분류, model의 첫번째 노드는 습도부터 분류합니다. 계산으로 유도된 노드인 날씨가 맞는것 같은데... 모델은 왜 습도를 먼저 선택했을까가 궁금합니다. 데이타 변환이 잘못된것인가 하는 의심이 듭니다만..)

One-Hot Encoding의 필요성을 느낍니다..

https://hoyokin.tistory.com/33

의사결정트리(Decision Tree)란?

의사결정트리는 일련의 분류 규칙을 통해 데이터를 분류, 회귀하는 지도 학습 모델 중 하나이며,
결과 모델이 Tree 구조를 가지고 있기 때문에 Decision Tree라는 이름을 가집니다.
아래 그림을 보면 더 쉽게 이해가 가능합니다.

위 그림은 대표적인 의사결정트리의 예시로서, 타이타닉호의 탑승객의 생존여부를 나타내고 있습니다.
이렇게 특정 기준(질문)에 따라 데이터를 구분하는 모델을 의사 결정 트리 모델이라고 합니다.
한번의 분기 때마다 변수 영역을 두 개로 구분합니다.
결정 트리에서 질문이나 정답은 노드(Node)라고 불립니다.
- 맨 처음 분류 기준을 Root Node라고 하고
- 중간 분류 기준을 Intermediate Node
- 맨 마지막 노드를 Terminal Node 혹은 Leaf Node라고 합니다.
- 결정 트리의 기본 아이디어는, Leaf Node가 가장 섞이지 않은 상태로 완전히 분류되는 것, 즉 복잡성(entropy)이 낮도록 만드는 것입니다.

지니불순도 높다 = 0.5 = 많이 섞여있다, 지니불순도가 낮다 = 0 = 분류가 잘되어 있다.

주어진 문제들은 n개의 feature가 주어지고, 어떤 class에 속하는지를 decision tree model이용
decision tree는 feature를 어떻게 tree를 만들까? Gini, Entrypy를 이용함
GiNI 계수 확인하기
- length, width라는 2개의 feature로 세토사,버시컬러,버지니카 3개 class 분류 예제
- 아래 그림은 model이 제공하는 tree임... 각 node의 gini 계수를 구할 수 있어야 함.
- 지니 계수 $$ G_i = 1 - \sum_{k=1}^K (p_{i,k})^2 $$
- $$ p_{i,k} $$ 는 i 번째 노드에 있는 훈련 샘플 중 클래스 k에 속한 샘플의 비율, K는 클래스의 총 개수
- gini = 0.168 = $$ 1 - (p_{2,세토사}) ^2 -(p_{2,버시컬러}) ^2 - (p_{2,버지니카}) ^2 $$ = $$ 1- (0/54)^2 - (49/54)^2 - (5/54)^2 $$

그러면 어떻게 decision tree는 분류 할까? 아래 비용함수를 최소화 하는 feature $ k $ 와 해당 특성의 임계값 $ t_k $를 결정해서 분할하는 과정을 반복한다.
- $ m, m_{left}, m_{right} $ : 각각 부모와 왼쪽, 오른쪽 자식 노드에 속한 샘플 개수
- $ G_{left}, G_{right} $ : 각각 왼쪽, 오른쪽 사식 노드의 지니 불순도
- $$ J(k,t_k) = \frac{m_{left}}{m}G_{left} + \frac{m_{right}}{m}G_{right} $$
- 간단한데.. 인터넷에 돌아다니는 아래 예제를 꼬오옥 확인하자!!!
  - 지니계수로 비용함수를 최소화 하는 예제(중간쯤나이,수입,학생여부,신용등급에따른 컴퓨터구입여부)
    - https://leedakyeong.tistory.com/entry/%EC%9D%98%EC%82%AC%EA%B2%B0%EC%A0%95%EB%82%98%EB%AC%B4Decision-Tree-CART-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-%EC%A7%80%EB%8B%88%EA%B3%84%EC%88%98Gini-Index%EB%9E%80
  - Entryp로 node를 결정하는 예제( 중간쯤테니스 경기 참가여부)
    - https://wooono.tistory.com/104

의사결정트리(Decision Tree) - 분할 실습

https://wooono.tistory.com/104 예제를 통해 손으로 계산 해보자!!!
손으로 계산을 하면 날씨부터 분류를 해야 한다. 모델로 학습을 하면 습도부터 분류를 한다... 소스코드를 제공하니 무엇이 잘못되었는지 확인부터!!

blog의  계산된 불손도 값을 엑셀로 확인... 블로그 불순도 정상!!

사이킷의 결과, 첫번째가 날씨가 아닌 습도로 분류를 한다.. 왜 일까??

교차 검증

수능 시험을 보기 위해 학습하고, 모의 고사 시험을 몇 번 보고, 한번의 수능을 본다,
머신러닝에서도 학습 후 에 바로 시험을 볼 것이 아니라, 모의 고사를 보면 학습이 잘 될 것이다. 교차 검증은 모의 고사에 해당
일반화 성능이 높은 모델을 훈련시키기 위해 많이 사용되는 방식 중 하나가 교차 검증cross validation이다. 교차 검증은 훈련 데이터셋의 일부인 검증 셋validation set을 이용하여 훈련 과정중에 훈련 중인 모델의 일반화 성능을 검증하는 기법이며, 이를 통해 일반화 성능이 높은 모델을 훈련시키도록 유도한다.

테스트 데이터를 다르게 설정할 때마다 학습 데이터의 구성도 당연히 달라집니다. (위 그림에서 하얀색 칸 위치가 달라질 때마다 주황색 칸의 구성도 달라지고 있는게 보이죠.) 약간씩 다른 구성의 학습 데이터로 학습하는 모델이 총 k번 돌아가게 되는 셈이죠! 모델이 총 k번 돌아갔으니 결과물도 총 k개 나오게 되는 겁니다. 그리고 이 k개의 결과물들의 평균값이 K겹 교차 검증 방식을 활용한 모델의 성능이 되는 거죠!.

앙상블

앙상블 기법 Ensemble Learning 이란 여러 개의 개별 모델을 조합하여 최적의 모델로 일반화하는 방법입니다. weak classifier 들을 결합하여 strong classifier 를 만드는 것입니다. decision tree 에서 overfitting 되는 문제를 앙상블에서는 감소시킨다는 장점이 있습니다.

대표적으로 Random Forest 모델이 있습니다.

https://medium.com/dawn-cau/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%95%99%EC%83%81%EB%B8%94-%ED%95%99%EC%8A%B5-%EC%9D%B4%EB%9E%80-cf1fcb97f9d0

[머신러닝] 앙상블 학습 이란

앙상블 기법 Ensemble Learning 이란 여러 개의 개별 모델을 조합하여 최적의 모델로 일반화하는 방법입니다.

medium.com

저작자표시

'머신러닝 > 혼공 머신러닝' 카테고리의 다른 글

[혼공머신] 6주차 딥러닝 (1)	2024.02.06
[혼공머신] 5주차 비지도 학습 (0)	2024.02.03
[번외] Encoding의 필요성 (0)	2024.01.31
Resources (0)	2024.01.31
[번외] Pandas 함수의 axis 파라미터 정리 (0)	2024.01.31

[번외] Encoding의 필요성

좋아좋아브라이언 2024. 1. 31. 23:39

2024. 1. 31. 23:39

이전 Decision Tree를 정리하면서 분명 수식으로 계산된 값은 틀린것이 없는데 model 학습된 tree와 일치하지 않는 것이 있습니다. 결론은 데이타를 One-Hot-Encoding해야 하는 군요.. Label Encoding을 한것이 문제였습니다.

Encoding의 필요성은 문제를 다시 정리 해보죠..

필요성을 느끼니 또 Encoding에 대해서 공부를 해야 겠군요..이건 나중에..

1. 해결하고자 하는 문제

데이타는 아래 표와 같고, Entropy 방식으로 풀어 나가면 오른쪽 Tree와 같습니다. Tree의 노드가 날씨부터 시작합니다.

위의 표를 데이타로 활용하면.. 아래와 같은 에러가 발생합니다.

{
"name": "ValueError",
"message": "could not convert string to float: '맑음'",

.....

}

2. Label Encoding으로 전처리 후 Decision Tree 작성의 문제

데이타를 변환해야 합니다. 날씨 컬럼의 맑음, 흐림, 비의 값을 0, 1,2 로 변환합니다. 온도, 습도, 바람 컬럼의 문자열을 적당한 숫자로 변환합니다.

입력 데이타는 아래 표와 같이 만듦니다. Decision Tree를 만들었더니, Tree의 노드가 습도부터 시작합니다.

손으로 풀어간 1)의 Tree는 날씨부터 시작하는데, 아래 트리는 습도부터 시작합니다. 맘에 안듭니다.

3. One-Hot Encoding으로 전처리 후 Decision Tree 작성

1)에서 사용된 데이타를 판다스의 get_dummies()함수를 이용하여 전처리를 합니다.사용된 코드는 아래와 같습니다.

import pandas as pd

df = pd.read_excel('tennis2.xlsx')

data = df.iloc[:,0:4]

target = df.iloc[:,4]

#one-hot Encoding

df_enc_one_hot = pd.get_dummies(data)

df_enc_one_hot

전처리된 데이타는 아래 표와 같습니다. 날씨컬럼이 날씨_맑음, 날씨_비,날씨_흐림으로 생성이 됩니다. 이 데이타로 Decision Tree를 만들었더니 날씨로 시작하는 것을 볼 수 있습니다.

첨부 사용된 코드와 데이타

데이타와 코드를 공유 합니다.

'머신러닝 > 혼공 머신러닝' 카테고리의 다른 글

[혼공머신] 5주차 비지도 학습 (0)	2024.02.03
[혼공머신] 4주차 트리 알고리즘 (2)	2024.01.31
Resources (0)	2024.01.31
[번외] Pandas 함수의 axis 파라미터 정리 (0)	2024.01.31
[혼공머신] 3주 4장 다양한 분류 알고리즘 (1)	2024.01.22

Resources

좋아좋아브라이언 2024. 1. 31. 15:44

2024. 1. 31. 15:44

github-git-cheat-sheet.pdf

0.39MB

Python Cheat Sheet - The Basics Coursera.pdf

6.11MB

Scikit_Learn_Cheat_Sheet_Python.pdf

0.14MB

Keras_Cheat_Sheet_gssmi8.pdf

5.79MB

numpy cheat sheet.pdf

4.79MB

Pandas_Cheat_Sheet.pdf

0.38MB

css_cheat_sheet.pdf

0.37MB

기초 선형수학

https://angeloyeo.github.io/2019/07/27/PCA.html

tistory에서 수식 사용하기

설정 하기 : https://kosb.tistory.com/49

티스토리 수학기호 입력하는 방법

Math Jax 사용 방법 블로그 포스팅을 하다 보면 수학 기호들을 입력할 필요가 있습니다. 하지만 티스토리에는 수식 입력기가 없습니다. 그래서 수식을 입력하기 위해 MathJax를 이용해보겠습니다.

kosb.tistory.com

수식 https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:TeX_%EB%AC%B8%EB%B2%95

저작자표시

'머신러닝 > 혼공 머신러닝' 카테고리의 다른 글

[혼공머신] 4주차 트리 알고리즘 (2)	2024.01.31
[번외] Encoding의 필요성 (0)	2024.01.31
[번외] Pandas 함수의 axis 파라미터 정리 (0)	2024.01.31
[혼공머신] 3주 4장 다양한 분류 알고리즘 (1)	2024.01.22
[혼공 머신] - 3주 Ch3 회귀 알고리즘과 규제 (0)	2024.01.12

[번외] Pandas 함수의 axis 파라미터 정리

좋아좋아브라이언 2024. 1. 31. 14:46

2024. 1. 31. 14:46

axis는 판다스의 apply(), drop(), concat()등의 많은 판다스 함수의 인자로 사용이 된다. 인자에 사용되는 0 이 행, 가로, 세로, 열에 적용되는지 헷갈린다. 한번 정리하는 시간을 갖자!!

1. 용어 정리 부터

사용되는 용어가 많이 나온다.. 근데.. 용어 정리가 안되면, 읽고 나면 또 헷갈린다. ㅋㅋ

0 = 행 = row= 가로 = 데이타

1 = 열 = column = 세로 = feature, 속성

(행렬... 수학시간에 배운 내용이 기억이 안나더라도.. 행렬은 단어는 익숙하다.

행렬에서 행이 먼저 나오므로 0, 렬=열이 나중에 나오므로 1로 기억하자..어쩔수 없다...)

2. 판다스 함수에서의 행과 열

axis=0 means along "indexes". It's a row-wise operation.

axis=0은 행, axis=1은 열이라고 무조건 외우고, 함수에 따라 2가지가 반영이 된다.

적용 방향을 나타난다. (.drop(),concat()등)
결과를 나타나는 방향이다. (.apply(),sum() 함수등)

정도는 없는 것 같다.. axis 파라미터 사용 함수를 익힐때마다... 나름의 규칙을 생각하는 수 밖에..

2.1 적용 방향 (기본)

2.1.1 concat(axis=0)

두 테이블의 합치는 concat()는 axis=0, 1을 사용할 수 있다.

아래 예는 하나의 테이블을 기준 잡고, 다른 테이블의 행을 연결한다. 행을 적용 해야 하니... axis=0으로 설정한다.

2.2.2 drop(axis=0)

행을 삭제할때는 axis=0, 열을 삭제할때는 axis=1이다.

2.2 결과 방향

appy() 함수와 같이 axis=0을 설정하면 결과가 행으로 생성이 된다. 아래와 같이 행에 sum을 생성하기 위해서는 컬럼들의 sum을 구하게 된다.

axis=0, 결과는 행으로 생성 (행으로 생성하기 위해 컬럼들을 이용!!)

참고한 자료들

https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/index.html

Getting started tutorials — pandas 2.2.0 documentation

pandas.pydata.org

https://hogni.tistory.com/49

[파이썬 pandas] 판다스 매개변수 axis의 의미를 알아보자

판다스를 사용하다 보면 평균 계산, 데이터프레임 열이나 행 삭제 작업등을 할 때 axis(축)을 지정해야 합니다. 축을 넣어야 할 때면 0을 넣어야 하는지 1을 넣어야 하는지 헷갈릴 수 있습니다. 이

hogni.tistory.com

저작자표시

'머신러닝 > 혼공 머신러닝' 카테고리의 다른 글

[번외] Encoding의 필요성 (0)	2024.01.31
Resources (0)	2024.01.31
[혼공머신] 3주 4장 다양한 분류 알고리즘 (1)	2024.01.22
[혼공 머신] - 3주 Ch3 회귀 알고리즘과 규제 (0)	2024.01.12
[혼공머신] 1주차_머신러닝 (1)	2024.01.05

[혼공머신] 3주 4장 다양한 분류 알고리즘

좋아좋아브라이언 2024. 1. 22. 00:39

2024. 1. 22. 00:39

로지스틱 회귀(이진분류, 다항분류)를 모델이 제공하는 절편과 기울기로 z 값을 구하고, sigmod(), softmax()를 이용해서 확률 값을 직접 구해 보면서 깊게 공부를 하였군요.

(softmax 정의시 np.sum() 대신 sum()을 사용하여 왜 안되나 고민하였는데.. 혼공머신에서 질문올리고 답변을 받아서 해결을 했네요... 질문을 하고 질문을 받아 줄 수 있는 환경이 좋아요 ^^)

학습한 모델이 기울기와 절편을 제대로 제공한다면 테스트 데이타를 잘 예측할 수 있을 것 같군요. 어떻게 잘 기울기와 절편을 찾을까?? 에러 코스트를 낮게 찾아야 하고 경사하강법을 사용한다...

혼공머신 4장을 참고하였습니다.

https://hongong.hanbit.co.kr/%ED%98%BC%EC%9E%90-%EA%B3%B5%EB%B6%80%ED%95%98%EB%8A%94-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%94%A5%EB%9F%AC%EB%8B%9D/

혼자 공부하는 머신러닝+딥러닝

혼자 공부하는 머신러닝 딥러닝, 무료 동영상 강의, 머신러닝+딥러닝 용어집을 다운로드 하세요. 포기하지 마세요! 독학으로 충분히 하실 수 있습니다. ‘때론 혼자, 때론 같이’ 하며 힘이 되겠

hongong.hanbit.co.kr

4.1 다항 분류

이진분류 (0 또는 1, 1장에서처럼 빙어/도미 분류)를 학습하고 확장된 3개 이상 분류 기법을 다룬다
KNN, 로지스틱 회귀를 학습함.

4.2 해결할 문제

7종의 물고기에서 어떤 특성 (Test Data)가 주어질 떄 어떤 물고기에 속할까
7종의 물고기 종류 ['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']
데이타 특성은 5개이다.
- Weight,Length,Diagonal,Height,Width
데이타 샘플

Species Weight Length Diagonal Height Width

0 Bream 242.0 25.4 30.0 11.5200 4.0200

1 Bream 290.0 26.3 31.2 12.4800 4.3056

2 Bream 340.0 26.5 31.1 12.3778 4.6961

3 Bream 363.0 29.0 33.5 12.7300 4.4555

4 Bream 430.0 29.0 34.0 12.4440 5.1340

4.3 KNN

이웃을 선택하고 (k=1,3,5) 선택된 이웃과 가까운 거리에 있는 것을 선택
그림은 2개의 feature로 3개의 class (원, 세모, 네모)로 분류. 책은 5개 특성, 7개 class

4.3.1 KNN 모델

KNN 모델도 일반적인 머신러닝 모델과 같이 학습,평가,예측을 한다.

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

#모델 선택

kn = KNeighborsClassifier(n_neighbors=3)

#모델 학습

kn.fit(train_scaled, train_target)

#모델 평가

print(f'Test Score : {kn.score(test_scaled,test_target)}')

#모델 예측

y_pred = kn.predict(test_scaled)

print(f"Predict 5 Items: {kn.predict(test_scaled[:5])}")

# 정확도 계산

acc = accuracy_score(test_target,y_pred)

print(f'accuracy: {acc}')

85% 정확도로, Test Data 5개를 잘 분류 하였다.

Test Score : 0.85

Predict 5 Items: ['Perch' 'Smelt' 'Pike' 'Perch' 'Perch']

accuracy: 0.85

4.3.2 KNN 예측 결과는 어떻게 산출되었을까?

predict()은 class 값을 전달한다. predict_proba()는 class의 확률값을 전달한다.

예제 5개의 sample을 예측할 때, predict_proba()는 5개의 class에 속할 확률을 나타낸다.

predict() class에 속할 확률 속에서 높은 class를 선택한다.

첫번째 sample data(빨간색)는 Perch가 선택이 되었다. Perch의 확률은 0.66이고, Roach는 0.33이다. 높은 Perch로 선택했다.

즉, Pearch로 판정을 했지만, 100%가 아닌 66%로 확률로 판정을 했다. 모든 데이타를 100% 판정한다는 것은 가능할까? 오류를 인정해야 한다.

import pandas as pd

import numpy as np

proba = kn.predict_proba(test_scaled[3:8])

df = pd.DataFrame(data=np.round(proba, decimals=4),columns=kn.classes_)

df['Predict'] = kn.predict(test_scaled[3:8])

print(df)

Bream Parkki Perch Pike Roach Smelt Whitefish Predict

0 0.0 0.0 0.6667 0.0 0.3333 0.0 0.0 Perch

1 0.0 0.0 0.6667 0.0 0.3333 0.0 0.0 Perch

2 1.0 0.0 0.0000 0.0 0.0000 0.0 0.0 Bream

3 0.0 0.0 0.0000 0.0 0.0000 1.0 0.0 Smelt

4 0.0 0.0 0.3333 0.0 0.6667 0.0 0.0 Roach

4.4 로지스틱 회귀

선형 방정식을 학습하지만, 방정식의 연속될 결과값을 분류= 카타고리=클라스로 표현한다.
클라스가 2개인 경우 선형 방정식의 결과 값을 sigmod() 함수를 클라스의 확률을 구하고 확률에 따라 이진 분류한다.
클라스가 3개 이상인 경우 각 클라스의 수 만큼 선형 방정식의 값이 계산되고, SoftMax()로 각 클라스의
로지스틱은 2개 클라스(=카타고리)를 분류, SoftMax회귀는 3개 이상 클라스를 분류
선형 방정식을 학습하므로 연속형 값이 나오며, 이를 클라스로 매핑해야 한다.
로지스틱은 선형 방정식의 값(z)을 sigmod 함수와 threadhold에 따라 클라스를 구분
SoftMax은 선형 방적식의 값(z)가 클라스 수 만큼 산출이 되고, softmax에 의해 각 클라스의 확률을 산출한다. 최종 확률이 높은 것을 선택한다.

4.4.1 로지스틱 모델 (멀티클라스)

로지스틱 모델도 일반적인 머신러닝 모델과 같이 학습,평가,예측을 한다.

#모델 선택

lr = LogisticRegression(C=20, max_iter=1000)

#모델 학습

lr.fit(train_scaled, train_target)

#모델 평가

print(f'Train Score : {lr.score(train_scaled, train_target)}')

print(f'Test Score : {lr.score(test_scaled, test_target)}')

#모델 예측

y_pred = lr.predict(test_scaled)

#정확도 계산

acc = accuracy_score(test_target,y_pred)

print(f'accuracy: {acc}')

실행 결과

Train Score : 0.9327731092436975

Test Score : 0.925

accuracy: 0.925

4.4.2 로지스틱 모델(멀티클라스)은 어떻게 Test data로 예측할까?

학습에 의해 클래스 숫자만큼 기울기와 한개의 절편을 구한다.
예측데이타와 (구한)기울기로 클래스 숫자만큼 z 값을 구한다.
(멀티class인경우) maxsoft로 각 클래스의 확률을 구한후, 확률이 가장 큰 클라스를 선택한다.
(binaryclass인경우) sigmod로 2개의 클래스의 확률을 구한후, 확률이 가장 큰 클라스를 선택한다.

test 데이타 1개를 이용하여 기울기와 절편, SoftMax를 이용하여 클라스별 확률을 구한다.

test 데이타는 일때
- [-0.88741352 -0.91804565 -1.03098914 -0.90464451 -0.80762518]
모델 학습에 의한 기울기와 절편으로 클라스별 z값을 구한다.
- [-6.5 1.03 5.16 -2.73 3.34 0.33 -0.63]
z값들에 대한 확률
- Class 별 확률값
  
  Bream Parkki Perch Pike Roach Smelt Whitefish
  
  0 0.0 0.014 0.841 0.0 0.136 0.007 0.003

#예측할 데이타

print(f'예측할 Feature {test_scaled[:1]},정답 {test_target[:1]}')

#학습으로 예측한 값

print(f'학습으로 예측한 값 : {lr.predict(test_scaled[:1])}')

#학습으로 구한 기술기와 절편의 크기

print(f'학습으로 구한 기술기 크기 : {lr.coef_.shape}, 절편의 크기 {lr.intercept_.shape}')

#sklearn lib으로 구한 z 값들

decision = lr.decision_function(test_scaled[:1])

print(f'sklearn 제공 class별 z 값 : {np.round(decision, decimals=2)}')

#직접 z 값을 구한다. 기울기와 절편을 이용한다.

my_data = np.dot(lr.coef_ , test_scaled[:1].reshape(5,-1))

my_data = my_data.reshape(1,-1) +lr.intercept_

my_data = np.round(my_data,decimals=2)

print(f'직접 계산한 class별 z 값 : {my_data}')

from scipy.special import softmax

# 각 Class별 z 값들에 대한 Softmax로 확률을 구한다.

proba = softmax(decision, axis=1)

proba = np.round(proba, decimals=3)

df = pd.DataFrame(data=proba, columns=lr.classes_)

print('Class 별 확률값 Using SoftMax Lib')

print(df)

#SoftMax를 직접 정의하여 확률을 구해보자.

myProba = np.exp(decision)/np.sum(np.exp(decision))

myProba = np.round(myProba,decimals=3)

df1 = pd.DataFrame(data=myProba, columns=lr.classes_)

print('\nClass 별 확률값 Defining SoftMax func()')

print(df1)

수행 결과

예측할 Feature [[-0.88741352 -0.91804565 -1.03098914 -0.90464451 -0.80762518]],정답 ['Perch']

학습으로 예측한 값 : ['Perch']

학습으로 구한 기술기 크기 : (7, 5), 절편의 크기 (7,)

sklearn 제공 class별 z 값 : [[-6.5 1.03 5.16 -2.73 3.34 0.33 -0.63]]

직접 계산한 class별 z 값 : [[-6.5 1.03 5.16 -2.73 3.34 0.33 -0.63]]

Class 별 확률값 Using SoftMax Lib

Bream Parkki Perch Pike Roach Smelt Whitefish

0 0.0 0.014 0.841 0.0 0.136 0.007 0.003

Class 별 확률값 Defining SoftMax func()

Bream Parkki Perch Pike Roach Smelt Whitefish

0 0.0 0.014 0.841 0.0 0.136 0.007 0.003

4.4.3 로지스틱 모델 (바이너리클라스)

데이타 분류값이 2개만 다를뿐이지 모델 학습 방법,평가, 예측은 멀티클라스와 동일하다.
멀티 클라스는 각각의 클라스의 z 값을 구하고, 클라스별 확률을 구했지만, 바이너리클라스는 1개(양성클라스)의 z값과 확률만 구하고 다른 1개(음성클라스는)의 확률은 1에서 뺴준다 .. (음성,양성 클라스 확률의 합계는 1이다.)

from sklearn.linear_model import LogisticRegression

#모델선택

lr = LogisticRegression()

#모델학습

lr.fit(train_bream_smelt, target_bream_smelt,)

#모델평가

print(f'Train Score : {lr.score(train_bream_smelt, target_bream_smelt)}')

#모델예측 ,,,학습에 사용된 데이타를 예측하는 것은 좋은 방법은 아니다.

y_pred=lr.predict(train_bream_smelt[:1])

print(f'이진분류의 category {lr.classes_}')

print(f'예측할 데이타 {train_bream_smelt[:1]} 예측결과 {y_pred}')

실행결과

Train Score : 1.0

이진분류의 category ['Bream' 'Smelt']

예측할 데이타 [[0.91965782 0.60943175 0.81041221 1.85194896 1.00075672]] 예측결과 ['Bream']

4.4.4 로지스틱 모델(바이너리클라스)은 어떻게 Test data로 예측할까?

실행결과를 보면 예측할 데이타로 Bream을 예측하였다. lib가 제공하는 predict_proba()의 결과는 클라스별 확률을 구하고, 높은 확률인 클라스를 선택하는 알고리즘이다.
음성 클라스 확률과 양성 클라스 확률의 합을 구해 보고 1이 되는 것을 확인할 수 있다.

bin_test_data = lr.predict_proba(train_bream_smelt[:1])

bin_df = pd.DataFrame(columns=lr.classes_,data= bin_test_data)

bin_df['sum of prob'] = bin_df['Bream'] + bin_df['Smelt']

bin_df

Bream Smelt sum of prob

0 0.997599 0.002401 1.0

모델이 학습한 기울기와 절편으로 확률을 직접 구해보자!!
- z 값을 test 데이타 * 기울기 + 절편으로 구한다.
- z 값을 sigmod 함수로 0~1 사이의 값을 구한다. 이 값은 양성 클라스의 확률이 된다. 음성 클라스의 확률을 1을 뺴준다.

# 모델 학습으로 산출된 기울기와 절편으로 확률을 구해보자

print(f'기울기 {lr.coef_} 절편 { lr.intercept_}')

print(f'예측할 데이타 {train_bream_smelt[:1]}')

#sklearn lib으로 구한 z 값

bin_lib_z = lr.decision_function(train_bream_smelt[:1])

print(f'sklearn 제공 z 값 : {bin_lib_z}')

# z값을 기울기와 절편으로 구하자

test_data = train_bream_smelt[:1].reshape(5,1)

my_data = np.dot(lr.coef_,test_data) + lr.intercept_

print(f'직접 계산한 z 값 : {my_data}')

# z값을 0~1 값으로 변환한다 이진분류에서는 sigmod 함수를 사용한다.

prob1 = 1 / (1+ np.exp(-bin_lib_z))

print(f'양성의 확률 : {prob1}')

print(f'양성인 확률 : {expit(bin_lib_z)}')

print(f'음성인 확률 {1-prob1}')

===== 실행 결과 =========

기울기 [[-0.4037798 -0.57620209 -0.66280298 -1.01290277 -0.73168947]] 절편 [-2.16155132]

예측할 데이타 [[0.91965782 0.60943175 0.81041221 1.85194896 1.00075672]]

sklearn 제공 z 값 : [-6.02927744]

직접 계산한 z 값 : [[-6.02927744]]

양성의 확률 : [0.00240145]

양성인 확률 : [0.00240145]

음성인 확률 [0.99759855]

저작자표시

'머신러닝 > 혼공 머신러닝' 카테고리의 다른 글

Resources (0)	2024.01.31
[번외] Pandas 함수의 axis 파라미터 정리 (0)	2024.01.31
[혼공 머신] - 3주 Ch3 회귀 알고리즘과 규제 (0)	2024.01.12
[혼공머신] 1주차_머신러닝 (1)	2024.01.05
[0] 진도 계획 (0)	2023.12.30

PREV 이전 1 2 NEXT 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`