티스토리 뷰

Deep Neural Network

 

[ History ]

  · First computational model for neural networks - Warren McCulloch and Walter Pitts (1943)

    : 인공 신경망(Neural Network)의 개념을 처음 제시

    : 뇌 신경세포 작동 방식을 모방한 이진 퍼셉트론 모델 제시

 

  · Perceptron - Rosenblatt (1958)

    : 이진 퍼셉트론을 발전시켜, 더욱 다양한 문제를 해결할 수 있도록 개발.

    : 가중치를 통한 학습이 가능하도록 하며, Gradient Descent를 통해 가중치를 업데이트함.

 

  · Working learning algorithm - Alexey Ivakhnenko and Lapa (1965)

    : 앞선 퍼셉트론에서의 가중치를 자동으로 학습하는 알고리즘 → Backpropagation 알고리즘

    : 현재까지도 딥 러닝에 사용되는 방법.

 

  · The Limits of Perceptron - Minsky and Papert (1969)

    : 당시의 Perceptron은 선형 분리가 불가능한 XOR 연산이 불가능하였기 때문에 실용성이 없다고 주장.

 

  · Deep Learning - Rina Dechter (1986)

    : 처음으로 딥 러닝이라는 용어를 정의.

 

  · Working architectures for computer vision - Kunihiko Fukushima (1980)

    : 인간의 시각 체계에서 영향을 받아 이미지의 패턴 인식을 해결하기 위해 Neocognitron 모델을 설계.

    : 크기나 위치에 민감하지 않고, 데이터의 변화에 대한 강건성(Robustness)을 가지고 있음.

 

  · Convolutional network - Alex Waibel et al. (1987)

    : 이미지 처리에 적합한 CNN(Convolution Neural Network)의 등장.

    : 이미지의 지역적 특징을 추출하고, 이를 조합하여 전체 이미지를 인식하는 방식.

    : 합성곱(Convolution)풀링(Pooling) 연산으로 이루어짐.

 

  · Long short-term memory(LSTM) - Hochreiter and Schmidhuber (1997)

    : 순환 신경망(RNN; Recurrent Neural Network)의 일종.

    : RNN의 한계 중 하나인 기울기 소실(Vanishing Gradient)문제를 해결하기 위해 고안.

 

[ Structure ]

  Perceptron : 인공 신경망의 하나의 셀을 의미.

  Activation Function

    : 활성 함수. 여러 가지 있지만, 보통 Sigmoid나 ReLU를 사용.

    : 사용하는 정확한 이유가 정해진 것이 아닌, 통계적인 이유로 사용.

       ( 지속적으로 사용해왔으며, 이를 사용했을 때 결과가 더 좋았기 때문 )

  Loss Function : 손실 함수. 하나의 데이터 샘플에 대한 오차를 측정하는 함수.

  Cost Function : 비용 함수. 전체 데이터 샘플에 대한 손실의 평균값을 계산하는 함수.

 

[ Batch Algorithm ]

  Batch Algorithm

    : 한 번에 전체 데이터셋을 모두 사용하여 학습하는 방법.

    : 모델의 성능이 높아질 수 있으나, 계산 비용이 매우 높아질 수 있음.

  Mini-Batch Algorithm

    : 전체 데이터셋을 작은 Batch로 쪼개어 처리하는 방법.

    : 전체 데이터셋을 한 번에 처리하는 것 보다 계산 비용이 낮지만, 미니배치마다 노이즈가 있을 수 있음.

  Stochastic Algorithm

    : 전체 데이터셋에서 무작위로 하나의 샘플을 선택하여 모델을 학습하는 방법.

    : 다른 알고리즘에 비해 계산 비용과 적고, 처리 시간이 빠르지만 노이즈가 크게 포함될 수 있음.

    : 일반화 능력에 제한을 줄 여지가 큼.

Batch Algorithm에 따른 Gradient Descent

 

[ Regularization ]

  : 모델이 Overfitting하는 것을 방지하기 위한 방법 중 하나.

  : 모델의 일반화 능력을 향상시키는 방법.

  : BackPropagation에 사용되어 오차를 최소화하는 방향으로 가중치를 업데이트.

 

  · L2 Regularization : 가중치의 제곱합을 최소화하는 방법.

  · L1 Regularization : 가중치의 절대값 합을 최소화하는 방법.

  · Elastic Net : L2와 L1을 같이 사용하는 방법.

 

[ Dropout ]

  : Overfitting을 방지하기 위한 다른 방법 중 하나로, 일부 뉴런을 제거하여 모델의 복잡도를 줄임.

  : Regularization과 함께 사용하여 모델의 일반화 능력을 향상.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함