LLaMA는 facebook META에서 공개한 모델로, 오픈소스라는 특징을 가진다(GPT4나 PaLM2와 같은 모델은 private함). 완전히 공개된 데이터셋만으로 학습된 모델이 SOTA(State-Of-The-Arts) 성능에 도달할 수 있음을 보여주며, LLaMA-13B은 파라미터 차이가 많이 나는 GPT-3(175B) 보다 좋은 성능을 보이기도 하며, LLaMA-65B 모델은 best model들과 견주는 성능을 보여준다. Approaches LLaMA는 Chinchilla의 오픈 소스 모델이라고 생각할 수 있다. 공개된 데이터만을 사용하여 학습되었고, 모델의 성능 안정성과 속도를 위해 이런저런 방법을 사용했다. Pre-training Data Pre-training에는 위와 같은 데이터셋이 사..
ResNet은 Deep Neural Network에서 발생하는 Gradient Vanishing을 해결하기 위해 탄생한 모델링 기법이다. 구현 및 코드는 매우 간단하지만 개념을 알기 쉽게 정리해 봤다! ResNet 논문의 제목은 “Deep Residual Learning for Image Recognition”이다. 논문의 제목처럼 ResNet은 깊은 레이어를 가진 모델의 학습에서 생기는 문제점을 개선하고자 개발된 메커니즘이다. ResNet은 매우 간단하다. 현재 레이어의 출력값에 입력 x를 더해주면 끝이다. 다음 그림을 보면 직관적으로 이해할 수 있을 것이다. 위의 그림처럼 ResNet은 두 개의 레이어를 기준으로 설정할 수도 있고, 한 개로 설정할 수도 있다. 레이어의 구조와 구현은 매우 간단하지만,..