[AITech][Image Classification] 20220221 - EDA&Classification
본 포스팅은 번개장터의 ‘김태진’ 강사 님의 강의를 바탕으로 제작되었습니다.
학습 내용
이번 포스팅에서는 Image Classification task를 진행하기 위한 시작인 EDA와 Image Classification에 대한 이야기를 합니다.
EDA
EDA(Exploratory Data Analysis)
는 말 그대로 탐색적 데이터 분석의 과정으로, 이는 데이터를 이해하기 위한 과정이라고 할 수 있습니다. 저를 포함해서 EDA 과정에 익숙하지 않으신 분들은 처음 EDA를 하고자 하면 무엇을 해야 할 지에 대한 고민이 많으실거라고 생각합니다. 이에 이 강의에서 전달한 주된 인사이트 3가지에 대해 전달하고자 합니다.
- 목적을 정하고 그 목적을 알기 위해 진행합니다. EDA는 의무적인 과정이 아니라, 우리가 데이터에 대해 알기 위해 필요한 자연스럽고, 필연적인 과정입니다. 우리의 목적인 적절한 모델을 만드는 것이고, 적절한 모델을 만들기 위해서는 적절히 데이터를 사용해야 하며, 데이터를 적절히 사용하기 위해서는 올바른 이해가 필요합니다. 우리가 데이터에 대한 의문점을 풀기 위한 자연스러운 과정이라고 생각합시다.
- 단순한 것부터 차근차근 시작합니다. EDA에 능통하신 분들의 notebook을 보면, 유려하고 화려한 코드들, 플롯들이 우리의 눈을 사로잡습니다. 당연히, 처음부터 이와 같이 할 수는 없습니다. 이렇게 하기 위해서는 수많은 EDA 경험, 그리고 그 과정 속에서 정립된 나만의 EDA 방법이 정립되어야 합니다. 처음에는 내가 알고자 하는 부분들을 해소하기 위해 단순하게 생각하고, 점차 익숙해지고 지식이 쌓이면 자연스럽게 더 좋은 EDA를 할 수 있을 것입니다.
- 결국엔 다시 돌아옵니다. EDA는 모델링 과정 전에만 수행하는 과정이 아닙니다. 데이터를 수집하는 과정, 모델링을 하는 과정, 또는 그 외의 과정에서 데이터에 대한 의문점이 생긴다면 그 때마다 계속해서 수행할 수 있습니다.
결국 우리가 EDA를 대하는 자세는, 우리가 데이터에 대해 알고싶은 정보를 얻기 위한 과정이라는 것입니다.
Image Classification
Image
이미지
의 정의는 시각적 인식을 표현한 인공물입니다. 컴퓨터에서는 이미지를 수치값으로 이루어진 텐서로 인식합니다.
Model
이미지 뿐 만이 아니라, 모든 머신러닝 모델을 설계할 때에는 Input과 Output에 대한 정확한 정의를 하는 것이 필요합니다.
그리고 image classification task에 있어서는 다음과 같이 정의할 수 있습니다.
이미지에 대해 이해하고, 모델이 이를 실제로는 어떻게 처리하는지, 그리고 그 과정에서 우리가 이미지 데이터에 대해 알아야 할 정보에는 무엇이 있을지에 대한 고민이 Image Classification Task의 첫걸음입니다.
Leave a comment