AI나루

지도학습 (Supervised Learning)

입력 데이터와 정답을 함께 학습해 예측 모델을 만드는 AI 학습 방식

Key points

  • AI가 정답이 표시된 데이터를 기반으로 입력과 출력의 관계를 학습하는 방식
  • 분류·예측 등 명확한 목표가 있는 문제 해결에 사용

지도학습이란?

지도학습은 AI가 정답이 표시된 데이터(레이블)를 기반으로 입력과 출력의 관계를 학습하는 방식입니다. 사람이 미리 정해준 기준에 따라 데이터를 분류하거나 결과를 예측할 수 있도록 훈련되는 구조로, 가장 기본적이고 널리 활용되는 학습 형태입니다. 예를 들어 ‘고양이’·‘개’로 라벨링된 이미지를 학습한 모델은 새로운 사진이 주어졌을 때 어떤 동물인지 스스로 판별할 수 있습니다. 이처럼 지도학습은 입력값과 정답의 짝을 반복적으로 학습하며, 규칙이나 패턴을 일반화해 새로운 데이터에 대한 예측 능력을 키웁니다. 스팸 분류, 음성 인식, 질병 예측, 신용평가 등 정확한 기준이 존재하는 문제에 특히 효과적입니다. 다만 대량의 정답 데이터가 필요하고, 그 품질에 따라 성능이 좌우된다는 점에서 데이터 구축 비용이 크다는 한계가 있습니다. 관련 용어

비지도학습 (Unsupervised Learning)

비지도학습은 정답(레이블)이 없는 데이터를 기반으로 AI가 스스로 패턴이나 구조를 찾아내는 학습 방식입니다. 입력 데이터 간의 유사성, 분포, 군집 관계를 분석해 숨겨진 규칙을 발견합니다. 예를 들어 고객 데이터를 분석해 자연스럽게 구매 성향이 비슷한 집단을 묶는 클러스터링이나, 데이터의 차원을 줄이는 차원 축소 기술이 이에 해당합니다. 비지도학습은 라벨링 비용이 들지 않아 대규모 데이터 분석에 적합하지만, 결과를 해석하기 어렵고 명확한 정답(label)이 존재하지 않는다는 한계가 있습니다.

자기지도학습 (Self-Supervised Learning)

자기지도학습은 정답 레이블 없이도 모델이 스스로 학습 신호를 만들어내는 방식입니다. 데이터의 일부를 가리고 나머지 정보로 이를 예측하도록 훈련하는 등, 입력 데이터 자체에서 학습 과제를 생성해 모델이 패턴을 익히는 구조입니다. 예를 들어 문장에서 특정 단어를 가리고 이를 맞히게 하거나, 이미지 일부를 숨기고 원래 모습을 복원하게 하는 방식이 대표적입니다. 별도의 라벨링 비용 없이 대규모 데이터에서 표현 학습 능력을 키울 수 있어, 최근의 LLM과 비전·멀티모달 모델의 핵심 학습 기법으로 널리 활용되고 있습니다.