Photo by Unsplash
“옛날 데이터는 이제 못 써요.”
AI 업계에서 가끔 듣는 말인데요. 몇 년 전에 공들여 만든 학습용 데이터도, AI 기술이 너무 빨리 바뀌다 보니 어느 순간 구닥다리가 돼버리는 경우가 많았거든요.
그런데 과기정통부가 여기서 재미있는 아이디어를 냈어요. “버리지 말고, 고쳐 쓰자” — 말 그대로 데이터 업사이클링이에요.
무슨 일이 있었나요
과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 5월 6일, ‘AI 학습용 데이터 업사이클링’ 사업을 본격화한다고 밝혔어요.
무슨 사업이냐면요. AI 허브(AI Hub)에 쌓여 있는 691종의 기존 학습용 데이터를 최신 생성형 AI 환경에 맞게 재가공하는 거예요.
원래 이 데이터들은 ‘판별형 AI’ 시대에 만들어진 거라서, 단순히 “이 사진은 고양이다 / 개다” 같은 분류(labeling) 위주였어요. 그런데 지금은 챗GPT 같은 생성형 AI가 대세가 됐잖아요. 생성형 AI를 학습시키려면 단순 라벨이 아니라 추론·행동 정보가 포함된 데이터가 필요해요.
과기정통부는 이 691종의 데이터를 생성형 AI가 이해할 수 있는 형태로 업그레이드해서, 국내 기업·연구소·스타트업이 LLM(거대언어모델)과 피지컬AI 개발에 활용할 수 있도록 개방한다는 계획이에요.
자세히 들여다보면 — 숫자, 발언, 기술 포인트
691종. 생각보다 엄청나게 많죠? AI 허브는 그동안 정부 주도로 방대한 학습 데이터를 축적해 온 국내 최대 AI 데이터 플랫폼이에요. 그런데 이 데이터 상당수가 ‘옛날 AI’ 기준으로 만들어져서, 최신 생성형 AI에는 그대로 쓰기 어려운 상태였어요.
이걸 어떻게 바꾸냐면 — 예를 들어 예전에는 “이 이미지에는 책상, 의자, 컴퓨터가 있다” 정도의 라벨만 달았다면, 이제는 “이 사무실에서는 어떤 작업이 이뤄지고 있고, 어떤 상황인지” 같은 맥락 정보까지 추가해서 데이터를 확장하는 식이에요.
흥미로운 건 이 사업이 피지컬AI까지 겨냥하고 있다는 점이에요. 피지컬AI는 로봇이나 자율주행차처럼 실제 물리적 세계에서 작동하는 AI를 말하는데, 이런 AI를 학습시키려면 더 풍부한 상황 데이터가 필요하거든요.
과기정통부는 이번 달부터 사업 공고를 내고, 연내에 주요 데이터셋의 업사이클링을 완료한다는 목표예요. 민간 기업들도 이 데이터를 무료로 활용할 수 있어서, 특히 데이터가 부족한 AI 스타트업들한테는 꽤 쏠쏠한 소식이 될 거 같아요.
이게 우리한테 어떤 의미일까요
솔직히 이 얘기를 처음 들었을 때 “데이터 업사이클링? 좀 생소한데?” 싶었어요. 그런데 생각해보면 되게 당연한 발상이더라고요.
한국은 그동안 AI 데이터 구축에 꽤 많은 예산을 쏟아부었어요. 그 데이터가 구식이 됐다고 그냥 버리기엔 너무 아까운 자산이죠. 이걸 최신 AI에 맞게 다시 살려내는 건 예산도 아끼고, 국내 AI 생태계에도 직접적으로 도움 되는 영리한 선택이라고 느껴져요.
더 눈여겨볼 건 시점이에요. 지금 한국은 ‘독자 AI 파운데이션 모델’ 프로젝트(독파모)를 국가적으로 밀고 있잖아요. 국산 AI 모델을 만드는 데 필요한 양질의 학습 데이터를 정부가 직접 공급하겠다는 건, 결국 AI 주권을 위한 밑작업이라고도 볼 수 있겠죠.
691종의 묵은 데이터가 어떻게 새 옷을 입고 돌아올지, 조금 기대되지 않나요?
- 원문: 뉴시스 — “정부, ‘AI 데이터 업사이클링’ 착수…생성형 AI용으로 데이터 재가공” (2026-05-06)
- 보조: ZDNet Korea — “과기정통부, 묵혀둔 AI 데이터 생성형 AI용으로 되살린다” (2026-05-06)
- 작성: sw4u 9시뉴스 안나영 / 2026-05-07 09:00