정부, AI 학습용 데이터셋 310종 7월말까지 개방한다

김나윤 기자 / 기사승인 : 2023-04-30 12:00:02
  • -
  • +
  • 인쇄
AI허브 회원가입만 하면 누구나 활용가능

인공지능(AI) 학습용 데이터셋 310종이 개방된다. 역대 최대 규모다.

과학기술정보통신부와 한국지능정보사회진흥원은 2022년도에 '인공지능 학습용 데이터 구축사업'을 통해 구축한 학습용 데이터셋 310종을 30일부터 오는 7월말까지 'AI허브'(aihub.or.kr)를 통해 순차 개방한다고 밝혔다.

이 사업은 전문영역부터 일상생활까지 전분야로 확산되고 있는 인공지능 기술개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심데이터 인프라 사업이다. 기업, 연구자, 개발자는 물론 인공지능 개발 등에 관심있는 우리 국민이라면 누구나 'AI허브'를 통해 학습용 데이터를 활용할 수 있다.

과기정통부와 지능정보원은 2020년부터 본격적으로 민간‧공공 수요 등에 맞춰 매년 약 200종의 데이터를 구축해 왔다. 전년도 구축 데이터는 당해연도 품질검증 등을 거쳐 개방하는데, 지금까지 개방된 데이터는 한국어, 이미지‧영상, 헬스케어 등 6대 분야 381종, 약 11억건에 이른다. 지난해 7월에는 190종의 데이터를 개방하면서 'AI허브' 연간 방문자수가 최초로 100만명을 돌파했다.

올해 개방하는 데이터는 310종으로 역대 최대 규모다. 지난해 구축 분야를 6대 분야에서 제조‧로보틱스‧교육‧금융‧스포츠 등의 14대 분야로 확장하면서 사업 규모를 크게 늘렸기 때문이다. 이번에 310종 약 15억건의 데이터 개방을 완료하면 'AI허브' 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.

특히 올해는 대규모 개방인 점을 고려해, 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 먼저 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해보다 3개월 앞당겨진다. 매달 약 80여종 내외를 개방해 7월말까지 전체 310종의 개방을 완료할 계획이다.

이번 1차 개방에는 자연어 기반 질의‧검색‧생성 데이터, 고서(古書)한자‧한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함돼 있다.

한편 'AI허브'에 공개되는 데이터들은 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업‧기관들이 실제 사용하고 있는 인공지능 모델에 직접 데이터를 학습시켜 유효성, 정확성 등을 확인하는 활용성 검토를 받는다. 또한 개방 이후 약 3개월 동안은 사용자들로부터 데이터 품질 요구사항, 오류 등의 의견을 반영해 데이터 품질 제고를 위한 보완 과정을 거칠 예정이다.

엄열 인공지능정책관은 "챗GPT 등 초거대 인공지능의 등장으로 인공지능 산업이 빠르게 발전하고 있다"며 "우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터(지도학습용) 중심의 사업을 개편해 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보해 나갈 예정"이라고 밝혔다.

Copyright @ NEWSTREE All rights reserved.

뉴스트리 SNS

  • 뉴스트리 네이버 블로그
  • 뉴스트리 네이버 포스트
  • 뉴스트리 유튜브
  • 뉴스트리 페이스북
  • 뉴스트리 인스타그램
  • 뉴스트리 트위터

핫이슈

+

ESG

Video

+

ESG

+

[ESG커넥트포럼] 이유진 소장 "탄소중립 2.0 시대...한국은?"

이유진 녹색전환연구소 소장은 "탄소중립 2.0 체제는 이미 시작됐고 우리가 피할 수 없는, 도달해야 할 미래"라며 "탄소중립 목표와 이행에 있어 에너지

'박스피'에 속타는 기업들...축 처진 주가 살리기에 '안간힘'

주요 국가 가운데 유일하게 주식시장이 휘청거리며 맥을 못추고 있는 가운데 기업들이 자사주 소각, 배당성향 높이기 등 일제히 주주가치 제고를 통한

빙그레, 내년 5월 지주사와 사업회사로 인적분할

빙그레가 22일 열린 이사회에서 2025년 5월에 지주회사 '빙그레홀딩스'와 사업회사 '빙그레'로 인적분할하기로 결의했다.분할 후 지주회사는 신규사업투

SPC그룹, 연말 맞아 임직원 물품기증 캠페인 진행

SPC그룹이 연말을 맞아 임직원들이 함께 물품을 기부해 장애인 일자리 창출을 돕는 '기부, GIVE(기브)해' 캠페인을 진행했다.22일 서울 양재동 'SPC1945' 사

'부당대출' 눈감아준 조병규 우리은행장 결국 연임 실패

손태승 전임 회장의 친인척 관련 부당대출을 알고도 눈감아줬다는 의혹에 휩싸인 조병규 우리은행장이 결국 연임하지 못하고 자리에서 물어난다. 22일

화장품 빈병으로 만든 '크리스마스 트리' 노들섬 설치

화장품 빈병으로 만든 크리스마스 트리가 노들섬에 세워졌다.아모레퍼시픽재단은 '다시 보다, 희망의 빛 1332'라는 이름의 공병 트리를 만들어 노들섬

기후/환경

+

[ESG커넥트포럼] 이유진 소장 "탄소중립 2.0 시대...한국은?"

이유진 녹색전환연구소 소장은 "탄소중립 2.0 체제는 이미 시작됐고 우리가 피할 수 없는, 도달해야 할 미래"라며 "탄소중립 목표와 이행에 있어 에너지

[COP29] '1.3조달러' 진통끝 합의...구속력없어 이행여부는 '물음표'

제29차 유엔기후변화협약 당사국총회(COP29)가 2035년까지 신규 기후재원을 연간 1조3000억달러(약 1827조원) 규모로 조성하기로 가까스로 합의했다. 1조3000

'최악 스모그'에 파묻힌 인도 뉴델리..."기후변화로 대기질 더 악화"

인도 뉴델리가 학교까지 문을 닫을 정도로 최악의 스모그가 덮친 원인은 기후변화에서 기인된 것으로 분석됐다.22일 인도매체 타임스오브인디아는 인

[COP29] 1조달러 확보 결국 실패?...기후재원 '텅빈' 합의문 초안

제29차 유엔기후변화협약 당사국총회(COP29)에서 1조달러의 신규 기후재원을 확보하겠다는 목표가 결국 실패로 돌아갈 전망이다. 폐막 하루전 나온 '신

아제르바이잔, COP29.com 도메인 뺏기고 뒤늦게 접속차단

아제르바이잔 바쿠에서 열리고 있는 제29차 유엔기후변화협약 당사국총회(COP29)의 공식 웹사이트 주소가 'COP29.com'이 아닌 'COP29.az'가 된 배경에는 환경

거목이 뿌리째 뽑혔다…'폭탄 사이클론' 美서북부 강타

미국 서북부 지역이 10년에 한번 올까말까한 '폭탄 사이클론'으로 쑥대밭이 됐다. 시속 163㎞에 달하는 초강풍에 거리 곳곳에서 나무들이 뿌리째 뽑히고

에너지

+

순환경제

+

오피니언

+