정부, AI 학습용 데이터셋 310종 7월말까지 개방한다

김나윤 기자 / 기사승인 : 2023-04-30 12:00:02
  • -
  • +
  • 인쇄
AI허브 회원가입만 하면 누구나 활용가능

인공지능(AI) 학습용 데이터셋 310종이 개방된다. 역대 최대 규모다.

과학기술정보통신부와 한국지능정보사회진흥원은 2022년도에 '인공지능 학습용 데이터 구축사업'을 통해 구축한 학습용 데이터셋 310종을 30일부터 오는 7월말까지 'AI허브'(aihub.or.kr)를 통해 순차 개방한다고 밝혔다.

이 사업은 전문영역부터 일상생활까지 전분야로 확산되고 있는 인공지능 기술개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심데이터 인프라 사업이다. 기업, 연구자, 개발자는 물론 인공지능 개발 등에 관심있는 우리 국민이라면 누구나 'AI허브'를 통해 학습용 데이터를 활용할 수 있다.

과기정통부와 지능정보원은 2020년부터 본격적으로 민간‧공공 수요 등에 맞춰 매년 약 200종의 데이터를 구축해 왔다. 전년도 구축 데이터는 당해연도 품질검증 등을 거쳐 개방하는데, 지금까지 개방된 데이터는 한국어, 이미지‧영상, 헬스케어 등 6대 분야 381종, 약 11억건에 이른다. 지난해 7월에는 190종의 데이터를 개방하면서 'AI허브' 연간 방문자수가 최초로 100만명을 돌파했다.

올해 개방하는 데이터는 310종으로 역대 최대 규모다. 지난해 구축 분야를 6대 분야에서 제조‧로보틱스‧교육‧금융‧스포츠 등의 14대 분야로 확장하면서 사업 규모를 크게 늘렸기 때문이다. 이번에 310종 약 15억건의 데이터 개방을 완료하면 'AI허브' 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.

특히 올해는 대규모 개방인 점을 고려해, 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 먼저 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해보다 3개월 앞당겨진다. 매달 약 80여종 내외를 개방해 7월말까지 전체 310종의 개방을 완료할 계획이다.

이번 1차 개방에는 자연어 기반 질의‧검색‧생성 데이터, 고서(古書)한자‧한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함돼 있다.

한편 'AI허브'에 공개되는 데이터들은 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업‧기관들이 실제 사용하고 있는 인공지능 모델에 직접 데이터를 학습시켜 유효성, 정확성 등을 확인하는 활용성 검토를 받는다. 또한 개방 이후 약 3개월 동안은 사용자들로부터 데이터 품질 요구사항, 오류 등의 의견을 반영해 데이터 품질 제고를 위한 보완 과정을 거칠 예정이다.

엄열 인공지능정책관은 "챗GPT 등 초거대 인공지능의 등장으로 인공지능 산업이 빠르게 발전하고 있다"며 "우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터(지도학습용) 중심의 사업을 개편해 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보해 나갈 예정"이라고 밝혔다.

Copyright @ NEWSTREE All rights reserved.

뉴스트리 SNS

  • 뉴스트리 네이버 블로그
  • 뉴스트리 네이버 포스트
  • 뉴스트리 유튜브
  • 뉴스트리 페이스북
  • 뉴스트리 인스타그램
  • 뉴스트리 트위터

핫이슈

+

ESG

Video

+

ESG

+

"ESG공시 로드맵, 정책 일관성 흔들려...전면 재검토해야"

금융위원회가 공개한 ESG 공시 로드맵 초안을 놓고 국회와 기후·ESG 싱크탱크가 "글로벌 기준에 뒤처질 뿐 아니라 정부 정책과도 충돌한다"며 전면

[ESG;스코어] 롯데칠성·CJ제일제당 '재생용기' 적용 1·2위...꼴찌는?

중동 전쟁으로 나프타 부족 사태가 발생하면서 재생 플라스틱 전환율이 기업의 원가구조를 좌우하는 경쟁력이 되고 있다. ESG 대응차원에서 시작됐던

서울시, 1000명 넘는 행사 '폐기물 감량계획' 의무화 추진

서울시가 하루 1000명 이상 참여하는 행사에 대해 폐기물 감량계획을 의무적으로 수립하는 방안을 추진하고 있다.서울시는 25개 자치구가 대규모 행사

'생산적 금융' 물꼬 틔우는 시중은행들…투자전략은 '각양각색'

금융당국이 올해부터 향후 5년간 총 1240조원 규모의 생산적 금융 지원계획을 제시하면서, 금융권 자금이 부동산이나 가계대출이 아닌 산업과 기업의

'카카오 AI 돛' 출범…"2030년까지 100개 AI 혁신기업 육성"

카카오그룹이 4대 과학기술원과 손잡고 지역 인공지능(AI) 인재와 혁신기업 육성 추진기구인 '카카오 AI 돛'을 설립한다. 카카오는 2030년까지 5년간 500억

포스코 '사고다발 기업' 오명 벗나...올들어 중대재해 'O건'

지난해 6명의 노동자 사망사고가 발생했던 포스코가 올해 들어 단 한 건의 산업재해도 발생하지 않으면서 그 비결에 관심이 쏠리고 있다.포스코는 올

기후/환경

+

폭염과 폭우·가뭄이 '동시에'...2025년 한반도 이상기후 더 심해져

2025년은 산업화 이전대비 기온이 1.44℃ 상승한 역대 가장 더웠던 해 3위를 기록한만큼 우리나라도 6월부터 시작된 폭염이 10월까지 이어지는 등 역대급

'빌 게이츠·제프 베이조스' 전용기 기후피해 유발 1·2위...일론 머스크는?

전용기 이용에 따른 온실가스 배출로 기후피해를 가장 많이 유발하는 인물은 마이크로소프트(MS) 창업자인 빌 게이츠인 것으로 드러났다.미국 스탠포

美 36년간 내뿜은 온실가스 1경5000조 피해유발...한국 기후손실액은?

1990년 이후 미국의 온실가스 배출로 인해 전세계가 약 10조달러(약 1경5000조원) 규모의 경제적 피해를 입은 것으로 나타났다. 이 피해는 미국뿐 아니라

서부는 41℃ 폭염, 동부는 눈폭풍…美대륙 '극과 극' 이상기후

미국 서부는 기록적인 폭염을 겪고 있는데 동부는 폭우·폭설·한파가 동시에 나타나는 '극과극' 이상기후가 일어나고 있다. 서부의 이상고온

바닥 드러나는 댐과 하천들...평년 밑도는 강수에 봄 가뭄 '비상'

예년보다 비가 턱없이 적게 내리면서 봄철 가뭄 우려가 현실이 되고 있다. 특히 도서지역과 서해안, 경남 등 지리적 특성상 외부 수자원 의존도가 높은

"EU, 탄소중립 목표 완화해야"...합의해놓고 뒷말하는 獨 장관

지난해 온실가스를 겨우 0.1% 감축한 독일이 유럽연합(EU)을 향해 탄소중립 목표를 완화해줄 것을 요구하고 나섰다. 카테리나 라이헤 독일 연방경제에너

에너지

+

순환경제

+

오피니언

+