놀이터 일간 추천 베스트 |
놀이터 일간 조회 베스트 |
작성자: 천미르 조회 수: 123 PC모드
ETRI, 구글 버트(BERT) 개선한 '코버트' 공개ETRI 연구팀이 새로 개발한 한국어 특화 언어모델을 시연하고 있다. 사진제공 ETRI사람이 하는 말을 정확히 이해하고 적절한 대답을 찾도록 돕는 인공지능(AI)용 한국어 데이터베이스(언어모델)가 나왔다. 기존에 존재하던 구글의 한국어모델보다 질의응답, 문장 내 개체 역할 인식 등 성능이 뛰어난 것으로 평가됐다.
한국전자통신연구원(ETRI)은 인공지능(AI) 서비스 개발을 위해 독자적으로 구축한 한국어 특화 딥러닝 언어모델 ‘코버트(KorBERT)’를 10일 홈페이지를 통해 공개했다고 11일 밝혔다.
언어모델은 AI가 언어를 학습할 수 있도록 구축한 일종의 데이터베이스다. 언어를 숫자로 표현한 뒤 AI 기술의 일종인 딥러닝을 이용해 학습을 한다. 이 과정에서 어떤 단어가 특정 조건에서 얼마나 많이, 자주 나타나는지를 확률로 계산해 언어와 함께 모았다.
예를 들어 “날씨” 다음에는 “어때”가 올 확률, 그 뒤 대답에 “좋아”가 올 확률 등을 단어와 함께 기록한 데이터다. “날씨 어때”라는 질문에 “맛있어”라고 답하지 않고 “좋아”라고 답해야 맞다는 사실을 딥러닝을 이용해 학습하려면 이런 언어모델이 필수다.
그 동안 널리 이용되는 언어모델은 구글이 구축한 다국어 언어모델인 버트(BERT)였다. 버트는 문장 내 어절을 한 글자씩 끊은 뒤 서로 연결시켜 앞뒤로 자주 만나는 글자를 단어로 인식한다. ‘날씨 어때’의 겨우 ‘날씨’ '씨어’ ‘어때’를 각각 비교해 자주 조합되는 ‘날씨’와 ‘어때’를 단어로 보고 끊어 읽는 식이다. 구글은 40만 건 이상의 위키백과 문서 데이터를 이런 식으로 학습해 한국어 언어모델을 개발했다.
ETRI의 코버트는 구글의 버트를 한국어 특성에 맞게 개선했다. 먼저 기존의 데이터 외에 최근 10년간의 신문기사와 백과사전 데이터 23기가바이트(GB)를 추가로 학습시켜 학습량을 늘렸다. ETRI는 “학습한 형태소의 수는 총 45억 개에 이른다”고 밝혔다. 여기에 ‘날씨가 어때’의 ‘가’처럼 조사가 붙는 한국어의 문법 특성을 반영해, 사전에 형태소를 분석하는 과정을 추가했다. 딥러닝 학습 과정도 한국어에 맞게 세밀하게 조절했다.
ETRI는 이렇게 완성한 코버트의 성능이 기존의 구글 버트보다 뛰어나다고 밝혔다. ETRI의 자체 성능 분석 결과, 코버트는 문서의 주제를 분류하거나 문장 유사도를 추론하는 시험, 문장 내에 등장하는 인물의 역할을 인식하는 시험, 질문에 제대로 대답을 하는 시험 등 5개 평가 항목에서 버트보다 평균 4.5% 높은 점수를 기록했다. 특히 질문에 대한 답을 검색한 뒤 정답이 있는 단락의 순위를 매기는 시험에서 구글보다 7.4% 뛰어난 점수를 기록했다. 한국어 질의응답에 최적화된 언어모델이라는 사실을 증명한 것이다.
배용진 ETRI 언어지능연구그룹 연구원(왼쪽)과 임준호 선임연구원이 코버트의 작동 원리를 설명하고 있다. 사진제공 ETRI연구팀은 코버트를 AI비서나 질의응답 등에 활용할 수 있을 것으로 기대하고 있다. 김현기 ETRI 언어지능연구그룹 책임연구원은 “한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등 다양한 한국어 딥러닝 기술이 향상될 것”이라고 말했다. 특히 '공공AI오픈API' 데이터 서비스 포털에 공개한 데다, 기존의 딥러닝 프레임워크인 텐서플로우 등에서 활용 가능해 기업과 연구기관 개발자는 물론 학생의 교육 등에도 폭넓게 활용될 전망이다.
연구팀은 앞으로 더 긴 데이터를 한 번에 처리하는 한국어 모델을 개발해 버트 모델의 근본적인 한계도 극복할 계획이다. 버트를 이용한 언어모델은 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못하는 한계가 있다. 아울러 데이터 검증 방법도 추가로 개선할 계획이다.
역시 한국어는 한국사람이 전문가인거죠.