Latest Posts Recent Comments 문의사항 신고하기 이용안내 이벤트 포인트 리스트 공지사항 관리자문의

공지사항

고정공지

(자유게시판에서 질문 금지) 질문하신 유저는 통보 없이 "계정정리" 될수 있습니다.

놀이터 일간 추천 베스트

놀이터 일간 조회 베스트

ETRI, 구글 버트(BERT) 개선한 '코버트' 공개ETRI 연구팀이 새로 개발한 한국어 특화 언어모델을 시연하고 있다. 사진제공 ETRI사람이 하는 말을 정확히 이해하고 적절한 대답을 찾도록 돕는 인공지능(AI)용 한국어 데이터베이스(언어모델)가 나왔다. 기존에 존재하던 구글의 한국어모델보다 질의응답, 문장 내 개체 역할 인식 등 성능이 뛰어난 것으로 평가됐다. 

한국전자통신연구원(ETRI)은 인공지능(AI) 서비스 개발을 위해 독자적으로 구축한 한국어 특화 딥러닝 언어모델 ‘코버트(KorBERT)’를 10일 홈페이지를 통해 공개했다고 11일 밝혔다. 

언어모델은 AI가 언어를 학습할 수 있도록 구축한 일종의 데이터베이스다. 언어를 숫자로 표현한 뒤 AI 기술의 일종인 딥러닝을 이용해 학습을 한다. 이 과정에서 어떤 단어가 특정 조건에서 얼마나 많이, 자주 나타나는지를 확률로 계산해 언어와 함께 모았다.

예를 들어 “날씨” 다음에는 “어때”가 올 확률, 그 뒤 대답에 “좋아”가 올 확률 등을 단어와 함께 기록한 데이터다. “날씨 어때”라는 질문에 “맛있어”라고 답하지 않고 “좋아”라고 답해야 맞다는 사실을 딥러닝을 이용해 학습하려면 이런 언어모델이 필수다.

그 동안 널리 이용되는 언어모델은 구글이 구축한 다국어 언어모델인 버트(BERT)였다. 버트는 문장 내 어절을 한 글자씩 끊은 뒤 서로 연결시켜 앞뒤로 자주 만나는 글자를 단어로 인식한다. ‘날씨 어때’의 겨우 ‘날씨’ '씨어’ ‘어때’를 각각 비교해 자주 조합되는 ‘날씨’와 ‘어때’를 단어로 보고 끊어 읽는 식이다. 구글은 40만 건 이상의 위키백과 문서 데이터를 이런 식으로 학습해 한국어 언어모델을 개발했다.

ETRI의 코버트는 구글의 버트를 한국어 특성에 맞게 개선했다. 먼저 기존의 데이터 외에 최근 10년간의 신문기사와 백과사전 데이터 23기가바이트(GB)를 추가로 학습시켜 학습량을 늘렸다. ETRI는 “학습한 형태소의 수는 총 45억 개에 이른다”고 밝혔다. 여기에 ‘날씨가 어때’의 ‘가’처럼 조사가 붙는 한국어의 문법 특성을 반영해, 사전에 형태소를 분석하는 과정을 추가했다. 딥러닝 학습 과정도 한국어에 맞게 세밀하게 조절했다.

ETRI는 이렇게 완성한 코버트의 성능이 기존의 구글 버트보다 뛰어나다고 밝혔다. ETRI의 자체 성능 분석 결과, 코버트는 문서의 주제를 분류하거나 문장 유사도를 추론하는 시험, 문장 내에 등장하는 인물의 역할을 인식하는 시험, 질문에 제대로 대답을 하는 시험 등 5개 평가 항목에서 버트보다 평균 4.5% 높은 점수를 기록했다. 특히 질문에 대한 답을 검색한 뒤 정답이 있는 단락의 순위를 매기는 시험에서 구글보다 7.4% 뛰어난 점수를 기록했다. 한국어 질의응답에 최적화된 언어모델이라는 사실을 증명한 것이다.

배용진 ETRI 언어지능연구그룹 연구원(왼쪽)과 임준호 선임연구원이 코버트의 작동 원리를 설명하고 있다. 사진제공 ETRI연구팀은 코버트를 AI비서나 질의응답 등에 활용할 수 있을 것으로 기대하고 있다. 김현기 ETRI 언어지능연구그룹 책임연구원은 “한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등 다양한 한국어 딥러닝 기술이 향상될 것”이라고 말했다. 특히 '공공AI오픈API' 데이터 서비스 포털에 공개한 데다, 기존의 딥러닝 프레임워크인 텐서플로우 등에서 활용 가능해 기업과 연구기관 개발자는 물론 학생의 교육 등에도 폭넓게 활용될 전망이다.

연구팀은 앞으로 더 긴 데이터를 한 번에 처리하는 한국어 모델을 개발해 버트 모델의 근본적인 한계도 극복할 계획이다. 버트를 이용한 언어모델은 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못하는 한계가 있다. 아울러 데이터 검증 방법도 추가로 개선할 계획이다.

자료만 받아갈줄 아는 회원님들께, 개발자님들에게 최소한의 경우는 우리가 피드백으로 보답하는 겁니다

문제가 있던 없던 그동안 고생하신 것을 생각하여 피드백 작성을 부탁 드립니다
­
엮인글 :

의견쓰기::  상업광고, 인신공격,비방, 욕설, 아주강한음담패설등의 코멘트는 예고없이 삭제될수 있습니다. 회원정리 게시판

profile

시피르

2019.06.11 21:32
가입일: 2019:01.04
총 게시물수: 1
총 댓글수: 160

역시 한국어는 한국사람이 전문가인거죠.

profile

하ㅇ룽

2019.06.12 10:32
가입일: 2015:12.02
총 게시물수: 112
총 댓글수: 545

멋집니다.' 한국화이팅''''::

profile

마라톤

2019.06.12 16:24
가입일: 2018:10.04
총 게시물수: 50
총 댓글수: 2478

좋은 정보 감사합니다. ^_^

profile

쾌걸맨

2019.07.19 18:17
가입일: 2018:02.25
총 게시물수: 50
총 댓글수: 307

좋은 정보 감사합니다

List of Articles
번호 제목 글쓴이 날짜 조회 수
1619 IT정보 화웨이, 7년전 안드로이드 대항마 개발 결정 + 1 천미르 06-12 38
1618 IT정보 애플 앱스토어 독과점 논란...개발자, 집단 소송 file + 4 shc1985 06-12 30
1617 IT정보 폭스콘 "애플 제품 생산 中 밖으로 이전 준비 중" file + 3 shc1985 06-12 48
1616 IT정보 AMD 16코어 게이밍 CPU 라이젠 9 3950X 공식 발표, 가격은 749달러 + 4 Rixo 06-12 93
» IT정보 구글보다 뛰어난 한국어 특화 AI 언어모델 나왔다 + 4 천미르 06-11 122
1614 IT정보 환전 하지 않아도 OK! '페이코' 일본에서 결제 된다 + 2 천미르 06-11 60
1613 IT정보 애플, 아이폰11에 USB-C 단자 도입하나? + 4 천미르 06-11 61
1612 IT정보 구글, 애플 이어 확률형아이템 확률 공개 의무화 + 1 천미르 06-11 23
1611 IT정보 반도체 업계, 'QLC SSD' 개발 사활…"데이터 처리 성능 향상" + 1 천미르 06-11 49
1610 IT정보 삼성 자회사 조이언트, 퍼블릭 클라우드 폐기 + 1 천미르 06-11 47
1609 IT정보 야놀자, 2130억 투자 유치… 카페에서 '유니콘'으로 + 2 천미르 06-11 32
1608 IT정보 내년부터 전국 어디서나 초고속인터넷 이용 가능 + 3 천미르 06-10 158
1607 IT정보 티맥스, 하반기 개방형 OS 버전 선보인다 + 6 천미르 06-10 216
1606 IT정보 유튜브 "미성년자, 보호자 없이 개인 방송 못한다" + 1 천미르 06-10 71
1605 IT정보 삼성전자, AMD 협업으로 '게임 특화' 드라이브 건다 + 1 천미르 06-10 31
1604 IT정보 '페이스북 코인' 나온다…가상화폐에 눈독 들이는 IT공룡들 + 1 천미르 06-10 12
1603 IT정보 스타트업에 오픈랩 개방…5G 생태계 발굴 나선 통신 3社 + 1 천미르 06-10 17
1602 IT정보 화웨이 논란 때문?..국내 기업들 ‘MWC 상하이’ 전시 줄어 + 1 천미르 06-10 19
1601 IT정보 방통위원장 "넷플릭스 등 망이용료 검토할 것" + 2 천미르 06-10 33
1600 IT정보 라이젠 9 3950X, 16코어 32쓰레드 CPU, 라데온 RX5700XT 자료 유출 + 2 AnalogKid 06-09 104