구글보다 뛰어난 한국어 특화 AI 언어모델 나왔다 - 최신정보

진행중 이벤트

최근글 최근댓글

Windows Forms Professional Utilities "Rufus"

OS Forms "OsBlood"

고정공지

(자유게시판에서 질문 금지) 질문하신 유저는 통보 없이 "계정정리" 될수 있습니다.

놀이터 일간 추천 베스트

놀이터 일간 조회 베스트

IT정보 구글보다 뛰어난 한국어 특화 AI 언어모델 나왔다

작성자: 천미르 조회 수: 123 PC모드

ETRI, 구글 버트(BERT) 개선한 '코버트' 공개ETRI 연구팀이 새로 개발한 한국어 특화 언어모델을 시연하고 있다. 사진제공 ETRI사람이 하는 말을 정확히 이해하고 적절한 대답을 찾도록 돕는 인공지능(AI)용 한국어 데이터베이스(언어모델)가 나왔다. 기존에 존재하던 구글의 한국어모델보다 질의응답, 문장 내 개체 역할 인식 등 성능이 뛰어난 것으로 평가됐다.

한국전자통신연구원(ETRI)은 인공지능(AI) 서비스 개발을 위해 독자적으로 구축한 한국어 특화 딥러닝 언어모델 ‘코버트(KorBERT)’를 10일 홈페이지를 통해 공개했다고 11일 밝혔다.

언어모델은 AI가 언어를 학습할 수 있도록 구축한 일종의 데이터베이스다. 언어를 숫자로 표현한 뒤 AI 기술의 일종인 딥러닝을 이용해 학습을 한다. 이 과정에서 어떤 단어가 특정 조건에서 얼마나 많이, 자주 나타나는지를 확률로 계산해 언어와 함께 모았다.

예를 들어 “날씨” 다음에는 “어때”가 올 확률, 그 뒤 대답에 “좋아”가 올 확률 등을 단어와 함께 기록한 데이터다. “날씨 어때”라는 질문에 “맛있어”라고 답하지 않고 “좋아”라고 답해야 맞다는 사실을 딥러닝을 이용해 학습하려면 이런 언어모델이 필수다.

그 동안 널리 이용되는 언어모델은 구글이 구축한 다국어 언어모델인 버트(BERT)였다. 버트는 문장 내 어절을 한 글자씩 끊은 뒤 서로 연결시켜 앞뒤로 자주 만나는 글자를 단어로 인식한다. ‘날씨 어때’의 겨우 ‘날씨’ '씨어’ ‘어때’를 각각 비교해 자주 조합되는 ‘날씨’와 ‘어때’를 단어로 보고 끊어 읽는 식이다. 구글은 40만 건 이상의 위키백과 문서 데이터를 이런 식으로 학습해 한국어 언어모델을 개발했다.

ETRI의 코버트는 구글의 버트를 한국어 특성에 맞게 개선했다. 먼저 기존의 데이터 외에 최근 10년간의 신문기사와 백과사전 데이터 23기가바이트(GB)를 추가로 학습시켜 학습량을 늘렸다. ETRI는 “학습한 형태소의 수는 총 45억 개에 이른다”고 밝혔다. 여기에 ‘날씨가 어때’의 ‘가’처럼 조사가 붙는 한국어의 문법 특성을 반영해, 사전에 형태소를 분석하는 과정을 추가했다. 딥러닝 학습 과정도 한국어에 맞게 세밀하게 조절했다.

ETRI는 이렇게 완성한 코버트의 성능이 기존의 구글 버트보다 뛰어나다고 밝혔다. ETRI의 자체 성능 분석 결과, 코버트는 문서의 주제를 분류하거나 문장 유사도를 추론하는 시험, 문장 내에 등장하는 인물의 역할을 인식하는 시험, 질문에 제대로 대답을 하는 시험 등 5개 평가 항목에서 버트보다 평균 4.5% 높은 점수를 기록했다. 특히 질문에 대한 답을 검색한 뒤 정답이 있는 단락의 순위를 매기는 시험에서 구글보다 7.4% 뛰어난 점수를 기록했다. 한국어 질의응답에 최적화된 언어모델이라는 사실을 증명한 것이다.

배용진 ETRI 언어지능연구그룹 연구원(왼쪽)과 임준호 선임연구원이 코버트의 작동 원리를 설명하고 있다. 사진제공 ETRI연구팀은 코버트를 AI비서나 질의응답 등에 활용할 수 있을 것으로 기대하고 있다. 김현기 ETRI 언어지능연구그룹 책임연구원은 “한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등 다양한 한국어 딥러닝 기술이 향상될 것”이라고 말했다. 특히 '공공AI오픈API' 데이터 서비스 포털에 공개한 데다, 기존의 딥러닝 프레임워크인 텐서플로우 등에서 활용 가능해 기업과 연구기관 개발자는 물론 학생의 교육 등에도 폭넓게 활용될 전망이다.

연구팀은 앞으로 더 긴 데이터를 한 번에 처리하는 한국어 모델을 개발해 버트 모델의 근본적인 한계도 극복할 계획이다. 버트를 이용한 언어모델은 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못하는 한계가 있다. 아울러 데이터 검증 방법도 추가로 개선할 계획이다.

이 게시물을

test test test

자료만 받아갈줄 아는 회원님들께, 개발자님들에게 최소한의 경우는 우리가 피드백으로 보답하는 겁니다

문제가 있던 없던 그동안 고생하신 것을 생각하여 피드백 작성을 부탁 드립니다

엮인글 :

2019.06.11 21:32
가입일: 2019:01.04
총 게시물수: 1
총 댓글수: 160

역시 한국어는 한국사람이 전문가인거죠.

2019.06.12 10:32
가입일: 2015:12.02
총 게시물수: 112
총 댓글수: 545

멋집니다.' 한국화이팅''''::

2019.06.12 16:24
가입일: 2018:10.04
총 게시물수: 50
총 댓글수: 2478

좋은 정보 감사합니다. ^_^

2019.07.19 18:17
가입일: 2018:02.25
총 게시물수: 50
총 댓글수: 307

좋은 정보 감사합니다

List of Articles

IT정보 구글, '2019 유튜브 웍스 어워드' 국내서 첫 개최 구글은 혁신적이고 효율적인 유튜브 광고 캠페인 및 콘텐츠를 선정해 시상하는 '2019 유튜브 웍스 어워드'를 올해 국내에서 처음 개최한다고 12일 밝혔다. 유튜브... 작성자: 천미르 등록일: 2019-06-12	51 VIEWS 1 COMMENTED
No Image IT정보 실명 추적 논란 '콜앱', 방통위 제재 이동전화 및 문자 발신자의 실명 추적이 가능한 모바일 앱(애플리케이션) '콜앱'을 서비스해 온 이스라엘 스타트업이 우리 정부의 시정조치를 받았다. 방송통신위... 작성자: 천미르 등록일: 2019-06-12	50 VIEWS 1 COMMENTED
IT정보 게임산업 지형도 바꾸는 '스트리밍'..IT공룡들의 새 격전지 부상 구글 스타디아 콘트롤러. (구글 제공) © 뉴스1(서울=뉴스1) 남도영 기자 = 올 가을 펼쳐질 '스트리밍 게임' 대전을 앞두고 게임계가 들썩이고 있다. 플랫폼 선점... 작성자: 천미르 등록일: 2019-06-12	38 VIEWS 2 COMMENTED
IT정보 "원천기술 없어도 IoT 잘쓰면 기술기업" CES 아시아 총괄 CTA '카렌 춥카' 부사장 인터뷰 (지디넷코리아=손예술 기자)[상하이(중국)=손예술 기자] "5G·인공지능(AI) 등 새로운 기술을 원천적으로 보유하... 작성자: 천미르 등록일: 2019-06-12	34 VIEWS 1 COMMENTED
IT정보 삼성, 8년 연속 ‘아시아 최고 브랜드’..애플·소니·구글 제쳐 삼성전자 서초 사옥 (사진=이데일리DB) [이데일리 김종호 기자] 삼성전자(005930)가 아시아 최고 브랜드 선두 자리를 8년 연속 지킨 것으로 나타났다. 12일 글로... 작성자: 천미르 등록일: 2019-06-12	30 VIEWS 1 COMMENTED
IT정보 현대차 올라 탄 티맥스 '티베로', 국산 DBMS 시장확대 핸들 잡아 티맥스데이터가 현대·기아자동차 메인 데이터베이스관리시스템(DBMS)에 들어간다. 오라클 중심 구조를 깨뜨리고 윈백(경쟁사 시스템을 자사 제품으로 교체)했다. ... 작성자: 천미르 등록일: 2019-06-12	65 VIEWS 3 COMMENTED
IT정보 화웨이, 7년전 안드로이드 대항마 개발 결정 화웨이가 미국정부와 마찰시 구글 플랫폼 사용이 힘들어질 경우를 대비해 7년전 독자 운영체제(OS) 개발에 나섰다. 사우스차이나모닝포스트 등의 주요외신들에 따... 작성자: 천미르 등록일: 2019-06-12	39 VIEWS 1 COMMENTED
일반정보 “현대·기아차 개인정보 불법 수집”…과징금·과태료 부과 운전자 개인정보를 불법으로 수집한 현대·기아차에 수천만 원의 과징금과 과태료가 부과됐습니다. 방송통신위원회는 오늘(12일) 제28차 회의를 열어 정보통신망... 작성자: 천미르 등록일: 2019-06-12	18 VIEWS 1 COMMENTED
IT정보 애플 앱스토어 독과점 논란...개발자, 집단 소송 • 사진 출처 = http://www.etnews.com/20190611000062 미국 매체 더버지에 따르면 앱 개발자들은 애플이 IOS 앱의 판매 및 유통 과정을 독점하고 있다며 집단 ... 작성자: shc1985 등록일: 2019-06-12	31 VIEWS 4 COMMENTED
IT정보 폭스콘 "애플 제품 생산 中 밖으로 이전 준비 중" • 사진 출처 = http://www.newsis.com/view/?id=NISX20190612_0000678054&cID=10101&pID=10100 애플의 최대 협력사이자 세계 최대 하청업체인 대만 ... 작성자: shc1985 등록일: 2019-06-12	49 VIEWS 3 COMMENTED
IT정보 AMD 16코어 게이밍 CPU 라이젠 9 3950X 공식 발표, 가격은 749달러 앞서 예고한대로, E3 행사를 진행한 AMD에서 3세대 라이젠의 16코어 모델을 공식 발표했다. 행사 마지막에 발표된 16코어 라이젠은 하루 전 유출된 정보와 같이... 작성자: Rixo 등록일: 2019-06-12	94 VIEWS 4 COMMENTED
IT정보 구글보다 뛰어난 한국어 특화 AI 언어모델 나왔다 ETRI, 구글 버트(BERT) 개선한 '코버트' 공개ETRI 연구팀이 새로 개발한 한국어 특화 언어모델을 시연하고 있다. 사진제공 ETRI사람이 하는 말을 정확히 이해하고... 작성자: 천미르 등록일: 2019-06-11	123 VIEWS 4 COMMENTED
IT정보 환전 하지 않아도 OK! '페이코' 일본에서 결제 된다 간편금융 플랫폼 기업 NHN페이코가 이르면 오는 7월 일본에서 페이코(PAYCO) 결제 서비스를 시작하고, 해외 간편결제 시장 진출에 나선다. NHN페이코는 “일본은 ... 작성자: 천미르 등록일: 2019-06-11	61 VIEWS 2 COMMENTED
IT정보 애플, 아이폰11에 USB-C 단자 도입하나? (Raphaël Mouton(@Raf___m) 트위터 갈무리) © 뉴스1 (서울=뉴스1) 김정현 기자 = 애플이 오는 9월 출시가 예상되는 아이폰11에 USB-C 단자를 도입할 것이라는 추... 작성자: 천미르 등록일: 2019-06-11	62 VIEWS 4 COMMENTED
IT정보 구글, 애플 이어 확률형아이템 확률 공개 의무화 게임산업협회 자율규제 캠페인 중 한 장면 구글이 확률형아이템을 제공하는 모바일 게임에 대해 확률 고시를 의무화했다. 자율규제를 미준수하는 중국게임 퇴출 ... 작성자: 천미르 등록일: 2019-06-11	24 VIEWS 1 COMMENTED