Latest Posts Recent Comments 문의사항 신고하기 이용안내 이벤트 포인트 리스트 공지사항 관리자문의

공지사항

고정공지

(자유게시판에서 질문 금지) 질문하신 유저는 통보 없이 "계정정리" 될수 있습니다.

놀이터 일간 추천 베스트

놀이터 일간 조회 베스트

ETRI, 구글 버트(BERT) 개선한 '코버트' 공개ETRI 연구팀이 새로 개발한 한국어 특화 언어모델을 시연하고 있다. 사진제공 ETRI사람이 하는 말을 정확히 이해하고 적절한 대답을 찾도록 돕는 인공지능(AI)용 한국어 데이터베이스(언어모델)가 나왔다. 기존에 존재하던 구글의 한국어모델보다 질의응답, 문장 내 개체 역할 인식 등 성능이 뛰어난 것으로 평가됐다. 

한국전자통신연구원(ETRI)은 인공지능(AI) 서비스 개발을 위해 독자적으로 구축한 한국어 특화 딥러닝 언어모델 ‘코버트(KorBERT)’를 10일 홈페이지를 통해 공개했다고 11일 밝혔다. 

언어모델은 AI가 언어를 학습할 수 있도록 구축한 일종의 데이터베이스다. 언어를 숫자로 표현한 뒤 AI 기술의 일종인 딥러닝을 이용해 학습을 한다. 이 과정에서 어떤 단어가 특정 조건에서 얼마나 많이, 자주 나타나는지를 확률로 계산해 언어와 함께 모았다.

예를 들어 “날씨” 다음에는 “어때”가 올 확률, 그 뒤 대답에 “좋아”가 올 확률 등을 단어와 함께 기록한 데이터다. “날씨 어때”라는 질문에 “맛있어”라고 답하지 않고 “좋아”라고 답해야 맞다는 사실을 딥러닝을 이용해 학습하려면 이런 언어모델이 필수다.

그 동안 널리 이용되는 언어모델은 구글이 구축한 다국어 언어모델인 버트(BERT)였다. 버트는 문장 내 어절을 한 글자씩 끊은 뒤 서로 연결시켜 앞뒤로 자주 만나는 글자를 단어로 인식한다. ‘날씨 어때’의 겨우 ‘날씨’ '씨어’ ‘어때’를 각각 비교해 자주 조합되는 ‘날씨’와 ‘어때’를 단어로 보고 끊어 읽는 식이다. 구글은 40만 건 이상의 위키백과 문서 데이터를 이런 식으로 학습해 한국어 언어모델을 개발했다.

ETRI의 코버트는 구글의 버트를 한국어 특성에 맞게 개선했다. 먼저 기존의 데이터 외에 최근 10년간의 신문기사와 백과사전 데이터 23기가바이트(GB)를 추가로 학습시켜 학습량을 늘렸다. ETRI는 “학습한 형태소의 수는 총 45억 개에 이른다”고 밝혔다. 여기에 ‘날씨가 어때’의 ‘가’처럼 조사가 붙는 한국어의 문법 특성을 반영해, 사전에 형태소를 분석하는 과정을 추가했다. 딥러닝 학습 과정도 한국어에 맞게 세밀하게 조절했다.

ETRI는 이렇게 완성한 코버트의 성능이 기존의 구글 버트보다 뛰어나다고 밝혔다. ETRI의 자체 성능 분석 결과, 코버트는 문서의 주제를 분류하거나 문장 유사도를 추론하는 시험, 문장 내에 등장하는 인물의 역할을 인식하는 시험, 질문에 제대로 대답을 하는 시험 등 5개 평가 항목에서 버트보다 평균 4.5% 높은 점수를 기록했다. 특히 질문에 대한 답을 검색한 뒤 정답이 있는 단락의 순위를 매기는 시험에서 구글보다 7.4% 뛰어난 점수를 기록했다. 한국어 질의응답에 최적화된 언어모델이라는 사실을 증명한 것이다.

배용진 ETRI 언어지능연구그룹 연구원(왼쪽)과 임준호 선임연구원이 코버트의 작동 원리를 설명하고 있다. 사진제공 ETRI연구팀은 코버트를 AI비서나 질의응답 등에 활용할 수 있을 것으로 기대하고 있다. 김현기 ETRI 언어지능연구그룹 책임연구원은 “한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등 다양한 한국어 딥러닝 기술이 향상될 것”이라고 말했다. 특히 '공공AI오픈API' 데이터 서비스 포털에 공개한 데다, 기존의 딥러닝 프레임워크인 텐서플로우 등에서 활용 가능해 기업과 연구기관 개발자는 물론 학생의 교육 등에도 폭넓게 활용될 전망이다.

연구팀은 앞으로 더 긴 데이터를 한 번에 처리하는 한국어 모델을 개발해 버트 모델의 근본적인 한계도 극복할 계획이다. 버트를 이용한 언어모델은 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못하는 한계가 있다. 아울러 데이터 검증 방법도 추가로 개선할 계획이다.

자료만 받아갈줄 아는 회원님들께, 개발자님들에게 최소한의 경우는 우리가 피드백으로 보답하는 겁니다

문제가 있던 없던 그동안 고생하신 것을 생각하여 피드백 작성을 부탁 드립니다
­
엮인글 :

의견쓰기::  상업광고, 인신공격,비방, 욕설, 아주강한음담패설등의 코멘트는 예고없이 삭제될수 있습니다. 회원정리 게시판

profile

시피르

2019.06.11 21:32
가입일: 2019:01.04
총 게시물수: 1
총 댓글수: 160

역시 한국어는 한국사람이 전문가인거죠.

profile

하ㅇ룽

2019.06.12 10:32
가입일: 2015:12.02
총 게시물수: 112
총 댓글수: 545

멋집니다.' 한국화이팅''''::

profile

마라톤

2019.06.12 16:24
가입일: 2018:10.04
총 게시물수: 50
총 댓글수: 2478

좋은 정보 감사합니다. ^_^

profile

쾌걸맨

2019.07.19 18:17
가입일: 2018:02.25
총 게시물수: 50
총 댓글수: 307

좋은 정보 감사합니다

List of Articles

IT정보 엔비디아 차세대 지포스 게이밍 GPU 3월 발표 없다? file

엔비디아의 차세대 게이밍 GPU로 예측되고 있는 코드네임 앙페르 혹은 튜링의 출시가 오는 3월로 예측되고 있는 가운데, 엔비디아에서 이를 부인해 차세대 GPU의...

  • 등록일: 2018-02-22

122

VIEWS

IT정보 삼성 안드로이드 고 스마트폰 '갤럭시 A2 코어' 가격 유출.. 8만 6천원 file

  삼성전자의 세 번째 안드로이드 고(Go) 스마트폰 '갤럭시 A2 코어' 인도 출시 가격이 유출됐다. '안드로이드 고'는 개발도상국 안드로이드 사용자들을 위해 개...

  • 등록일: 2019-04-15

122

VIEWS

1

COMMENTED

IT정보 구글보다 뛰어난 한국어 특화 AI 언어모델 나왔다

ETRI, 구글 버트(BERT) 개선한 '코버트' 공개ETRI 연구팀이 새로 개발한 한국어 특화 언어모델을 시연하고 있다. 사진제공 ETRI사람이 하는 말을 정확히 이해하고...

  • 등록일: 2019-06-11

122

VIEWS

4

COMMENTED

IT정보 "로봇 입으니까 허리 편하네"…日공항 로봇슈트 도입

[출처 : 뉴시스 김혜경 기자] 신체 장애자나 고령자의 운동을 보조하기 위해 개발된 로봇슈트가 일본 공항의 수하물 작업 요원들의 허리 부담 경감을 위해 도입됐...

  • 등록일: 2016-11-25

121

VIEWS

1

COMMENTED

IT정보 구글 인공지능 '딥마인드', 입 모양 보고 말도 알아듣는다

[출처 : 블로터 채반석 기자] 딥러닝의 영역확장이 거세다. 알파고로 잘 알려진 구글의 인공지능팀 딥마인드와 옥스퍼드대학 연구진이 인공지능을 활용해 독순술(...

  • 등록일: 2016-11-26

121

VIEWS

3

COMMENTED

IT정보 삼성전자 보급형 '갤럭시 J6' 안드로이드 파이 업데이트 시작 file

삼성전자의 보급형 스마트폰 '갤럭시 J6'가 해외에서 안드로이드 9.0 파이 업데이트를 시작했다. 이탈리아, 브라질 등 일부 국가에서 출시된 안드로이드 파이 업...

  • 등록일: 2019-04-12

121

VIEWS

IT정보 삼성전자, 업계 최초 6,400만 화소 모바일 이미지센서 공개 file

삼성전자, 업계 최초 6,400만 화소 모바일 이미지센서 공개 삼성전자가 0.8㎛(마이크로미터∙100만분의 1m) 초소형 픽셀을 적용한 초고화소 이미지센서 신제품 '...

  • 등록일: 2019-05-10

121

VIEWS

IT정보 인텔 모든 코어 프로세서에 스포일러(SPOILER) 보안 취약점 발견 file

스포일러(Spoiler)로 명명된 이번 보안 취약점은 독일 뤼벡(Lübeck) 대학과 우스터 폴리테크닉 연구소(Worcester Polytechnic Institut)의 공동로 밝혀진 것으로...

  • 등록일: 2019-03-06

120

VIEWS

IT정보 LG G8 씽큐 출고가 89만원…전작보다 저렴 file

LG전자의 새 전략 스마트폰 G8 씽큐가 80만원대의 가격으로 출시된다. 7일 업계에 따르면, LG전자의 G8 씽큐는 89만7천600원으로 책정됐다. G8 씽큐의 사전예약 ...

  • 등록일: 2019-03-07

120

VIEWS

IT정보 애플 자체 개발 프로세서 유출 file

        최근 레딧에 애플이 테스트한것으로 보이는 긱벤치 사진이 올라왔다가 내려갔습니다.   ARM기반의 12코어, 부스트 클럭은 3.2GHz인데 애플이 맥 제품에 ...

  • 등록일: 2019-03-15

120

VIEWS

1

COMMENTED

IT정보 AMD 라데온 RX 640 확인, 정체는 RX 550X 리브랜딩

AMD에서 라데온 RX 600 시리즈 그래픽 카드가 처음으로 그 존재를 드러냈다. 처음으로 확인된 라데온 RX 600 시리즈 그래픽 카드는 드라이버의 INF 파일을 통해 ...

  • 등록일: 2019-05-14

120

VIEWS

1

COMMENTED

IT정보 갤럭시노트10 사진 또 유출 “헤드폰 잭도 없네”

 삼성전자가 다음달 선보일 예정인 갤럭시노트10 모습을 담은 사진이 또 유출됐다. 유출된 사진에선 빅스비 버튼에 이어 헤드폰 잭도 모습을 감춘 것으로 알려져 ...

  • 등록일: 2019-07-14

120

VIEWS

3

COMMENTED

IT정보 공중전화에 선 줄, 다시 올까…'수' 줄이고 변신하고

[출처 : 머니투데이 진달래 기자] [2020년까지 3만여대 철거, 수요 있는 곳 중심 배치 효율↑] 자세히 보기> http://news.naver.com/main/read.nhn?mode=LSD&m...

  • 등록일: 2016-12-10

119

VIEWS

1

COMMENTED

IT정보 2018년형 '맥북 에어' 카메라 결함있나…일부 제품 카메라 품질 떨어져 file

애플은 지난 10월 신형 아이패드 프로와 함께 8년 만에 완전 리뉴얼된 맥북 에어를 선보였다. 그런데, 신형 맥북 에어에 탑재된 720p 페이스타임 HD 카메라 품질...

  • 등록일: 2018-12-05

119

VIEWS

IT정보 14nm CPU 부족 사태의 인텔, 외부 파운드리 위탁 생산도 고려 중 file

14nm 공정 기반 CPU 공급 부족 사태가 이어지면서 추가 투자를 약속한 인텔의 구체적인 플랜이 알려졌다.   expreview에 따르면 인텔은 오레곤과 이스라엘, 아일...

  • 등록일: 2018-12-21

119

VIEWS

2

COMMENTED

IT정보 반도체 호황 끝났나, 삼성전자 2018년 4분기 잠정실적 하락

삼성전자가 2018년 4분기 잠정실적을 발표했다. 삼성전자는 8일 보도자료를 통해 2018년 4분기에 연결기준 매출 59조원, 영업이익 10.8조원을 기록했다고 밝혔다....

  • 등록일: 2019-01-09

119

VIEWS

1

COMMENTED

IT정보 중요한 데이터를 외장하드에 보관해야 하는 이유

당신은 반드시 간직해야 할 문서 자료나 사진, 동영상 등을 어떤 저장매체에 백업, 보관하는가? 최근 SSD 가격이 저렴해짐에 따라 SSD에 중요한 파일을 보관하는...

  • 등록일: 2019-05-06

119

VIEWS

5

COMMENTED

IT정보 구글에 지도반출 `불허`..美 트럼프 통상압력 수위 높이나

[출처 : 디지털타임스 정채희 기자} 정부가 5개월 이상 끌어온 구글에 대한 국내 정밀 지도 데이터 반출 관련 입장을 '최종 불허'로 결정했다. 이에 따라 그동안 ...

  • 등록일: 2016-11-20

118

VIEWS

2

COMMENTED

IT정보 "EU, 구글 온라인 이력 추적 광고에 제동"< FT>

이용자 동의해야 이력 수집…"인터넷 사업모델 뒤집힐 것" [출처 : 연합뉴스 김윤구 기자] 구글과 페이스북 등 이용자의 온라인 이력을 추적해 광고로 큰돈을 벌던...

  • 등록일: 2016-12-14

118

VIEWS

1

COMMENTED

IT정보 사이버戰 대비하라 …'2017년 보안' 전망

[출처 : 아이뉴스24 성지은기자] 사물인터넷(IoT), 클라우드, 커넥티드카(connected car) 등 차세대 IT 기술의 발전으로 일상의 편의성이 높아지고 있다. 추운 겨...

  • 등록일: 2016-12-20

118

VIEWS

6

COMMENTED