알라딘

헤더배너
상품평점 help

분류

이름:이기창

최근작
2021년 12월 <Do it! BERT와 GPT로 배우는 자연어 처리>

이기창

서울대학교 국어국문학과를 졸업하고 고려대학교 대학원에서 공학 석사 학위(자연어 처리)를 취득했다. 문장 범주 분류에 큰 영향을 미치는 단어들에 높은 점수를 주는 기법을 다룬 논문(SCI 저널 게재)에 1저자로 참여했다. 대규모·고품질 언어 모델 학습과 구축을 업으로 삼고 있으며 문서 검색, 오픈 도메인 챗봇에 관심이 많다. 저서로는 《한국어 임베딩》(2019, 에이콘출판사)이 있으며 블로그(ratsgo.github.io)도 운영하고 있다. 딥러닝과 자연어 처리의 무궁무진한 가능성을 믿는다.  

대표작
모두보기
저자의 말

<한국어 임베딩> - 2019년 9월  더보기

컴퓨터는 '계산기'에 불과하다. 컴퓨터는 사람의 말, 즉 자연어(natural language)를 바로 이해할 수 없다. 자연어를 100% 이해하는 인공지능이 등장하더라도 그 이해(understanding)의 본질은 연산(computation)이나 처리(processing)다. 컴퓨터가 자연어를 처리할 수 있게 하려면 자연어를 계산 가능한 형식으로 바꿔줘야 한다. 임베딩(embedding)은 자연어를 숫자의 나열인 벡터(vector)로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을 벡터로 변환해 벡터 공간(vector space)에 '끼워 넣는다(embed)'는 취지에서 임베딩이라는 이름이 붙었다. 컴퓨터는 임베딩을 계산, 처리해 자연어 형식의 답변을 출력함으로써 인간과 상호작용할 수 있게 된다. 그렇기 때문에 임베딩은 컴퓨터가 자연어를 이해하도록 하는 첫 관문으로 매우 중요한 기능을 한다. 임베딩에는 말뭉치(corpus)의 의미, 문법 정보가 응축돼 있다. 임베딩은 벡터이기 때문에 사칙연산이 가능하며, 단어/문서 관련도(relevance) 역시 계산할 수 있다. 최근 들어 임베딩이 중요해진 이유는 따로 있다. 바로 전이 학습(transfer learning) 때문이다. 전이 학습이란 특정 문제를 풀기 위해 학습한 모델을 다른 문제를 푸는 데 재사용하는 기법을 의미한다. 예컨대 대규모 말뭉치를 미리 학습(pretrain)한 임베딩을 문서 분류 모델의 입력값으로 쓰고, 해당 임베딩을 포함한 모델 전체를 문서 분류 과제를 잘할 수 있도록 업데이트(fine-tuning)하는 방식이 바로 그것이다. 물론 전이 학습은 문서 분류 이외의 다양한 다른 과제에도 적용할 수 있다.

가나다별 l l l l l l l l l l l l l l 기타
국내문학상수상자
국내어린이문학상수상자
해외문학상수상자
해외어린이문학상수상자