Project/챗봇 만들기

NLP 그리고 spaCy(설치까지)

녜잉 2023. 7. 30. 21:11

1. NLP란?

 

자연어 처리(NLP, Natural Language Preprocessing): 컴퓨터가 인간의 언어를 분석하고 이해할 수 있도록 하는 인공지능의 한 분야. 

 

자연어 이해(NLU, Natrural Language Understanding): NLP를 구성하는 하나의 부분집합. 

 

챗봇 만들기에 NLP가 필요한 이유? 

: 사람은 자신의 언어를 음성 혹은 텍스트 형태로 챗봇에게 제공함. 이 입력값을 컴퓨터 공학에서는 자연어라고 부름. 컴퓨터가 사용자의 자연어를 이해하기 위해서는 그것이 어떤 언어인지 혹은 어떤 형태(텍스트, 음성, 이미지 등)인지와 관계 없이 NLP 알고리즘과 기술을 반드시 사용해야 함. 

즉, NLP는 원시 데이터입수하고 정제하여, 필요한 액션을 취할 수 있도록 하는 역할을 함. 

 

 


 

2. spaCy

 

spaCy란?

: 고급 NLP를 위한 오픈 소스 소프트웨어 라이브러리. spaCy는 세계에서 가장 빠르게 동작하는 구문 분석기를 제공하며 영어, 독일어, 스페인 어 등과 같은 다국어 개체명 인식과 광범위한 언어에 대한 통계적 신경망 모델 및 토큰화 기능을 제공한다. 

 

spaCy 설치하려고 보는데 갑자기 가상환경이 나와서 순간 음 가상머신??? 

당연히 아나콘다 가상환경이다.

 

conda install spacy

 

설치가 완료되면 주피터 노트북에서 import spacy를 해본다. 성공적으로 import가 된 것을 확인할 수 있다. 

 

명령어를 설치하여 spaCy를 설치했다면 언어 모델을 따로 설치해야 한다. 

한국어는 지원하지 않기 때문에 다국어 언어 모델을 설치하거나 한국어 모델을 따로 만들어야 한다고 한다. 

 

conda activate 가상환경이름
python -m spacy download en

아나콘다를 관리자 모드로 다시 켠 후에 위의 명령어로 sapcy 영어 모델을 설치한다.