본문 바로가기
  • think normal
새로워지기/마흔의 생활코딩

까이꺼 인공지능(NLP 자연어 처리 : word2vec, LexRank )

by 청춘만화 2021. 6. 8.

어쩌다 마흔,

인공지능을 접하다.


3~4년? 전 bert가 나온 뒤부터 NLP 쪽은 무서울 정도로 급격한 성장을 이루고 있다.
최근에는 T5Big Bird가 많은 관심을 끌고 있다.

*NLP 모델의 진화?과정 : (Vec2Vec Seq2Seq) → BERT → XLNet→ RoBERTa → MT-DNN→ T5 → Big Bird


최근 개인적 관심사는
T5 Big Bird과 같은 이 최신 모델에 한글을 적용하는 부분을 테스트하고 있다.

아래는 첫번째로 한글 적용 테스트한 예제이다.
모델은 각각 word2vec, LexRank 를 사용했다.

1. gensim word2vec 알고리즘

  • 알고리즘 요약
    • 단어마다 차례대로 인덱싱을 하여 벡터화 하지 않고, 유사한 단어들을 비슷한 방향과 힘의 벡터를 갖도록 단어를 벡터화 시켜주는 방법 중 하나이다
    • word2vec으로 단어들을 임베딩 시키면 단어끼리 연산도 가능하다
  • 예제 코드
    • url을 입력하면 해당 페이지의 문장들을 크롤링한 후 요약해줍니다 → RUN !

Google Colaboratory Notebook

Run, share, and edit Python notebooks

colab.research.google.com

-> 실습결과
1) 타깃 원본 URL
2) 원본 내용

3) 요약( 세가지 타입)



2. LexRank 알고리즘

  • 알고리즘 요약
    • TextRank와 비슷하게, 문서 내의 각 문장들을 노드로, 문장들 간 유사도를 간선의 값으로 그래프를 만든다.
    • 그래프를 만든 후 PageRank를 적용해서 중요한 문장을 추출해내는 추출 기반 문서 요약 알고리즘이다.
    • PageRank는 구글 검색엔진의 가장 기본이되는 알고리즘이다.
  • 예제 코드
    • 원하는 텍스트를 변수에 저장하면 해당 문장을 요약해줍니다 → RUN !

hangul_summarization_text.ipynb

Colaboratory notebook

colab.research.google.com

-> 실습결과
1) 타깃 원본 URL
2) 결과





3. 부록, 구글 콜라보( Google Colaboratory Notebook) 사용방법

Google Colaboratory Notebook 사용방법

1) Google Colaboratory Notebook은 파이썬 쥬피터 노트북과 동일하다.
+ 써보면 알겠지만 장점이 너무 많다.
2) 일단, 1.연결한다
3) 2.재생버튼을 하나씩 클릭한다.
4) 끝 ;D





참 쉽죠 ~




댓글