어쩌다 마흔,
인공지능을 접하다.
3~4년? 전 bert가 나온 뒤부터 NLP 쪽은 무서울 정도로 급격한 성장을 이루고 있다.
최근에는 T5와Big Bird가 많은 관심을 끌고 있다.
*NLP 모델의 진화?과정 : (Vec2Vec → Seq2Seq) → BERT → XLNet→ RoBERTa → MT-DNN→ T5 → Big Bird
최근 개인적 관심사는
T5 나 Big Bird과 같은 이 최신 모델에 한글을 적용하는 부분을 테스트하고 있다.
아래는 첫번째로 한글 적용 테스트한 예제이다.
모델은 각각 word2vec, LexRank 를 사용했다.
1. gensim word2vec 알고리즘
- 알고리즘 요약
- 단어마다 차례대로 인덱싱을 하여 벡터화 하지 않고, 유사한 단어들을 비슷한 방향과 힘의 벡터를 갖도록 단어를 벡터화 시켜주는 방법 중 하나이다
- word2vec으로 단어들을 임베딩 시키면 단어끼리 연산도 가능하다
- 예제 코드
- url을 입력하면 해당 페이지의 문장들을 크롤링한 후 요약해줍니다 → RUN !
-> 실습결과
1) 타깃 원본 URL
2) 원본 내용
3) 요약( 세가지 타입)
2. LexRank 알고리즘
- 알고리즘 요약
- 예제 코드
- 원하는 텍스트를 변수에 저장하면 해당 문장을 요약해줍니다 → RUN !
-> 실습결과
1) 타깃 원본 URL
2) 결과
3. 부록, 구글 콜라보( Google Colaboratory Notebook) 사용방법
1) Google Colaboratory Notebook은 파이썬 쥬피터 노트북과 동일하다.
+ 써보면 알겠지만 장점이 너무 많다.
2) 일단, 1.연결한다
3) 2.재생버튼을 하나씩 클릭한다.
4) 끝 ;D
참 쉽죠 ~
'새로워지기 > 마흔의 생활코딩' 카테고리의 다른 글
마흔에 정석을 다시 펼치다 01 for.딥러닝 (feat.회귀 이론) (0) | 2021.07.01 |
---|---|
블록체인에 왠 시큐어 코딩이냐고?! (0) | 2021.06.09 |
마흔에 블록체인) 하이퍼레저 페브릭 실습 01~ 03 (0) | 2021.06.05 |
마흔에 도커) 기본 명령어 기록(-ing) (0) | 2021.06.05 |
(인코딩 테스트) matplotlib 한글 폰트 깨짐 현상 (0) | 2021.04.05 |
댓글