summarization
문서 집합을 요약하는 부분
- extractive approaches : 주어진 문서 집합 내에서 이를 대표할 수 있는 단어들이나 문장들을 선택하는 방법
- plus : 주어진 데이터에서 단어와 문장을 선택하기 때문에 터무니없는 요약 결과를 만들어 낼 가능성이 적다.
- minus : 가능한 표현이 제한된다는 단점
- abstractive approaches : 문서 집합 혹은 한 문서의 내용을 기반으로 요약문을 생성하는 방법
- minus : 학습 데이터를 기반으로 한 supervised learning 이다(특정 도메인의 문서 집합을 요약하는 모델을 만들기 위해서는 해당 도메인을 요약한 학습 데이터가 반드시 필요)
PageRank
PageRank 는 가장 대표적인 graph ranking 알고리즘
- graph ranking : 그래프 데이터에서 학습할 수 있는 몇 가지 질문 중 하나는 어떤 마디가 그래프 내에서 중요한 마디인가