q1: Term Frequency-Inverse Document Frequency, TF-IDF

a1:

TF-IDF는 “Term Frequency-Inverse Document Frequency”의 약자로, 문서 검색 및 정보 검색 분야에서 각 단어의 중요도를 평가하는 대표적인 방법입니다. 쉽게 설명하면, TF-IDF는 어떤 단어가 특정 문서에서 얼마나 중요한지를 나타내는 지표입니다. 아래에 각 구성 요소와 계산 방법을 설명해 보겠습니다.



1. Term Frequency (TF)
• 의미:
특정 문서에서 특정 단어가 얼마나 자주 등장하는지를 나타냅니다.
• 계산 방법:
보통 단어의 등장 횟수를 문서 내 총 단어 수로 나누어 계산합니다.
예를 들어, 문서 A에 단어 “apple”이 3번 등장하고, 문서의 총 단어 수가 100이라면,
TF(apple, A) = \frac{3}{100} = 0.03



2. Inverse Document Frequency (IDF)
• 의미:
전체 문서 집합에서 특정 단어가 얼마나 희귀한지를 나타냅니다.
자주 등장하는 단어는 정보의 구별력이 낮다고 보고, 드물게 등장하는 단어는 중요한 단어로 판단합니다.
• 계산 방법:
전체 문서의 수를, 특정 단어가 등장한 문서의 수로 나눈 후, 보통 로그를 취합니다.
예를 들어, 전체 문서가 1,000개이고, 단어 “apple”이 50개의 문서에 등장한다면,
IDF(apple) = \log\left(\frac{1000}{50}\right) = \log(20)
로그를 취하는 이유는 단어 빈도수의 스케일 차이를 완화하기 위해서입니다.



3. TF-IDF의 결합
• 의미:
TF와 IDF를 곱한 값으로, 특정 문서에서 단어가 얼마나 중요한지를 종합적으로 평가합니다.
• 계산:
TF\text{-}IDF(apple, A) = TF(apple, A) \times IDF(apple)
위의 예에서, TF가 0.03이고, IDF가 \log(20)이면,
TF\text{-}IDF(apple, A) = 0.03 \times \log(20)
이 값이 클수록, 해당 문서에서 “apple” 단어가 중요한 단어임을 의미합니다.



4. 왜 사용하는가?
• 핵심 아이디어:
TF는 문서 내에서 단어의 중요도를 나타내고, IDF는 전체 문서 집합에서 단어의 구별력을 나타냅니다.
• 실제 활용:
검색 엔진은 사용자가 입력한 검색어와 각 문서의 TF-IDF 점수를 비교하여, 관련성이 높은 문서를 상위에 노출합니다.
예를 들어, “apple”이라는 단어가 어떤 문서에서 자주 등장하고, 전체 문서에서는 드물게 등장한다면, 그 문서는 “apple”과 관련된 중요한 내용을 담고 있다고 판단할 수 있습니다.



결론

TF-IDF는 문서 내에서 단어의 빈도(중요도)전체 문서 집합에서의 단어 희귀도를 결합하여, 검색어와 문서 간의 관련성을 평가하는 강력한 도구입니다. 이를 통해 검색 엔진은 사용자가 원하는 정보를 보다 정확하게 제공할 수 있습니다.

반응형

+ Recent posts