Jump to content


TF-IDF @VNexpress: Truy xuất tin tức

  • Please log in to reply
No replies to this topic



    Đại úy

  • ĐHV Toán Cao cấp
  • 1610 posts

Định nghĩa

  1. M1 (14 words): Thách thức với ứng viên Cộng hòa tranh ghế Chủ tịch Hạ viện Mỹ
  2. M2 (12 words): Mỹ điều thêm tàu sân bay đến Israel làm tăng xung đột
  3. M3 (9 words): Lạm phát Nga tăng tốc khi đồng ruble yếu
  4. M4 (11 words): Bộ trưởng Quốc phòng Israel tuyên bố sẽ xóa sổ Hamas
  5. M5 (9 words): Nguy cơ thiếu điện trong dài hạn ở Israel

Bổ đề

  • Xung xung đột Israel và Hamas

(Đặng Hải Đăng). 20520426_

$$\operatorname{IDF}\left ( {\rm 'xung'}_{1} \right )= \operatorname{IDF}\left ( {\rm 'dot'}_{2} \right )= \operatorname{IDF}\left ( {\rm 'Hamas'}_{5} \right )= \log 5/2, \quad\operatorname{IDF}\left ( {\rm 'Israel'}_{3} \right )= \log 5/4$$

Có được $\frac{\log 5/2}{\log 5/4}= 2$, nên chuẩn hóa $\log 5/2\propto 2, \quad\log 5/4\propto 1$. Dùng Hadamard product với

$$\operatorname{Count_{T}erm}\left ( {\it square\,matrix} \right )\odot\left ( \operatorname{IDF}\left ( {\it vectors\,of\,corpus} \right ){\tt1}^T \right )= \begin{bmatrix} 0 & 0 & 0 & 0 & 0\\ 1 & 1 & 1 & 0 & 0\\ 0 & 0 & 0 & 0 & 0\\ 0 & 0 & 1 & 0 & 1\\ 0 & 0 & 1 & 0 & 0 \end{bmatrix}\odot\left ( \begin{bmatrix} 2\\ 2\\ 1\\ 0\\ 2 \end{bmatrix}{\tt1}^T \right )= \begin{bmatrix} 0 & 0 & 0 & 0 & 0\\ 2 & 2 & 1 & 0 & 0\\ 0 & 0 & 0 & 0 & 0\\ 0 & 0 & 1 & 0 & 2\\ 0 & 0 & 1 & 0 & 0 \end{bmatrix}$$

$$\therefore\operatorname{TF}\wedge\operatorname{IDF}\left ( \overrightarrow{{\it M2}} \right )= \frac{1}{12}\left ( 2, 2, 1, 0, 0 \right ), \quad\operatorname{TF}\wedge\operatorname{IDF}\left ( \overrightarrow{{\it M4}} \right )= \frac{1}{11}\left ( 0, 0, 1, 0, 2 \right ), \quad\operatorname{TF}\wedge\operatorname{IDF}\left ( \overrightarrow{{\it M5}} \right )= \frac{1}{9}\left ( 0, 0, 1, 0, 0 \right )$$

1 user(s) are reading this topic

0 members, 1 guests, 0 anonymous users