Đến nội dung

Isidia

Isidia

Đăng ký: 14-05-2016
Offline Đăng nhập: 27-02-2023 - 18:55
-----

Trong chủ đề: Ganh tỵ vì sự sôi nổi kế thừa nhau trong ngành Toán học ở học đường Việt Nam

22-02-2023 - 21:34

Xin lỗi bạn Isidia, mình bận quá nên không lên trả lời sớm hơn được.

 

Rất tiếc khi nghe về bệnh tình của bạn, cầu mong bạn sẽ gặp may mắn.

Nesbit thấy bạn có viết blog về Toán và có vẻ như vẫn còn học Toán. Theo Nesbit thì Toán nếu học đúng cách thì không hề có hại cho bộ não mà còn có lợi. Nếu bạn mất căn bản thì cần học lại những kiến thức của lớp dưới để lấy lại căn bản trước, chứ đừng ham học những kiến thức trên cao, rất có hại. Nếu bạn còn thích học Toán (dù chỉ là sở thích chứ không phải cho sự nghiệp), thì Nesbit thật lòng khuyên bạn nên làm như vậy. 

 

 

 

Không biết bạn đọc ở đâu, nhưng phần Nesbit in đậm ở trên hoàn toàn không đúng nhé. Đọc lại thì mới thấy là Nesbit quên nên tên cái ngành học đã giới thiệu cho bạn, ngành đó gọi là Computational Linguistics, machine translation là một mảng của nó. Với kiến thức Toán năm nhất đại học thôi cũng đủ để làm nhiều thứ hay ho trong ngành này (tất nhiên ngoài ra cần phải biết lập trình). Nếu bạn muốn học thì hãy đọc sách này: https://web.stanford...~jurafsky/slp3/. Lưu ý: đọc từ đầu đến cuối, step by step, đừng vội đọc những phần mình thấy thích dựa vào tiêu đề.

 

Cảm ơn bạn nhiều nhé. Mình cũng không còn ý định tự học những cái cao siêu nữa. Trình độ và khả năng mình có hạn nên mình chỉ làm việc với những chủ đề vừa sức mà thôi.

 

Mình cũng đã tìm thấy quyển của Jurafsky. Có lẽ là một trong số những sách giáo khoa hiếm về Computational Linguistics. Mình sẽ dàng thời gian đọc từ từ. Sách dày nên có lẽ cần rất nhiều thì giờ để hoàn thành.

 

Gần đây mình mới biết là các thứ như lý thuyết độ đo không quá cần thiết cho một người muốn hiểu về statistics and probability theo hướng ứng dụng. Ngay cả các nhà thống kê học chuyên nghiệp cũng có người không hiểu mấy về độ đo. Mình cũng thở phào nhẹ nhỏm.


Trong chủ đề: Combinatorics và ngôn ngữ học.

06-02-2023 - 18:44

Một câu hỏi khác về thống kê và xác suất (có liên quan đến xác suất không nhỉ?) là việc xác định hay ước lượng số lượng từ vựng một học sinh biết.

Chẳng ai nói tốt tiếng Anh quan tâm đếm xem mình biết bao nhiêu từ, nhưng vì sao một vài trang web hay app có thể đưa ra con số phổng chừng sau khi đưa ra các bài test đơn giản hay khó?

Chắc chắn phía sau phải có Toán thống kê trong đó.

Câu hỏi này liên quan đến câu hỏi trên vì, theo ý kiến của mình, mình nên biết học sinh ấy biết bao nhiêu từ trong đầu, vốn khó trả lời.

Rõ ràng có thể dễ dàng trả lời có bao nhiêu từ trong một corpus (cơ sở dữ liệu ngôn ngữ) của một ngôn ngữ, nhưng không dễ trả lời có bao nhiêu từ học trong đầu một học sinh.

Một cách đơn giản ước tính là tìm một cái list các từ có đánh số, liếc mắt qua xem mình có biết không. Ví dụ list đó có 1500 từ mà mình nhận biết được gần hết, vậy thì đem 1500 trừ đi số từ mình chưa biết thì ra khoảng tiên đoán.

https://ia903200.us....rds Book 1.pdf

Trong chủ đề: Combinatorics và ngôn ngữ học.

06-02-2023 - 18:17

Tiến lên từ tổ hợp, mình đang nghĩ và suy từ về một vấn đề sau:

 

Ta định nghĩa collocation là các cụm từ mà trong đó các từ cấu thành kết hợp với nhau với tần suất cao (tức là chúng thường đi với nhau). Ví dụ danh từ feeling hay đi với động từ to have hay to harbour và giới từ for. Vậy thì giả sử cho học sinh 5 câu hỏi, ví dụ như:

 

I ---- (1) feeling ----- (2) Long.

 

Vậy thì xác suất mà học sinh ấy đoán được khoảng trống (1) và (2) là bao nhiêu?

 

Xác suất này chắc chắn có nhiều đáp án tùy theo cách hiểu và diễn giải của người tính. Chắc chắn nó phải là xác suất có điều kiện (conditional probability).

 

Đây chỉ mới là vài suy nghĩ mơ hồ của mình. Mình xem các video về Natural Language Processing và Computational Linguistics nên quan tâm đến những vấn đề đại loại vậy.


Trong chủ đề: Combinatorics và ngôn ngữ học.

06-02-2023 - 17:06

Nếu bạn muốn biết có bao nhiêu tổ hợp cấu tạo nên một từ hay có nghĩa, thì chỉ cần tra từ điển.

Ví dụ một nguồn tổng hợp: https://github.com/dwyl/english-words

Hoặc đây http://www.math.sjsu.../dictionary.txt

Bạn có thể dùng máy tính để tổng hợp xem có bao nhiêu từ có 2 chữ, rồi so sánh với kết quả bạn tính ra để xem có bao nhiêu % từ "có nghĩa" (được từ điển ghi nhận)?

Rồi làm tương tự với $n$ chữ cái.

Wow, cám ơn bạn nhé.

 

Mình có thể thử nghiệm với một đối tượng khiêm tốn hơn. Ta có thể tính tổng số tổ hợp các cụm phụ âm (consonant clusters) (ví dụ như /pl/ trong plan (thực vật)) rồi đem so sánh với số lượng cụm phụ âm thực sự tồn tại trong tiếng Anh hiện tại. Chi tiết hơn, ta có thể phân nhóm rồi so sánh % trong mỗi nhóm cũng được.

 

Fun fact: Khi nói tới các cụm phụ âm, tiếng Ba Lan giàu hơn hẳn tiếng Anh, và thậm chí vượt mặt tiếng Nga. Đó là lý do tại sao tiếng Ba Lan là một thử thách cho người Châu Á nói thứ ngôn ngữ đơn lập (isolating morphology).


Trong chủ đề: Combinatorics và ngôn ngữ học.

06-02-2023 - 12:10

Cảm ơn bạn Ruka,

 

Mình suy nghĩ nhiều về liên hệ giữa combinatorics và ngôn ngữ học. Ý kiến mình hiện giờ là nó không hữu dụng lắm (ở mức độ elementary (sơ cấp) như thế này), vì nó chỉ giúp ta đếm được tổng số các tổ hợp của chữ cái (grapheme), âm vị (phoneme), từ (word), etc, chứ không cho ta biết trong tổng số các tổ hợp đó, có bao nhiêu tổ hợp cấu tạo nên một từ, hay đơn giản là có ý nghĩa.

 

Tuy vậy, mình vẫn có thể làm cho vui để tự học thêm về toán tổ hợp và xác suất.

 

Bài 2: Có bao nhiêu cách để 21 phụ âm và 5 nguyên âm kết hợp nhau tạo thành một dãy chữ cái với dạng CVV (V=vowels, C=consonants)

 

Có bao nhiêu cách để chọn 1 phụ âm trong số 21 phụ âm?
- Có $^{21}C_1 = 21$ cách.
 
Có bao nhiêu cách để chọn 1 nguyên âm trong số 5 nguyên âm?
- Có $^{5}C_1 = 5$ cách.
 
Và lập lại câu hỏi trên?
- Có $^{5}C_1 = 5$ cách.
 
Tổng số tổ hợp theo dạng VCC nêu trên là $21\times 5\times 5=525$ theo nguyên tắc nhân.
 
Fun fact: Số lượng tổ hợp chữ cái kết hợp theo nguyên tắc trên có rất nhiều trong tiếng Hà Lan, nhiều hơn tiếng Anh.