Xử lý ngôn ngữ tự nhiên - Natural Language Processing

Đề cương môn học

Bài giảng

Bài tập lớn

 

 

 

 

 

 

 

 

 

 

 

 

ĐỀ CƯƠNG MÔN HỌC

file pdf

Mô tả môn học

Môn học này cung cấp các kiến thức cơ sở về các phương pháp xử lý ngôn ngữ tự nhiên thông qua máy tính như phân tích hình thái từ, phân tích từ loại, phân tích cú pháp, phân tích ngữ nghĩa. Đó là các kiến thức cơ bản, là phương tiện giúp học viên có thể xây dựng các ứng dụng thực tế hơn như kiểm tra tính chính xác của văn bản, hiểu và tóm tắt văn bản, phân loại văn bản, trích rút thông tin, dịch máy, sinh văn bản, chuyển các văn bản thành dữ liệu có cấu trúc, giao diện ngôn ngữ tự nhiên để truy vấn CSDL…

Nội dung môn học

Học phần cung cấp các kiến thức về:
• Các khái niệm cơ bản về xử lý ngôn ngữ tự nhiên
• Các phương pháp phân tích từ
• Các phương pháp phân tích từ loại
• Một số cách tiếp cận cơ bản trong phân tích cú pháp
• Phương pháp biểu diễn và phân tích ngữ nghĩa
• Một số hướng nghiên cứu mới, tiêu biểu trong xử lý ngôn ngữ

Đánh giá kết quả

• Điểm quá trình: 30%
• Thi cuối kỳ: 70%

Tài liệu tham khảo về lý thuyết

  1. Christopher Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. The MIT Press.
  2. Dan Jurafsky and James Martin. 2000. Speech and Language Processing. PrenticeHall.
  3. James Allen. 1994. Natural Language Understanding. The Benajmins/Cummings Publishing Company Inc.
  4. Barton, E., Berwick, R., & Ristad, E.. 1987. Computational Complexity and Natural Language. The MIT Press. ISBN 0-26-02266-4.

Tài liệu tham khảo hỗ trợ lập trình

  1. Grant Ingersoll, Thomas Morton, Drew Farris. Taming Text : cho người lập trình bắt đầu học NLP và Search. Mỗi chương đều có ví dụ sử dụng các mã nguồn mở.
  2. Steven Bird, Ewan Klein, and Edward Loper .Natural Language Processing with Python : hướng dẫn sử dụng NLTK qua các công việc như phân loại văn bản, trích rút thông tin, …

Một số mã nguồn mở về Xử lý ngôn ngữ tự nhiên:

  1. Stanford's Core NLP Suite (viết bằng Java): http://stanfordnlp.github.io/CoreNLP/
  2. Natural Language Toolkit (viết bằng Python): http://www.nltk.org/
  3. Apache Lucene and Solr: http://lucene.apache.org/
  4. Apache OpenNLP (viết bằng Java): http://opennlp.apache.org/
  5. Apache UIMA: https://uima.apache.org/
  6. GATE (General architecture for text engineering, viết bằng Java): https://gate.ac.uk/
  Lê Thanh Hương - Bộ môn Hệ thống Thông tin - Viện CNTT&TT - ĐHBK Hà Nội
Email: huonglt@soict.hust.edu.vn