1. Xử lý văn bản y tế (biomedical nlp):

- Đề tài sẽ tập trung vào nhiệm vụ khai phá kiến thức từ các văn bản y tế sử dụng các phương pháp học máy như phân cụm, phân loại, và xếp hạng, và các cách biểu diễn văn bản dựa trên thống kê, mô hình chủ đề, hay học sâu (word embedding/deep learning), nhất là đối với các văn bản ngắn. Người thực hiện đề tài cũng cần lưu ý đến khâu tiền xử lý để lọc nhiễu trong văn bản y tế.

- Ngôn ngữ: tiếng Việt.

2. Xây dựng dòng sự kiện theo chủ đề (thematic timeline):

- Các dòng sự kiện hướng chủ đề cung cấp miêu tả đầy đủ cho một chủ đề mà người đọc tin tức quan tâm, ví dụ như vụ rơi máy bay MH370 hay vụ khủng bố của IS ở Paris. Để tiếp cận theo hướng học không hướng dẫn, các kĩ thuật cần thiết để thực hiện đề tài này bao gồm (ít nhất là) kiến thức về tìm kiếm thông tin (information retrieval) và xử lý thời gian cho văn bản (temporal analysis).

- Ngôn ngữ: tiếng Việt, có thể phối hợp làm với tiếng Anh.

3. Mô hình hóa hội thoại xã hội (social conversation modeling):

- Ngôn ngữ và hội thoại trong mạng xã hội hay SMS chứa những đặc tính rất riêng so với ngôn ngữ và hội thoại nói chung. Việc xử lý các dữ liệu này đòi hỏi một các mô hình hóa hội thoại phù hợp với các đặc tính đó như tính ngắn, tính nén thông tin, tính phụ thuộc ngữ cảnh. Vấn đề quan trọng nhất đối với đề tài này cách thức biểu diễn nội dung của các câu hội thoại.

- Ngôn ngữ: tiếng Việt, có thể phối hợp làm với tiếng Anh.

4. Tìm kiếm sự kiện đa văn bản dựa trên mô hình chủ đề (event schema induction):

- Những sự kiện phức tạp thường có nhiều thành tố tham gia và có các sự kiện con. Ví dụ, một vụ khủng bố có các thành phân như thủ phạm, nạn nhân, hay vũ khí dùng để tấn công. Yêu cầu đối với đề tài này là sử dụng mô hình chủ đề để học cấu trúc sự kiện dựa trên một lượng lớn văn bản.

- Ngôn ngữ: tiếng Anh.

5. Phân giải đồng tham chiếu thực thể (entity coreference resolution)

- Mục tiêu của bài toán là tìm ra mối quan hệ đồng tham chiếu giữa các cách biểu diễn khác nhau của cùng một thực thể, ví dụ 'Thủ tướng Nguyễn Tấn Dũng' và 'người đứng đầu Chính phủ'. Hướng tiếp cận của đề tài là dựa trên phương pháp học không hướng dẫn hoặc dựa trên mô hình chủ đề.

- Ngôn ngữ: tiếng Việt.

6. Phân giải đồng tham chiếu sự kiện (event coreference resolution)

- Mục tiêu của bài toán là tìm ra mối quan hệ đồng tham chiếu giữa các cách biểu diễn khác nhau của cùng một sự kiện, ví dụ 'cuộc nội chiến Ukraina' và 'cuộc khủng hoảng Ukraina'. Hướng tiếp cận của đề tài là dựa trên phương pháp học có hướng dẫn hoặc không hướng dẫn. Việc xây dựng ngữ liệu là một yêu cầu của đề tài.

- Ngôn ngữ: tiếng Việt.

7. Phân tích thời gian cho văn bản (temporal analysis):

- Đề tài tập trung vào một bài toán con của phân tích thời gian là tìm kiếm và chuẩn hóa các cụm từ chỉ thời gian trong văn bản. Ví dụ, cần phải tìm cụm từ 'hôm nay' và chuẩn hóa nó thành ngày '01-12-2015'. Hướng tiếp cận của đề tài là dựa trên học có hướng dẫn hoặc xây dựng tập các luật ngôn ngữ. Việc xây dựng ngữ liệu là một yêu cầu của đề tài.

- Ngôn ngữ: tiếng Việt.

8. Xử lý văn bản luật (legal text processing):

- Đề tài yêu cầu sử dụng các kĩ thuật xử lý ngôn ngữ tự nhiên trên đối tượng là các văn bản thuộc lĩnh vực Luật. Mục tiêu để đề xuất những phương pháp dựa trên xử lý ngôn ngữ tự nhiên để hỗ trợ việc thực hiện các tác vụ thuộc lĩnh vực luật.

- Ngôn ngữ: tiếng Anh, có thể mở rộng sang tiếng Việt.

9. Phân tích cảm xúc lấy thực thể làm trung tâm (entity-centric sentiment analysis)

- Yêu cầu tiếp cận bài toán phân tích cảm xúc dựa bằng cách học không hướng dẫn sử dụng mô hình chủ đề. Với việc lấy thực thể làm trung tâm, bài toán dựa trên việc phối hợp việc học cảm xúc với việc học cấu trúc của các thực thể.

- Ngôn ngữ: tiếng Anh