Phân tích cảm xúc hiện đang trở thành một xu hướng mới trong nghiên cứu kinh tế và tài chính do nó có thể bổ khuyết cho dữ liệu truyền thống. Những phân tích kinh tế dựa trên các dữ liệu truyền thống như GDP, chỉ số giá tiêu dùng (CPI), chỉ số sản xuất (PPI)... phải mất hàng tháng hoặc hàng năm để thu thập và cần chi phí lớn để thu thập số liệu trên diện rộng.
Trong khi đó, phân tích cảm xúc có thể tận dụng các công nghệ học máy (ML) và xử lý ngôn ngữ tự nhiên (NLP) để trích xuất dữ liệu từ tin tức, báo cáo, bài viết, mạng xã hội, phân tích giọng điệu và quan điểm trong những văn bản này để dự đoán xu hướng hành vi, niềm tin thị trường, rủi ro kinh tế- chính trị, nhờ đó giảm thiểu thời gian và chi phí.
Áp dụng phương pháp này, một nhóm nhà nghiên cứu ở Học viện Công nghệ Bưu chính Viễn thông đã đề xuất một chỉ số cảm xúc kinh tế dựa trên dữ liệu từ các bài viết trên các báo điện tử kinh tế và tài chính để dự báo lạm phát tại Việt Nam.
Kết quả nghiên cứu đã được đăng trên tạp chí Journal of Open Innovation: Technology, Market, and Complexity.
Nghiên cứu sử dụng dữ liệu từ Cơ sở dữ liệu toàn cầu về sự kiện, ngôn ngữ và cảm xúc (GDELT). GDELT là một dự án truy cập mở, liên tục theo dõi truyền thông toàn cầu bằng hơn 100 ngôn ngữ, sử dụng AI và ngôn ngữ tự nhiên để tự động trích xuất thông tin về sự kiện, địa điểm, con người, tổ chức, chủ đề, số liệu và sắc thái cảm xúc tổng thể của các bài báo, cập nhật 15 phút/lần theo thời gian thực.
Để phù hợp với mục đích nghiên cứu, nhóm đã giới hạn phạm vi trong các từ khóa liên quan đến lạm phát và các trang web nổi bật. "Lạm phát", "inflation", "lãi suất", "interest rate" là các từ khóa chính, ngoài ra còn có các từ khóa như "kinh tế", "ngân hàng nhà nước", "chính sách tiền tệ", "lãi suất cơ bản", "tín dụng" và "tiền gửi". Các trang web nổi bật được chia làm ba nhóm gồm trang chính thức và kênh thông tin của các cơ quan quản lý nhà nước (chinhphu.vn, vnexpress.net, baodautu.vn); cộng đồng và diễn đàn trực tuyến của nhà đầu tư, nhà tiếp thị và chuyên gia (vietstock.vn, cafef.vn, vneconomy.vn); báo quốc tế chuyên về kinh tế và kinh doanh (CNN, Reuters, Bloomberg). Các dữ liệu được khai thác trong giai đoạn từ năm 2017 đến 2024.
![]() |
Phân tích cảm xúc giúp dự báo lạm phát tối ưu hơn. Ảnh minh họa: Linkedin |
Có sáu chỉ số cảm xúc được xây dựng: FV-Title (chỉ số cảm xúc đo từ tiêu đề bằng từ điển FinVader); FV-Text (chỉ số cảm xúc đo từ nội dung văn bản bằng từ điển cảm xúc chuyên dùng cho lĩnh vực tài chính FinVader); EL-Title (chỉ số cảm xúc đo từ tiêu đề bằng từ điển kinh tế tổng quát Economic Lexicon); EL-Text (chỉ số cảm xúc đo từ nội dung văn bản bằng từ điển Economic Lexicon); Combined-Title (chỉ số cảm xúc đo từ tiêu đề, kết hợp FinVader và Economic Lexicon); Combined-Text (chỉ số cảm xúc đo từ nội dung văn bản, kết hợp FinVader và Economic Lexicon).
Trong đó, FinVader (FV) là một phiên bản điều chỉnh từ từ điển của công cụ VADER do Hutto và Gilbert thiết kế vào năm 2014; cònEconomic Lexicon (EL) do Luca Barbaglia và cộng sự thiết kế để sử dụng trong nghiên cứu của họ vào năm 2024.
Những từ trong từ điển FV sẽ được gán điểm từ -4 (rất tiêu cực) đến +4 (rất tích cực). Các từ trong từ điển EL cũng được gán điểm từ -1 đến 1 theo cách tương tự.
Kết quả phân tích sâu cho thấy, với các dữ liệu thu được trong giai đoạn 2017 đến 2024, chỉ số tương quan của các chỉ số cảm xúc với lạm phát dao động từ 0,2 đến 0,3. Ngoại trừ chỉ số tương quan của EL-Text, các chỉ số tương quan còn lại đều có ý nghĩa thống kê, cho thấy cảm xúc từ các thông tin tài chính - kinh tế có thể giúp dự báo lạm phát. FV-Text thể hiện chỉ số tương quan cao nhất, cho thấy cảm xúc từ nội dung của các bài viết về tài chính có thể ảnh hưởng nhiều nhất tới lạm phát.
Nhóm nghiên cứu cũng thực hiện so sánh sai số trong dự báo của ba mô hình là ARIMA - mô hình kinh tế lượng truyền thống do Box và Jenkins thiết kế năm 1970; VAR - mô hình mở rộng của ARIMA, có thể xử lý nhiều biến hơn; và ANN - một mô hình học máy do Zupan phát triển năm 1994. Kết quả cho thấy, ARIMA có sai số 0,41% và ANN + EL-Text có sai số 0,4% - thể hiện rằng nếu kết hợp mô hình ANN với chỉ số cảm xúc về các thông tin kinh tế chung sẽ đem đến hiệu quả dự báo cải thiện nhẹ so với mô hình truyền thống. Và VAR+ FV-Text có sai số 0,36% - mức sai số thấp nhất, thể hiện rằng mô hình VAR kết hợp với các chỉ số cảm xúc với thông tin tài chính sẽ đem đến hiệu quả dự báo lạm phát tốt nhất.
Các kết quả nêu trên gợi ý rằng phân tích cảm xúc có thể góp phần tối ưu dự báo lạm phát, đồng thời ít tốn kém về chi phí và thời gian hơn so với các mô hình kinh tế lượng truyền thống.
Nguồn:
https://www.sciencedirect.com/science/article/pii/S2199853125001556
Diễm Quỳnh
