Khai thác dữ liệu phi cấu trúc
Thế giới hiện nay đang sở hữu một lượng dữ liệu khổng lồ từ các hoạt động thường ngày của mình, đa phần trong số đó là dữ liệu dưới dạng phi cấu trúc. Nếu không có cách thức xử lý và chuẩn hóa để đưa vào ứng dụng trong phân tích khách hàng, dịch vụ, ngăn chặn khủng hoảng xã hội, nguy cơ cạnh tranh, khủng bố…, có thể chúng ta sẽ dễ rơi vào tình trạng “chết khát trong biển thông tin”.
Việc xử lý dữ liệu phi cấu trúc nằm ngoài khả năng xử lý của doanh nghiệp. Ảnh: conceptodefinicion.de
Khái niệm dữ liệu phi cấu trúc
Một câu hỏi đặt ra là dữ liệu phi cấu trúc là gì? Vì sao nó lại quan trọng với chúng ta? Nói một cách đơn giản, dữ liệu phi cấu trúc là những thông tin không được định nghĩa trước về mô hình dữ liệu hay cách thức tổ chức nội dung của dữ liệu. Dữ liệu phi cấu trúc phần lớn là những dữ liệu văn bản, tạo ra theo cách diễn đạt tự nhiên của con người. Tính bất thường (irregularities) và mơ hồ (ambiguities) khiến dữ liệu phi cấu trúc khó xử lý bởi các chương trình máy tính truyền thống so với loại dữ liệu có cấu trúc được lưu trữ thành các bản ghi với kiểu dữ liệu và trường dữ liệu rõ ràng.
Chúng ta đang chứng kiến sự bùng nổ về khối lượng dữ liệu phi cấu trúc như web, văn bản, tin tức, email, mạng xã hội… từ các nguồn internet, truyền thông xã hội và dữ liệu nội bộ. Theo báo cáo năm 2015 của Deloitte, tổ chức chuyên về tư vấn doanh nghiệp, kiểm toán và dịch vụ tài chính lớn nhất thế giới, mỗi ngày cả thế giới gửi và nhận 294 tỉ email, 1 tỉ chia sẻ nội dung trên Facebook, 200 triệu ‘tweets’ (chia sẻ nội dung ngắn) trên Twitter. Theo một số nhận định trên Forbes, Forrester Research, dù lượng dữ liệu phi cấu trúc chiếm từ 80-90% khối lượng dữ liệu của các tổ chức, doanh nghiệp lớn nhưng dữ liệu này chưa được khai thác hiệu quả để có thể biến thành các quyết định, giải pháp, hành động mang lại giá trị và lợi nhuận cho doanh nghiệp hay tổ chức bởi việc nắm bắt, phân tích, tận dụng loại thông tin này gần như vượt quá khả năng của các doanh nghiệp.
Lợi ích của khai thác dữ liệu phi cấu trúc
Có một vấn đề phổ biến là hiện nhiều doanh nghiệp vẫn còn chưa nhìn nhận hết về vai trò và lợi ích của dữ liệu phi cấu trúc dù phải đối mặt với nó hằng ngày. Khai thác dữ liệu phi cấu trúc có thể áp dụng trong rất nhiều lĩnh vực như ngân hàng, đầu tư, bảo hiểm, môi giới nhà đất, viễn thông, truyền thông, sản xuất thiết bị, xuất khẩu… với một số ứng dụng như:
Hiểu sâu sắc về khách hàng (customer insights): Phân tích dữ liệu phi cấu trúc giúp phát hiện được cung cầu trên thị trường, giúp doanh nghiệp chủ động tiếp cận khách hàng tiềm năng, kết hợp với các hệ thống quản lý quan hệ khách hàng sẵn có (CRM) để có một cách nhìn bao quát đầy đủ hơn về nhu cầu khách hàng, tăng lượng khách hàng và lợi nhuận của công ty.
Ví dụ một công ty môi giới nhà đất có thể dùng hệ thống khai thác thông tin phi cấu trúc phát hiện các dự án mới trên thị trường qua nguồn tin tức, dữ liệu ngành xây dựng, quy hoạch đô thị, phát hiện thông tin về chủ đầu tư và địa điểm dự án, từ đó kết nối với khách hàng có nhu cầu tương ứng để dẫn đến một giao dịch môi giới thành công.
Hiểu sâu sắc về dịch vụ (service insights): Các phản ánh về dịch vụ thường được mô tả một cách phi cấu trúc qua các kênh như email, hệ thống quản lý phản hồi dịch vụ (web form, ticket system), tin tức, mạng xã hội… Công nghệ phân tích dữ liệu phi cấu trúc sẽ giúp phân loại thành nhóm các phản ánh, vấn đề về dịch vụ, tự động gán người xử lý, gợi ý câu trả lời. Trung bình giúp giảm 30% thời gian xử lý các vấn đề liên quan chất lượng dịch vụ của tổ chức hay doanh nghiệp.
Ví dụ khi một công ty sản xuất đồ điện tử ra mắt sản phẩm mới, thường sẽ nhanh chóng nhận được thắc mắc, phản hồi khen chê từ khách hàng qua nhiều kênh. Hệ thống xử lý dữ liệu phi cấu trúc có thể tự động phân loại các phản hồi này. Nếu là phản hồi tốt có thể dùng làm nguồn dữ liệu cho marketing, quan hệ công chúng (PR), nếu có lỗi sản phẩm thì khoanh vùng chức năng lỗi, tìm kiếm trong dữ liệu nội bộ những người đã từng giải quyết, liên quan vấn đề tương tự để gợi ý người nhanh chóng khắc phục lỗi sản phẩm và phản hồi lại khách hàng.
Hiểu sâu sắc về nguy cơ (risk insights): Phát hiện thông tin giả mạo, phát hiện theo thời gian thực các rủi ro khủng hoảng có thể thực hiện được bằng việc phân tích các nguồn dữ liệu phi cấu trúc. Việc phân tích thông tin của các đối thủ cạnh tranh trên hệ thống tin tức, mạng xã hội cũng giúp doanh nghiệp kịp thời có các giải pháp chiến lược ứng phó và cạnh tranh lại.
Ví dụ khi một doanh nghiệp Việt Nam xuất khẩu thực phẩm ra thị trường châu Âu-Mỹ. Thị trường này thường xuyên cập nhật các văn bản luật liên quan đến lĩnh vực an toàn thực phẩm, các chất cấm, sản phẩm được bảo hộ… Dùng kỹ thuật khai thác thông tin phi cấu trúc, họ có thể phát hiện xem văn bản này có liên quan đến sản phẩm công ty hay không, từ đó kịp thời điều chỉnh sản xuất, ngăn chặn các nguy cơ có thể ảnh hưởng đến sản phẩm xuất khẩu.
Kỹ thuật và hệ thống khai thác dữ liệu phi cấu trúc
Nhận thức được những lợi ích mà dữ liệu phi cấu trúc đem lại, chúng ta càng có thêm động lực để khai thác chúng một cách hiệu quả. Tuy nhiên do tính chất phức tạp mà việc khai thác dữ liệu phi cấu trúc cần có những công cụ riêng biệt để xử lý và tận dụng nó một cách hiệu quả. Hiện thách thức đối với các doanh nghiệp, tổ chức trong kỷ nguyên dữ liệu lớn không chỉ là không biết xử lý dữ liệu mà còn thậm chí không biết đến các nguồn dữ liệu có giá trị để xử lý.
Một hệ thống khai thác nguồn dữ liệu phi cấu trúc trong doanh nghiệp, tổ chức thường bao gồm các thành phần chính:
Hệ thống thu thập thông tin từ nhiều nguồn:
Nguồn tin ở đây có thể là các trang web, tin tức, các API (Application Programming Interface) do các công ty chuyên về dữ liệu cung cấp, các trang mạng xã hội, nguồn tin trao đổi trong công ty như email, tài liệu, hệ thống chat…Lưu trữ, cập nhật theo thời gian thực, phát hiện nguồn tin mới, cảnh bảo nguồn tin cũ không còn hoạt động luôn là các thách thức với các hệ thống thu thập thông tin.
Hệ thống phân loại, xử lý bóc tách các thuộc tính hữu ích từ thông tin:
Dữ liệu thu thập về thường chỉ là dạng thô, cần phải lọc bỏ các phần không cần thiết, lọc bỏ thông tin trùng lặp dư thừa, bóc tách các thuộc tính quan trọng như tên người, tên hãng, tên sản phẩm, địa điểm, thời gian… (entity extraction). Nhóm dữ liệu cùng thuộc tính (clustering), phân loại, sắp xếp dữ liệu vào các danh mục đã định nghĩa sẵn (classification), thậm trí áp dụng nhận dạng thông tin từ dữ liệu đa phương tiện như nhận dạng ký tự từ hình ảnh, file audio…Ngoài việc đảm bảo chất lượng, khả năng xử lý một khối lượng lớn dữ liệu trong thời gian thực cũng vẫn là một vấn đề lớn đòi hỏi công nghệ Big Data và các kiến trúc xử lý dữ liệu phân tán, song song.
Hệ thống lưu trữ, hỗ trợ tìm kiếm, gợi ý thông tin:
Dữ liệu sau khi “làm sạch” cần được lưu trữ để dễ tìm kiếm, dễ tổng hợp và gợi ý thông tin (thường là các search engine có chức năng indexing, matching và ranking dữ liệu). Hệ thống này cũng thực hiện các bước thống kê tần xuất, tìm mối quan hệ giữa các thuộc tính (pattern recognition) (ví dụ từ khoá “industry 4.0” hay xuất hiện cùng với “internet of things”, “xuất khẩu tôm” có thể liên quan đến chất cấm “oxytetracyline”, “cryptocurrency” hay xuất hiện với “blockchain”, “bitcoin”), dự đoán xu hướng (trend prediction) và phát hiện các điều bất thường (abnormal detection).
Hệ thống giao diện hiển thị thông tin:
Cuối cùng tất cả các thông tin qua xử lý cần có một hệ thống giao diện dễ dàng sử dụng bởi người dùng để tạo báo cáo, bảng biểu, đồ thị nhằm giúp người dùng nhìn ra thông tin hữu ích nhanh nhất để hỗ trợ quyết định và hành động. Ví dụ khi có thông tin địa điểm nên hiện giao diện là bản đồ, thông tin là sự kiện nên hiển thị theo trục thời gian, thông tin thành phần, tỉ lệ nên hiển thị kiểu Piechart, hoặc có quá nhiều từ khoá mới mức độ quan trọng khác nhau có thể dùng Wordcloud… Ngoài ra khi phát hiện điều bất thường từ dữ liệu thì chức năng cảnh báo sẽ gửi sms, email cho người sử dụng cũng là cách giúp việc tương tác với hệ thống chủ động hơn.
Các doanh nghiệp, tổ chức Việt Nam rất có thể đang đánh mất lợi thế cạnh tranh vì: chưa phát hiện ra tiềm năng của khai thác dữ liệu phi cấu trúc; các hệ thống tin học chưa đáp ứng được nhu cầu tìm kiếm phân tích thông tin; không tuyển được nhân lực và tự xây dựng một hệ thống có đủ các chức năng đã nêu.
Mặc dù các kỹ thuật xử lý thông tin phi cấu trúc, dữ liệu lớn không phải là quá mới mẻ nhưng để dùng đúng hệ thống, kết nối các thành phần một cách thông suốt, áp dụng vào đúng vấn đề vẫn là thách thức của nhiều tổ chức và doanh nghiệp quốc tế lớn.
Những tiên phong ứng dụng xử lý dữ liệu phi cấu trúc
Trên thế giới đã có những ví dụ thành công về việc xử lý và khai thác dữ liệu phi cấu trúc mà chúng ta có thể tham khảo.
Nâng cao chất lượng dịch vụ cho khách hàng ở Brookson
Brookson là một công ty ở Anh cung cấp dịch vụ chuyên nghiệp cho những người làm việc cho bản thân (self-employee) hay nhận việc theo hợp đồng ngắn (contractor). Khách hàng thường là những người có chuyên môn cao thực hiện các hợp đồng giá trị đa dạng, nên cách thức tính thuế phức tạp hơn những người có hợp đồng dài hạn.
Mặc dù khá tích cực trong việc ứng dụng các công nghệ mới như Analytics, Big data, Business Intelligent, tuy nhiên công ty phát hiện ra rằng hệ thống quan hệ khách hàng của công ty (Customer relationship management – CRM) không phát huy được hiệu quả khi phòng quản lý dịch vụ khách hàng phải xử lý mỗi tuần khoảng 30.000 email về các vấn đề của khách hàng.
Sử dụng hệ thống khai thác thông tin phi cấu trúc của công ty Squirro, các email trao đổi với khách hàng của Brookson được xử lý, áp dụng các kỹ thuật phân tích nội dung tự động, gắn với nguồn dữ liệu từ hệ thống CRM công ty đang dùng để giúp các nhân viên thông thường cũng nhìn ra quy trình bị bế tắc ở đâu, giải quyết phản hồi nhanh hơn bằng cách nhóm các khách hàng có cùng vấn đề vào một nhóm để xử lý đồng loạt mà không đòi hỏi kiến thức của các nhà khoa học dữ liệu.
Nhờ vào hệ thống phân tích dữ liệu email này, các giải pháp đã được công ty triển khai để nâng cao chất lượng dịch vụ như: Tự động phân loại, dự đoán xu hướng phản hồi và sự hài lòng khách hàng về dịch vụ, thêm các logic để xử lý hoá đơn, thắc mắc; định nghĩa lại phân khúc khách hàng, phương thức giao tiếp, phân loại lại tính hiệu quả trong việc trả lời khách hàng của nhân viên; Xem xét lại hiệu suất và tính chặt chẽ của việc trả lời khách hàng của nhân viên; Đánh giá lại các hoạt động, mức độ ảnh hưởng của mỗi phòng ban trong giao tiếp với khách hàng; Phát triển các chiến lược giao tiếp khách hàng mới để chủ động tránh việc phản hồi của khách hàng xảy ra dồn dập gây khủng hoảng về chất lượng dịch vụ.
Giảm nguy cơ tài chính qua theo dõi khủng hoảng tại ABB
ABB là công ty đa quốc gia có trụ sở tại Zurich, Thụy Sĩ, hoạt động trong lĩnh vực tự động hoá, năng lượng và robot với doanh thu khoảng 40 tỉ USD/năm.
Bộ phận truyền thông tại ABB có nhiệm vụ quan sát các cuộc khủng hoảng đang nổi lên trên toàn cầu bằng cách tìm kiếm các vấn đề và sự cố có thể ảnh hưởng đến tất cả các bên liên quan của ABB. Phòng ban này có có trách nhiệm đảm bảo rằng các giám đốc điều hành cấp C (ví dụ CEO, COO, CFO, CTO…) được thông báo kịp thời về bất kỳ rủi ro tiềm ẩn nào.
Để thực hiện nhiệm vụ này, nhóm nghiên cứu đối mặt với thách thức là phải tích hợp và đánh giá các luồng thông tin toàn cầu và địa phương bằng nhiều ngôn ngữ, bao gồm cả tiếng Trung. ABB đã sử dụng hệ thống khai thác thông tin phi cấu trúc của Squirro để giúp quản lý khối lượng và sự đa dạng của những luồng dữ liệu này.
Squirro đã sử dụng công nghệ lọc thông minh dữ liệu phi cấu trúc, tìm ra các thông tin liên quan đến sự cố, loại bỏ nhanh chóng các thông tin không cần thiết, phát hiện ra các “điểm mù” truyền thông và gửi báo cáo tự động đến các phòng ban cá nhân liên quan. Toàn bộ quy trình của hệ thống đã cung cấp cho ABB giải pháp giám sát chính xác, cho phép bộ phận truyền thông xác định các sự cố trong thời gian thực và đáp ứng lại một cách hiệu quả.
Kết quả sau 6 tuần triển khai dự án, Squirro đã giúp hơn 100 nhân viên và giám đốc điều hành cấp C xử lý công việc việc tốt hơn, giúp tiết kiệm cho tập đoàn giá trị xấp xỉ 100 triệu USD mất mát do các rủi ro và khủng hoảng tiềm ẩn.
***
Kỷ nguyên số hoá đang tiếp tục diễn ra giúp lưu trữ một lượng dữ liệu khổng lồ của con người vào trong các hệ thống máy tính. Tuy nhiên khi lượng dữ liệu phi cấu trúc thể hiện cách diễn đạt tự nhiên của con người được lưu chuyển, lưu trữ trong các hệ thống thông tin càng nhiều thì việc hiểu, xử lý nó tự động để ứng dụng trong đời sống, công việc hằng ngày càng cấp thiết, thậm chí là then chốt cho việc thành bại của doanh nghiệp, tổ chức trong cuộc CMCN4. Các công nghệ liên quan đến dữ liệu phi cấu trúc như bóc tách thông tin quan trọng từ ngôn ngữ tự nhiên, phân loại thông tin tự gán người xử lý, phát hiện mối liên quan từ nhiều văn bản, trả lời tự động (chatbot), phân tích tâm lý (sentimel analysis), tìm kiếm theo khái niệm (concept search) vẫn đang được tiếp tục hoàn thiện và bắt đầu phát huy hiệu quả trong các doanh nghiệp lớn trên thế giới.