Aside

Dữ liệu như thế nào có thể bán được? Làm sao các nhà khoa học Dữ liệu (Data scientist) có thể kiếm tiền bằng cách bán các dữ liệu được tự động sinh ra như: dữ liệu thô (raw data), dữ liệu nghiên cứu (thông qua các báo cáo) hoặc các dự đoán. Tóm lại, có thể làm giàu bằng cách sử dụng hệ thống sinh/tập hợp dữ liệu, tự làm việc ở nhà, không cần người làm thêm, và có thể không cần tương tác trực tiếp với khách hàng.

Sau đây là một số công ty kiếm tiền bằng cách bán dữ liệu:

  • Thống kê về lưu lượng Web cho phép các nhà quảng cáo so sánh các publisher để tối ưu hóa lưu lượng hoặc định giá quảng cáo cho Websit, hoặc chỉ để mục đích kiểm tra mức độ cạnh tranh giữa các site nói chung. Compete.com, Alexa.com và Quancast.com là 3 ví dụ điển hình. Họ cũng cung cấp demographics và từ khóa cho hàng triệu Website mà họ theo dõi.
  • Dữ liệu về tiền lương và công việc cho hàng ngàn vị trí tuyển dụng. Các công ty như Payscale, Glassdor.com và Indeed.com thu thập dữ liệu về lương từ hàng triệu thông tin về người dùng và thông báo tuyển dụng. Các bản báo cáo về nghề nghiệp có thể được sử dụng để dự đoán kinh tế và trong các mô hình trao đổi chứng khoán (stock trading model)
  • Danh sách các từ khóa, kèm theo với số lần hiển thị, click và CPC (Cost per click) trung bình, cũng như các từ khóa liên quan, có thể giúp các nhà quảng cáo trả thêm tiền cho những từ khóa tốt hơn. Google cung cấp dịch vụ này qua API và có tính phí.
  • Danh sách đen và danh sách trắng của IP hoặc địa chỉ email sử dụng trong lừa đảo, mạng Botnet hoặc spam forum. Một ví dụ về công ty buôn bán loại dữ liệu này là ProjectHoneyPot.org.
  • Bán các dự đoán về giá của các loại cổ phiếu trong thị trường chứng khoán…

Để có thêm cái nhìn đa chiều hơn về vấn đề này, các bạn có thể đọc trong quyển sách “Miễn phí- Tương lai của một mức giá cách mạng” do Chris Anderson, tổng biên tập tạp chí Wired, viết. Ông là một trong những tiếng nói am tường, sâu sắc có trọng tâm ở nền kinh tế mới. Trong một loạt các bài báo và cuốn sách mang tính đột phá, ông đã chỉ ra các xu hướng quan trọng mới trong nền kinh tế và mô tả các mô hình kinh doanh.

free“Miễn phí là một từ có quyền năng siêu việt”, miễn phí không có nghĩa là phi lợi nhuận mà có nghĩa rằng sản phẩm phải đi trên con đường gián tiếp đến với thị trường. Đó là thông điệp được tác giả gửi đến bạn đọc ngay trong chương đầu tiên của Miễn Phí – Tương Lai Của Một Mức Giá Cách Mạng.

Miễn Phí – Tương Lai Của Một Mức Giá Cách Mạng đã lấy dẫn chứng ngay từ một sự cố diễn ra năm 2008, khi nhóm thực hiện series hài kịch Monty Python đã tuyên chiến với những người đã phát tán trái phép các chương trình của nhóm. Nhóm lập một kênh chính thức trên Youtube, cung cấp miễn phí những video chất lượng cao. Ba tháng sau thử nghiệm đó, các DVD Monty Python đã leo lên hạng nhì trong danh sách phim và chương trình TV bán chạy nhất của Amazon, với doanh số tăng 230 lần.

Miễn phí của thế kỷ XXI không phải là thứ mưu mẹo, trò lừa gạt nhằm chuyển tiền từ túi của người này sang túi của người khác. Miễn phí của thế kỷ này hoàn toàn mới, một khả năng mới phi thường làm giá thành của sản phẩm và dịch vụ giảm xuống gần bằng không. Sản phẩm miễn phí hiện nay đều có chất lượng tốt. Tuy nhiên chỉ cần bỏ thêm chút phí, người dùng có thể nâng cấp lên tốt hơn. Đó mới là nguyên tắc hoạt động cốt lõi để đem lại lợi nhuận cho doanh nghiệp.

Miễn Phí – Tương Lai Của Một Mức Giá Cách Mạng là một cuốn sách nói về các mô hình định giá cho phép miễn phí sản phẩm và dịch vụ đối với người tiêu dùng. Từ đó, bạn đọc có cái nhìn tổng quan về các dịch vụ “miễn phí” quanh mình và ứng dụng nó vào công việc kinh doanh một cách thông minh.

Tuy nhiên, việc bán dữ liệu từ người dùng cũng cần phải rất cẩn trọng, để không làm ảnh hưởng tới tính riêng tư của người dùng.

Advertisements
Aside

Xin chào các bạn đến với phần đầu của chuyên mục Hỏi & Đáp. Nếu các bạn có bất cứ câu hỏi nào về Big Data, các bạn có thể comment vào bên dưới hoặc liên hệ với chúng tôi qua trang Facebook, Twitter.

Tổng quan

Hệ thống gợi ý (Recommendation System) là ứng dụng rõ ràng nhất và hữu dụng nhất của Khoa học dữ liệu (Data Science). Bạn có thể đã gặp ứng dụng của hệ thống này khi qua các trang Amazon, Netflix, Vinabook … Ngoài nội dung mà bạn đang xem, các trang nói trên còn hiển thị các nội dung liên quan, giữ người dùng ở lại trên trang web lâu hơn, tăng được số lượng khách hàng tiềm năng…

vinabook

Một ứng dụng của Hệ gợi ý trên Vinabook.com 

Nội dung liên quan nói trên chính là các gợi ý, là kết quả được tính toán dựa trên việc thu thập dữ liệu về người dùng như khi mua hàng, khi đưa ra các đánh giá cá nhân. Việc thực hiện tính toán được xây dựng trên các thuật toán Học máy (Machine Learning), đưa ra các dự đoán tốt nhất về sản phẩm mà người dùng có thể thích, giúp gia tăng số lượng sản phẩm bán được.

Hệ thống gợi ý mang lại nhiều lợi ích to lớn cho doanh nghiệp, bao gồm:

  • Khả năng đưa ra các dịch vụ cá nhân hóa, hướng tới từng đối tượng khách hàng cụ thể.
  • Tăng mức tín nhiệm và trung thành của khách hàng.
  • Tăng doanh thu, tăng CTR (Click-through rate)…
  • Thêm hiểu biết về khách hàng

Hệ thống gợi ý đã và đang thay đổi cách chúng ta tìm kiếm sản phẩm, thông tin và các cá nhân khác. Công nghệ đằng sau hệ thống này đã được phát triển từ cách đây 20 năm, với nhiều công cụ để chúng ta có thể xây dựng một hệ thống gợi ý hiệu quả. Một số thuật toán hay được sử dụng chính như:

  • Lọc dựa trên nội dung (content-based filtering)
  • Lọc cộng tác dựa trên mô hình người dùng- người dùng (user-user collaborative filtering)
  • Lọc cộng tác dựa trên mô hình hàng hóa- hàng hóa (item-item collaborative filtering)
  • Giảm chiều ( dimensionality reduction)

Hệ thống gợi ý hoạt động như thế nào?

Trong mô hình truyền thống, có các thành phần “người dùng” và “hàng hóa”. Người dùng được mô tả bằng các thông tin liên quan như độ tuổi, giới tính, vị trí địa lý… Hàng hóa được mô tả bởi các yếu tố như: giá cả, trọng lượng… Có các tương tác giữa người dùng và hàng hóa thông qua các hành vi như: mua bán, download… Ví dụ như: người dùng A mua quyển sách B, người dùng X đánh giá sản phẩm Y với mức 5 sao…

Thuật toán lọc cộng tác là cách tiếp cận thường thấy để sinh ra các gợi ý. Nó được sử dụng bởi các site thương mại điện tử lớn, với nhiều biến thể, áp dụng cho nhiều loại hàng hóa như: sách, phim, quần áo… Cách tiếp cận phổ biến là sử dụng Trí tuệ đám đông (Wisdom of the Crowd) để gợi ý.

Ý tưởng chính của thuật toán trên dựa trên việc: nhiều người dùng có cùng sở thích trong quá khứ sẽ có khả năng cùng sở thích trong tương lai. Ví dụ: hai người dùng A & B có chung sở thích ăn uống, họ đã mua các đồ ăn giống nhau. Nếu B thích thêm Cocacola, thì A cũng có thể thích, nên ta có thể gợi ý cho A mua thêm Cocacola.

collaborative_filtering

Trong cách tiếp cận này, chúng ta quan tâm tới tương tác giữa người dùng và hàng hóa, và sử dụng thông tin về các đánh giá về sản phẩm mà người dùng trực tiếp hoặc gián tiếp cung cấp để thực hiện tính toán. Tương tác đó có thể được biểu diễn dưới dạng ma trận (trong thực tế, ma trận này tương đối thưa). Mỗi ô trong ma trận chứa dữ liệu mô tả tương tác giữa người dùng và hàng hóa. Dữ liệu có nhiều dạng, ví dụ đánh giá sản phẩm là tốt hay không tốt, hay chỉ đơn thuần là đánh dấu việc người dùng có tương tác với sản phẩm đó.

collaborative_filtering_matrix

Thuật toán có khả năng suy diễn và điền vào các ô còn thiếu trong ma trận. Ví dụ đưa ra dự đoán về đánh giá của người dùng X đối với bộ phim A khi ta đã biết đánh giá của X với bộ phim B. Đơn giản là: chúng ta có thể tìm tất cả người dùng đã đánh giá cả hai bộ phim A và B, dựa trên đó có thể tính đánh giá trung bình của X đối với B.

Trong thực tế việc đảm bảo hệ thống gợi ý có thể hoạt động tốt khi hệ thống phát triển trên quy mô lớn là điều sống còn cho nhiều doanh nghiệp, Các hệ thống như Apache Hadoop, Apache Spark cùng thư viện học máy MLib… có thể giải quyết tốt nhu cầu đó.

Kết luận

Bên cạnh các phương pháp marketing liên quan tới SEO, việc sử dụng Hệ thống gợi ý là một cách tiếp cận tốt để tăng khả năng cạnh tranh của doanh nghiệp thương mại điện tử trong kỷ nghuyên dữ liệu lớn

Tham khảo

  1. Collaborative Filtering: A Tutorial, by William W. Cohen. Center for Automated Learning and Discovery. Carnegie Mellon University
  2. A Programmer’s Guide to Data Mining, chapter 2: Collaborative Filtering, by Ron Zacharski.
  3. Collaborative Filtering : Implementation with Python!