top of page
Ảnh của tác giảCherry

Review nhanh Data Analysis từ ChatGPT

Đã cập nhật: 3 thg 12, 2023


ChatGPT’s Data Analysis (tạm gọi ngắn gọn là DAGPT) là một custom GPT được tinh chỉnh cho mục đích Phân tích dữ liệu. Theo như mô tả của OpenAI, các bạn có thể thả file data vào trong chat nhờ DAGPT phân tích và vẽ chart/graph cho bạn. Tuỳ vào vị trí, tuy nhiên nếu bạn là BA, BI analyst thì các công việc mà DAGPT làm được đại diện cho khoảng 40-80% khối lượng công việc hàng ngày của các bạn. Do đó, sự ra đời của các GPT có khả năng phân tích dữ liệu là một điều các bạn phải để ý tới, phải hiểu vì nó có cả khả năng giúp bạn nâng cao năng suất và thay thế các bạn.

GPT là gì?


Trong bài viết này, Cherry sẽ review khả năng của DAGPT theo 4 nhóm kĩ năng chính trên dữ liệu bán lẻ (Superstore dataset từ Kaggle) :

  1. Nhận diện và tóm tắt data

  2. Làm sạch dữ liệu

  3. Vẽ chart và trả lời câu hỏi fact-based

  4. Đưa ra insights, recommendations



1 - Cấu trúc bài review


🛑 Lưu ý quan trọng: Hiện nay, theo như OpenAI thì chỉ có ChatGPT phiên bản custom cho Enterprise và data từ API là sẽ không được dùng để train models. Nếu bạn dùng ChatGPT Plus thì dù bạn disable Data Control settings, data của bạn vẫn sẽ bị lưu giữ lại trong 30 ngày để kiểm soát abuse. Do đó, các bạn KHÔNG UPLOAD/INPUT bất kì thông tin không được public nào của công ty lên ChatGPT để tránh các hậu quả xấu cho cả bạn và cả công ty bạn (có thể bị đuổi việc hoặc bị bế ra toà).


1.1 Nhận diện và tóm tắt data


Trong phần đầu tiên, Cherry sẽ đánh giá khả năng của DAGPT trong việc nhận diện thông tin từ tập dữ liệu, bao gồm:

  • Tóm tắt nội dung file

  • Nhận xét về cấu trúc file

👉 Ổn áp



1.2 Làm sạch dữ liệu


Ở phần này, Cherry sẽ kiểm tra khả năng của DAGPT trong việc xử lý dữ liệu thô: loại bỏ dữ liệu không cần thiết, điều chỉnh và chuẩn hóa dạng dữ liệu:

  • Remove cột Row ID

  • Điều chỉnh lại định dạng các cột date từ format mm/dd/yyyy sang yyyy-mm-dd.

  • Add cột Order Month

  • Xuất ra file csv

👉 Xử lý data cơ bản là ổn, link xịn và file down về chuẩn




1.3 Vẽ chart và trả lời câu hỏi fact-based


Phần này sẽ tập trung vào khả năng của DAGPT trong việc hiểu và thực hiện các yêu cầu liên quan đến việc trả lời và vẽ biểu đồ. Các câu trả lời cần phù hợp với dữ liệu và mô tả được cung cấp.

  • Vẽ chart Sales value theo tháng rồi decompose time series đó 👉 Ổn áp


  • Xác định top 3 sản phẩm bán chạy (dựa trên Sales volume) của mỗi ngành hàng 👉 Ổn áp


  • Vẽ chart Sales value contribution của từng Segment trong năm 2017 👉 Ổn áp



1.4 Đưa ra insights, recommendations


Cuối cùng, Cherry sẽ thử thách DAGPT với các câu hỏi có tính trừu tượng cao, yêu cầu mô hình phải vượt ra khỏi việc chỉ đưa ra facts để phân tích sâu hơn và đưa ra những insight có giá trị. Điều này bao gồm việc đánh giá khả năng phân tích, kết hợp thông tin, và đưa ra các khuyến nghị hợp lý dựa trên dữ liệu.

  • Nhận xét về tình hình kinh doanh của mỗi ngành hàng

👉 Nhận xét của DAGPT có hơi 'bay' và thiếu số liệu dẫn chứng


👉 Sau khi yêu cầu back up mọi nhận xét với số liệu, DAGPT trả lại đáp án cụ thể hơn kèm code.


  • Đưa ra gợi ý cách phát triển ngành hàng bé nhất

👉 DAGPT assume 'bé' là có %profit thấp nhất


👉 Recommendation vẫn chung chung và thiếu ứng dụng



Nhận xét


Pros. DAGPT làm rất tốt các tasks fact-based - i.e., nghĩa là số liệu có sao thì nói hoặc vẽ ra như vậy. Ngoài ra, DAGPT cũng là một tool rất hữu ích để brainstorm recommendation sau khi bạn đã xác định được vấn đề và trình bày rõ ràng cho nó.


Cons. Tuy nhiên, nó vẫn còn rất nhiều hạn chế về việc đưa ra insights:

  • DAGPT hiểu cùng một term với ý khác với người dùng có trong đầu

  • Không clarify lại định nghĩa mà lại assume trong một số trường hợp (khả năng này Cherry cảm nhận là nó kém hơn bản ChatGPT general purpose)

  • Trả lời chung chung và kém tính ứng dụng trong thực tế . Trong làm việc, chúng ta sẽ cần những gợi ý cụ thể hơn, ví dụ như: ai/team nào cần làm gì để tối ưu hoá chi phí và làm trong ideally bao lâu. (Điều này thì Cherry nghĩ có thể cải thiện nếu được custom GPT được train trên data và có sự hiểu biết về hoạt động trong doanh nghiệp đó.)

Để đọc kĩ hơn ví dụ của Cherry trong bài này, các bạn có thể xem conversation của Cherry với DAGPT tại đây.


Kết luận


Dù trong bài ngày hôm nay Cherry đi vào test DAGPT của OpenAI thôi, nhưng các bạn cần hiểu là khi những sản phẩm có tiềm năng lớn (nâng cao năng suất và lợi nhuận cho doanh nghiệp) thì mọi thứ sẽ chỉ là vấn đề thời gian trước khi chức năng này được đưa vào mọi mặt của cuộc sống và công việc. Ví dụ, các bạn nào bán hàng/chạy ads online đã và đang thấy các platform mình dùng (Google Analytics, Seller Center) có tự động generate insights cho các bạn gần như ngay lập tức mà bạn không cần phải download data xuống và tự tóm tắt data. Còn bạn nào dùng các tool visualization (Power BI, Tableau, etc.) cũng sẽ thấy các chức năng auto generate insights ngày càng được hoàn thiện tốt hơn trước. Do đó, các bạn nên dành thời gian để nâng cao kĩ năng và định hướng tốt hơn cho con đường nghề nghiệp của mình.




1.536 lượt xem1 bình luận

Bài đăng gần đây

Xem tất cả

1件のコメント


Lâm Hương
Lâm Hương
2023年12月24日

Vì chưa tích hợp với doanh nghiệp nên AI chỉ cung cấp thông tin fact base vs highlight thui. Tuy nhiên, nó cũng có thể giúp rút ngắn quá trình observe data và recommend highlight points. Nói dui lỡ như nó tích hợp với doanh nghiệp + trình bày visualize trên Powerpoint thì đúng phải upgrade bản thân ko thì bay job :))

いいね!
Language Studies

STAY IN THE KNOW

Thanks for submitting!

bottom of page