top of page
Ảnh của tác giảCherry

Trò Chuyện cùng Dữ Liệu với Pandas AI


Pandas AI là một minh chứng cho việc các mô hình ngôn ngữ lớn (LLM) như GPT-4 đang thay đổi cách chúng ta tương tác với dữ liệu. Thay vì phải viết các lệnh phức tạp, bạn chỉ cần hỏi một câu hỏi tự nhiên, và AI sẽ làm phần còn lại. Điều này không chỉ giúp tiết kiệm thời gian mà còn mở ra cơ hội mới cho các bạn trẻ yêu thích phân tích dữ liệu nhưng chưa có kinh nghiệm lập trình.






A. Về Pandas AI


Tổng quan

Pandas AI là một công cụ giúp bạn tương tác với dữ liệu bằng ngôn ngữ tự nhiên. Nó kết hợp sức mạnh của thư viện Pandas (một công cụ phổ biến để xử lý dữ liệu trong Python) với khả năng hiểu và trả lời câu hỏi của trí tuệ nhân tạo. Nhờ đó, bạn có thể "nói chuyện" với dữ liệu của mình một cách tự nhiên, không cần phải hiểu sâu về lập trình hay các thuật toán phức tạp, và AI sẽ giúp bạn phân tích và trả lời các câu hỏi chỉ trong tích tắc.


Ví dụ:

Nếu bạn có một tập dữ liệu về doanh số bán hàng, bạn có thể hỏi Pandas AI những câu hỏi như:

  • "Doanh số bán hàng của sản phẩm A trong tháng trước là bao nhiêu?"

  • "Sản phẩm nào bán chạy nhất trong năm nay?"

  • "Có mối quan hệ nào giữa giá sản phẩm và doanh số không?"

Pandas AI sẽ xử lý dữ liệu của bạn và trả lời câu hỏi của bạn một cách chính xác và dễ hiểu.


Tính năng chính

  • Natural language querying: truy vấn bằng ngôn ngữ tự nhiên.

  • Data visualization: Tạo biểu đồ và sơ đồ để trực quan hóa dữ liệu của bạn.

  • Data cleansing: Làm sạch tập dữ liệu, ví dụ bằng cách xử lý các giá trị bị thiếu.

  • Feature generation: Nâng cao chất lượng dữ liệu thông qua việc tạo trường thông tin mới.

  • Data connectors: ết nối với nhiều nguồn dữ liệu khác nhau như CSV, XLSX, PostgreSQL, MySQL, BigQuery, Databrick, Snowflake, etc.



B. Pandas AI hoạt động như thế nào


Mỗi request của bạn sẽ bao gồm 2 bước:


(1) Pandas AI sẽ gửi (a) câu hỏi của bạn kèm (b) theo một mẫu dữ liệu nhỏ đến LLM.

  • Nếu data của bạn nhạy cảm và bạn muốn tăng cường quyền riêng tư của mình, bạn có thể khởi tạo PandasAI với enforce_privacy = True, điều này sẽ không gửi dữ liệu mẫu, mà chỉ là tên cột đến LLM.


(2) LLM sau đó dịch câu hỏi thành mã Python hoặc SQL trả về Pandas AI.


(3) Pandas AI sẽ thực thi mã này để trả về kết quả cho bạn.

Không dừng lại ở tabular data, bạn còn có thể visualize data với Pandas AI như hình dưới đây:



C. Test thử Pandas AI



(1) Để chạy các đoạn mã trong file Google Colab bên dưới, bạn sẽ cần một API Key từ OpenAI.

(2) Cách Lấy API Key từ OpenAI
🛑 CẢNH BÁO Lưu ý mức sử dụng của bạn (lượt và lượng data hỏi), các bạn có thể bị tính phí nếu sử dụng hết hạn mức miễn phí. Ngoài ra, KHÔNG share mã API của mình cho bất kì ai.

  1. Đăng ký tài khoản Platform OpenAI tại đây nếu bạn chưa có tài khoản.

  2. Sau đó, bạn có thể truy cập https://platform.openai.com/account/api-keys để tạo/lấy API key của mình. API key chỉ được hiển thị MỘT LẦN nên hãy sao chép nó lại.

  3. Tao 1 bản copy của file Google Colab này

  4. Ở phía bên trái của màn hình (trong Google Colab), nhấp vào biểu tượng Key. Sau đó, chọn Add new secret với

    1. Name là `OPENAI_API_KEY`,

    2. Value là API key bạn vừa sao chép và

    3. Bật Notebook Access




---


Hi vọng bài viết này đã giúp các bạn hiểu hơn về cách sử dụng Pandas AI để phân tích dữ liệu. Chúc các bạn thành công!




120 lượt xem0 bình luận

Bài đăng gần đây

Xem tất cả

Comments


Language Studies

STAY IN THE KNOW

Thanks for submitting!

bottom of page