Trong Data Science, có khá nhiều nghề với các job titles khác nhau, nhưng nhìn chung tất cả đều có thể gom vô làm 3 nhóm chính:
Nhóm Engineer: Data Engineer và AI/ML Engineer
Nhóm Scientist: Data Scientist
Nhóm Analyst: Business Intelligence Analyst, Data Analyst
Vai trò của từng nhóm nghề
Đặt 3 nhóm nghề này vào ví dụ nhà hàng của chúng ta thì, nhóm Data Engineer sẽ là những người đem nguyên liệu về, sơ chế, và cất trữ cho mọi người trong bếp cùng dùng. Nhóm Scientist giống như là những người đầu bếp chuyên nghiên cứu tạo ra công thức món ăn mới. Nhóm AI/ML Engineer sẽ kiếm cách chế tạo máy/quy trình để có thể làm được món theo công thức Scientist đưa ra một cách ‘công nghiệp' hơn. Không giống như Scientist, các đầu bếp Analyst thì có thế mạnh là tuỳ cơ ứng biến. Họ biết nguyên liệu trong bếp có gì và tuỳ khách hàng họ có thể “nhanh chóng" cho ra món ăn theo yêu cầu cụ thể.
Tương tự, trong một công ty có hệ thống hạ tầng và nhân lực đầy đủ, thì mọi thứ sẽ bắt đầu với Data Engineer - người gom data từ nhiều nguồn về ‘sơ chế', chuẩn hoá và lưu trữ tập trung để những người khác chỉ việc lấy ra sử dụng thôi. Tiếp đến, nhóm Scientist sẽ tạo ra các predictive (vd: khách hàng nào có khả năng cao sẽ rời bỏ brand A) và/hoặc prescriptive model (vd: đối với nhóm khách hàng có khả năng cao sẽ rời bỏ thì brand A nên target họ với marketing campaign nào: discount sales, TVC hay Social media để tăng tối đa lợi nhuận). Nhóm AI/ML Engineer sẽ kiếm cách đưa model của Scientist ‘vào production' - nghĩa là, áp dụng model đã được test thành công vào hoạt động chính thức trên quy mô lớn. Không giống như Scientist, các Analyst thì thường giải quyết các vấn đề liên quan đến hoạt động của doanh nghiệp có tính cấp bách hơn (vd: lưu lượng khách tới cửa hàng giảm là vì sao?). Đây là những vấn đề mà cty cần trả lời nhanh nhất để có thể đưa ra quyết định chỉnh đốn kịp thời. Doanh nghiệp không thế đợi vài tuần hoặc vài tháng cho Data Scientist (và Engineer) tạo model, test và triển khai được.
Khác biệt giữa các nhóm nghề trong Data Science từ 3 góc nhìn
Có 3 góc nhìn mà các bạn có thể dùng để phân biệt các nhóm ngành trong Data Science:
1. “Bài toán" (chủ đạo) trong công việc
Engineering problems, naturally, là những bài toán mà Engineer phải đối mặt hàng ngày trong công việc. Đây là những bài toán liên quan đến hệ thống/máy móc mà câu hỏi và đáp án có thể được định nghĩa tương đối rõ ràng.
Ví dụ: làm sao để hệ thống data có thể phục vụ 100 hay 1,000,000 người dùng data cùng lúc mà không bị lag, nhưng lại tốn ít tiền đầu tư và bảo trì nhất? sắp xếp và đặt lịch cho các tasks thế nào để đảm bảo mọi task chạy trơn tru và tránh được những lỗi có thể xảy ra?
Analytical/Modeling problems: những bài toán mang tính chất xã hội hơn và khi đã có yếu tố con người thì nó sẽ ít rõ ràng hơn những bài toán liên quan đến hệ thống hay máy móc.
Ví dụ: làm sao dự báo doanh số trong 2 năm tới là bao nhiêu? budget chỉ có 10k thì chọn phương án marketing nào nằm trong budget nhưng vẫn đem lại lợi nhận cao nhất cho mỗi đồng được tiêu ra hoặc vẫn giúp công ty đạt target? làm cách nào phát hiện các giao dịch lừa đảo?
2. Lượng người/data cần phục vụ
Engineer sẽ xử lý data cho hàng trăm thậm chí hàng triệu người dùng trong và ngoài công ty.
Scientists cũng có thể nhập và xử lý data, nhưng data họ xử lý ra là phục vụ vào việc xây dựng model của họ, không nhằm cho cả trong và ngoài công ty sử dụng.
Còn Analysts cũng có thể xử lý data đó, nhưng data mà họ xử lý đơn giản hơn và thường cho số ít người dùng (vd: lấy file từ Marketing hoặc table được Engineers làm sẵn, sau đó chuẩn hoá theo nhu cầu cụ thể của họ và tạo bảng cho nội bộ team dùng)
3. Bộ môn chính yếu:
Các nghề trong data đều cần hiểu biết về cả ba mảng: Computer Science, Statistics và Domain. Tuy nhiên, từng vị trí sẽ cần đặc biệt chắc ở những bộ môn (discipline) khác nhau để phù hợp với những bài toán mà họ sẽ phải giải quyết hàng ngày:
Engineers: Computer Science
Scientists: Statistics
Analysts: Domain
Một số Tools/Languages liên quan cho từng vị trí
Update (2024). Hiện nay do xu hướng quản lý dữ liệu phi tập trung (data mesh), các vị trí DA, BI ngày càng bị expect phải có kiến thức và kĩ năng cơ bản về Data Engineering để tạo, update, quản lý workflows và tables cho function/department của các bạn. Điều này đặc biệt đúng nếu các bạn làm việc cho các công ty có dữ liệu lớn như các công ty consumer tech.
Tại sao các ngành nghề trong Data Science thường dễ nhầm lẫn?
--