Data lake là gì? Các vấn đề liên quan đến data lake

Data lake là gì?

Data lake là một phương pháp lưu trữ dữ liệu trong một hệ thống hoặc kho, theo định dạng tự nhiên, tạo điều kiện cho việc sắp xếp dữ liệu trong các lược đồ và các dạng cấu trúc khác nhau, thường là đối tượng blobs hoặc các tập tin. Ý tưởng về Data lake là có một kho lưu trữ tất cả dữ liệu trong doanh nghiệp, từ dữ liệu thô (có nghĩa là bản sao của dữ liệu hệ thống nguồn gốc) để chuyển đổi dữ liệu được sử dụng cho các tác vụ khác nhau bao gồm báo cáo, hình dung, phân tích và học máy. Data lake bao gồm dữ liệu có cấu trúc từ cơ sở dữ liệu quan hệ (hàng và cột), dữ liệu bán cấu trúc (CSV, nhật ký, XML, JSON), dữ liệu phi cấu trúc (email, tài liệu, PDF) và thậm chí dữ liệu nhị phân (hình ảnh, âm thanh, video) tạo ra một kho dữ liệu tập trung có thể chứa tất cả các dạng dữ liệu.

Các vấn đề liên quan đến datalake

Về các vấn đề liên quan đến datalake chúng tôi đã thu thập từ các nghiên cứu của 2 chuyên gia Larry Fumagalli và David Bayard đến từ nhóm Cloud Platform của Oracle về những lưu ý khi xây dựng data lake.

1. Bắt đầu với một vấn đề của doanh nghiệp hay 1 tình huống thực tế cho data lake của bạn

Chúng tôi cho rằng sẽ hiệu quả hơn nếu các khách hang bắt đầu data lake của họ với một vấn đề thực tế của doanh nghiệp. Họ sẽ dễ dàng có được những kết quả mà mình mong muốn cũng như có được những thong tin để có thể làm hài lòng cấp trên. Nhờ vào việc tập trung nên họ có thể xử lý các dữ liệu một cách nhanh chóng và dễ dàng. Điều này dường như chỉ là một phần thong tin cơ bản nhưng chúng tôi vẫn muốn đề cập ở đây bởi vẫn luôn có một xu hướng cho Công nghệ thông tin khi biến data lake thành 1 dự án khoa học, thí nghiệm và xây dựng một kho dữ liệu trong mơ.

2. Sắp xếp nguồn dữ liệu phù hợp cho data lake của bạn.

Một trong những vấn đề chúng ta thường phải đôi mặt là thiếu hụt về nhân sự khi xây dựng data lake. Nếu như trong nhóm của bạn không có 1 chuyên gia về lĩnh vực này, bạn cần phải có 1 kế hoạch thay thế phù hợp. Hãy tưởng tượng điều này cũng giống như việc làm thế nào để có được những kinh nghiệm trong 1 lĩnh vực nào đó nếu như bạn không thực sự trải qua nó? Nếu như nhóm của bạn không có điều này, thật đáng tiếc nhưng con đường để đi đến thành công của con bạn có lẽ sẽ dài hơn. Chính vì vậy, việc đưa ra một kế hoạch tuyển dụng nhân lực hoặc đào tạo toàn diện nguồn nhân lực hiện có là vô cùng quan trọng.

3. Chú ý sự khác nhau giữa Data lake và Data base

Một trong những điều hay khiến chúng ta nhầm lẫn đó chính là coi việc sử dụng data lake sẽ rẻ hơn so với sử dụng database. Vì vậy, ngay cả khi trong nhóm thiếu nhân lực có chuyên môn về lĩnh vực này thì họ vẫn muốn thiết lập data lake. Họ luôn cố gắng sử dụng data lake giống như khi họ sử dụng data base và sẽ gặp khó khăn khi nhận ra nó hoàn toàn khác với database. Sau 15 tháng, họ bắt đầu thất vọng khi nhận thấy data lake không giống như những gì họ mong đợi. Đây không phải là lỗi của data lake mà đơn giản chỉ là 1 trường hợp của việc không nhất quán với mong đợi của họ. Data lake không phải là 1 giải pháp kì diệu. Nó đơn giản chỉ là những dự án được thực hiện nhanh chóng và đơn giản trong kho dữ liệu. Hãy suy nghĩ thật kĩ về việc liệu bạn có thực sự cần 1 data lake cũng như chắc chắn về những việc nó có thể cũng như không thể làm được. Đối với các khách hàng của Oracle, một khi họ đã quan tâm đến việc thiết lập và sử dụng datalake, việc đầu tiên chúng tôi làm đó là đưa ra gói dùng thử sản phẩm cho khách hàng. Khách hàng có thể sử dụng và trải nghiệm sản phẩm trong vòng 1 tháng trước khi đưa ra quyết định.

4. Luôn chú ý đến Object Storage và kết cấu của Data lake

Nếu bạn đang sử dụng Hadoop trong cloud, kết cấu xung quanh object storage không chỉ là HDFS. Object storage trong cloud với Spark mang tính khả thi và hiệu quả hơn về mặt kinh tế. Có thể bạn sẽ cảm thấy hơi phức tạp khi có quá nhiều công cụ trong Hadoop hoặc muốn sử dụng HDFS( block storage) hơn. Chính vì vậy, bạn sẽ nhận ra cần phải nỗ lực hơn hoặc chú ý hơn vào việc điều chính các công cụ , hay sao chép tạm thời các dữ liệu của các tập hợp con sang block storage. Tuy nhiên, vẫn còn rất nhiều những ưu điểm về thiết kế của object storage.

Object storage mang đến cho chúng ta một phương thức mới trong việc lưu trữ và chia sẻ dữ liệu thong qua big data clusters. Nó cũng cho phép bạn có cái nhìn lạc quan hơn về những clusters mà bạn muốn tạo ra. Ngoài ra object storage còn mang lại hiệu quả kinh tế so với việc sử dụng block storage. Điều này cũng đồng nghĩa với những ưu điểm của data lake chính là quản lý dễ dàng, chi phí thấp và đem lại hiệu quả cao.

5. Đừng quên bảo vệ data lake của bạn.

Đây không chỉ đơn giản là việc lưu trữ dữ liệu mà đó còn là việc quản lý dữ liệu nữa. Bạn cần phải quản lý dữ liệu của bạn 1 cách chủ động và nghiêm ngặt. Trước đây, bạn có thể đơn giản lưu trữ dữ liệu của mình trong Oracle Database và bạn hoàn toàn có thể tin tưởng về tính an toàn của chúng. Dưới đây là những lưu ý cơ bản nhất mà bạn cần phải làm để bảo đảm tính an toàn cho dữ liệu :

  • Xác thực người dùng
  • Ủy quyền người dùng
  • Chuyển động mã hóa dữ liệu
  • Mã hóa dữ liệu

6. Suy nghĩ về việc mua với việc xây dựng data lake của bạn

Do data lake vẫn là khái niệm khá mới mẻ nên rất nhiều khách hàng vẫn chưa hiểu hết những nguồn lực cần có để xây dựng data lake. Đây không đơn thuần chỉ là kinh nghiệm để họ có thể hiểu rõ hơn về những thứ mà họ cảm thấy cần thiết. Đừng để bị mắc bẫy vào việc tự bản thân phải xây dựng mọi thứ. Mỗi thứ bạn mua đều có giá trị về mặt tiền bạn nhưng những thứ bạn xây dựng và tạo lập còn đem lại giá trị về mặt thời gian và hiệu quả sử dụng. Ví dụ về 1 sản phẩm của Oracle đã làm hài lòng rất nhiều khách hàng. Nó cho phép bạn nhập vào các dữ liệu 1 cách nhanh chóng để thực hiện những nhiệm vụ quan trọng. Hãy suy nghĩ chắc chắn về việc nhóm của bạn nên mua hay tự xây dựng data lake riêng.

7. Cân nhắc về chu trình quản lý toàn bộ dữ liệu

Data lake không chỉ là công trình khoa học dữ liệu, nó cũng không phải là nơi hoàn hảo để lưu trữ toàn bộ dữ liệu của bạn. Bạn vẫn cần phải cân nhắc đến vòng đời quản lý toàn bộ dữ liệu. Bạn cần phải tải các dữ liệu của bạn vào staging, tiến hành kiểm tra chất lượng, làm sạch cũng như khiến chúng trở nên phong phú hơn và quan lý nó. Các con số của bạn chỉ có thể chính xác nếu như chất lượng dữ liệu của bạn tốt. Một trong những lời khuyên của chúng tôi trong việc xây dựng hệ thống quản lý đó là hãy bắt đầu với những điều bạn quen thuôc. Đó có thể là 1 nguồn dữ liệu bạn đã biết hoặc đã trở nên quen thuộc với bạn ở 1 mức độ nào đó. Trong data lake, hãy xây dựng chu trình quản lý dữ liệu đầy đủ với nguồn dữ liệu đó trước khi bắt đầu với các nguồn phi cấu trúc, dữ liệu cảm biến, dữ liệu luồng, vv… Bằng cách này, bạn biết nền tảng của bạn thực sự vững chắc và nếu có điều gì sai, bạn sẽ không đặt câu hỏi về nền tảng của chính nó. Bạn sẽ tự tin hơn khi tìm kiếm nguồn gốc của sự cố ở những phần khác.

Tham khảo: viblo.asia, wiki

Leave a Reply

Your email address will not be published. Required fields are marked *