Cấp bậc tác giả:

TRAINING

Hướng dẫn tải tệp CSV vào Colab

Được viết bởi webmaster ngày 11/08/2020 lúc 05:46 PM
Data science không là gì nếu không có dữ liệu. Nó liên quan đến việc đưa dữ liệu vào một định dạng cho phép khai phá dữ liệu. Có thể bạn đang sở hữu tập dữ liệu ở định dạng CSV (viết tắt của các giá trị được phân tách bằng dấu phẩy). Bài này sẽ giúp bạn bắt đầu làm quen về Data science bằng cách cho phép bạn tải tệp CSV của mình vào Google Colab.
  • 0
  • 732

Hướng dẫn tải tệp CSV vào Colab


Data science không là gì nếu không có dữ liệu. Nó liên quan đến việc đưa dữ liệu vào một định dạng cho phép khai phá dữ liệu. Có thể bạn đang sở hữu tập dữ liệu ở định dạng CSV (viết tắt của các giá trị được phân tách bằng dấu phẩy). Bài này sẽ giúp bạn bắt đầu làm quen về Data science bằng cách cho phép bạn tải tệp CSV của mình vào Google Colab.

colab-04.jpg

Colab (viết tắt của Colaboratory) là một nền tảng miễn phí của Google cho phép người dùng viết mã bằng Python. Colab về cơ bản là phiên bản Google Suite của Jupyter Notebook. Một số ưu điểm của Colab so với Jupyter bao gồm cài đặt các gói và chia sẻ tài liệu dễ dàng hơn. Tuy nhiên, khi tải các tệp như tệp CSV, nó yêu cầu một số mã hóa bổ sung. Tôi sẽ chỉ cho bạn ba cách để tải tệp CSV vào Colab và chèn tệp đó vào khung dữ liệu Pandas.
(Lưu ý: có các gói Python mang các bộ dữ liệu chung trong đó)
Để bắt đầu, hãy đăng nhập vào Tài khoản Google của bạn và truy cập Google Drive. Nhấp vào nút New ở bên trái và chọn Colaboratory nếu nó đã được cài đặt (nếu không nhấp vào Connect more apps, hãy tìm kiếm Colaboratory và cài đặt nó). Từ đó, nhập Pandas như bên dưới (Colab đã cài đặt nó rồi).
import pandas as pd
Cách 1: Từ Github (Tệp <25MB)
Cách dễ nhất để tải tệp CSV là từ kho lưu trữ GitHub của bạn. Nhấp vào tập dữ liệu trong kho lưu trữ của bạn, sau đó nhấp vào View Raw. Sao chép liên kết vào tập dữ liệu thô và lưu trữ nó dưới dạng một biến chuỗi được gọi là url trong Colab như dưới đây. Bước cuối cùng là tải url vào Pandas read_csv để lấy dataframe.
url = 'copied_raw_GH_link'
df1 = pd.read_csv(url)
# Tập dữ liệu hiện được lưu trữ trong Khung dữ liệu Pandas

Cách 2: Từ local drive
Để tải lên từ ổ đĩa cục bộ của bạn, hãy bắt đầu với mã sau:
from google.colab import files
uploaded = files.upload()
Nó sẽ nhắc bạn chọn một tệp. Nhấp vào “Choose Files”, chọn và tải tệp lên. Chờ tệp được tải lên 100%. Bạn sẽ thấy tên của tệp khi Colab đã tải nó lên.
Cuối cùng, nhập mã sau để nhập nó vào khung dữ liệu (đảm bảo tên tệp khớp với tên của tệp đã tải lên).
import io
df2 = pd.read_csv(io.BytesIO(uploaded['Filename.csv']))
# Tập dữ liệu hiện được lưu trữ trong Khung dữ liệu Pandas
Cách 3: Từ Google Drive thông qua PyDrive
Đây là phương pháp phức tạp nhất trong ba phương pháp. Tôi hướng dẫn cho ai đã từng tải tệp CSV lên Google Drive của họ để kiểm soát quy trình làm việc. Đầu tiên, hãy nhập mã sau:
# Mã để đọc tệp csv vào Colaboratory:
!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
# Xác thực và tạo ứng dụng khách PyDrive.
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)
Khi được nhắc, hãy nhấp vào liên kết để xác thực cho phép Google truy cập Drive của bạn. Bạn sẽ thấy màn hình có “Google Cloud SDK wants to access your Google Account” ở trên cùng. Sau khi bạn cho phép, hãy sao chép mã xác minh đã cho và dán vào trong Colab.
Khi bạn đã hoàn tất xác minh, hãy chuyển đến tệp CSV trong Google Drive, nhấp chuột phải vào tệp và chọn “Get shareable link”. Liên kết sẽ được sao chép vào khay nhớ tạm của bạn. Dán liên kết này vào một biến chuỗi trong Colab.
link = 'https://drive.google.com/open?id=1DPZZQ43w8brRhbEMolgLqOWKbZbE-IQu' 
# Liên kết có thể chia sẻ
Những gì bạn muốn là phần id sau dấu bằng. Để lấy phần đó, hãy nhập mã sau:
fluff, id = link.split('=')
print (id) 
# Xác minh rằng bạn có mọi thứ sau dấu '='
Cuối cùng, nhập mã sau để đưa tệp này vào khung dữ liệu
downloaded = drive.CreateFile({'id':id}) 
downloaded.GetContentFile('Filename.csv')  
df3 = pd.read_csv('Filename.csv')
# Tập dữ liệu hiện được lưu trữ trong Khung dữ liệu Pandas

Cách đặc biệt: Bổ sung cách thứ 3 hoàn chỉnh nhất
Trong Google Drive của bạn (“My Drive”), hãy tạo một thư mục có tên là data ở vị trí bạn chọn. Đây là nơi bạn sẽ tải lên dữ liệu của mình.
Từ Colab notebook, hãy nhập nội dung sau:
from google.colab import drive
drive.mount('/content/drive')
Cũng giống như phương pháp thứ ba, các lệnh sẽ đưa bạn đến bước Xác thực của Google. Bạn sẽ thấy màn hình có Google Drive File Stream wants to access your Google Account. Sau khi bạn cho phép, hãy sao chép mã xác minh đã cho và dán vào trong Colab.
Trong notebook, nhấp vào dấu > ở trên cùng bên trái của notebook và nhấp vào Files. Định vị thư mục dữ liệu bạn đã tạo trước đó và tìm dữ liệu của bạn. Nhấp chuột phải vào dữ liệu của bạn và chọn Copy Path. Lưu trữ đường dẫn đã sao chép này vào một biến và bạn đã sẵn sàng.
path = "copied path"
df_bonus = pd.read_csv(path)
# Tập dữ liệu hiện được lưu trữ trong Khung dữ liệu Pandas
Điều tuyệt vời về phương pháp này là bạn có thể truy cập tập dữ liệu từ thư mục tập dữ liệu riêng biệt mà bạn đã tạo trong Google Drive của riêng mình mà không cần thực hiện thêm các bước liên quan đến phương pháp thứ ba.

Nguồn bài viết: DOTNET.VN

BÌNH LUẬN BÀI VIẾT

Bài viết mới nhất

LIKE BOX

Bài viết được xem nhiều nhất

HỌC HTML