Hàm pandas read_csv () được sử dụng để đọc tệp CSV vào khung dữ liệu. Với nó, bạn cũng có thể tùy chỉnh cách bạn muốn đọc tệp.

Bạn đang xem : cách đọc tệp csv bằng pandas

Định dạng CSV (Giá trị được phân tách bằng dấu phẩy) khá phổ biến để lưu trữ dữ liệu. Một số lượng lớn các tập dữ liệu hiện diện dưới dạng tệp CSV có thể được sử dụng trực tiếp trong phần mềm bảng tính như Excel hoặc có thể được tải lên bằng các ngôn ngữ lập trình như R hoặc Python. Khung dữ liệu gấu trúc khá mạnh mẽ để xử lý dữ liệu dạng bảng hai chiều. Trong hướng dẫn này, chúng ta sẽ xem xét cách đọc tệp csv dưới dạng khung dữ liệu gấu trúc trong python.

Hàm pandas read_csv () được sử dụng để đọc tệp CSV vào khung dữ liệu. Nó đi kèm với một số thông số khác nhau để tùy chỉnh cách bạn muốn đọc tệp. Sau đây là cú pháp chung để tải tệp csv vào khung dữ liệu:

  nhập gấu trúc dưới dạng pd
df = pd.read_csv (path_to_file)  

Ở đây, path_to_file là đường dẫn đến tệp CSV bạn muốn tải. Nó có thể là bất kỳ đường dẫn chuỗi hợp lệ nào hoặc một URL (xem các ví dụ bên dưới). Nó trả về khung dữ liệu gấu trúc. Hãy xem xét một số trường hợp sử dụng khác nhau của hàm read_csv () thông qua các ví dụ –

Trước khi chúng tôi tiếp tục, hãy lấy một tệp CSV mẫu mà chúng tôi sẽ sử dụng trong suốt hướng dẫn này. Chúng tôi sẽ sử dụng tập dữ liệu Iris mà bạn có thể tải xuống từ Kaggle . Dưới đây là ảnh chụp nhanh về giao diện của nó khi mở trong excel:

Ảnh chụp nhanh tập dữ liệu mống mắt trong Excel

Để đọc tệp CSV được lưu trữ cục bộ trên máy của bạn, hãy chuyển đường dẫn đến tệp đó tới hàm read_csv () . Bạn có thể chuyển một đường dẫn tương đối, nghĩa là, đường dẫn liên quan đến thư mục làm việc hiện tại của bạn hoặc bạn có thể chuyển một đường dẫn tuyệt đối.

  # đọc csv bằng đường dẫn tương đối
nhập gấu trúc dưới dạng pd
df = pd.read_csv ('Iris.csv')
print (df.head ())  

Đầu ra:

  Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Loài
0 1 5,1 3,5 1,4 0,2 Iris-setosa
1 2 4,9 3,0 1,4 0,2 Iris-setosa
2 3 4,7 3,2 1,3 0,2 Iris-setosa
3 4 4,6 3,1 1,5 0,2 Iris-setosa
4 5 5,0 3,6 1,4 0,2 Iris-setosa  

Trong ví dụ trên, tệp CSV Iris.csv được tải từ vị trí của nó bằng đường dẫn tương đối. Ở đây, tệp hiện diện trong thư mục làm việc hiện tại. Bạn cũng có thể đọc tệp CSV từ đường dẫn tuyệt đối của nó. Xem ví dụ bên dưới:

  # đọc csv bằng đường dẫn tuyệt đối
nhập gấu trúc dưới dạng pd
df = pd.read_csv (r "C: \ Users \ piyush \ Downloads \ Iris.csv")
print (df.head ())  

Đầu ra:

  Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Loài
0 1 5,1 3,5 1,4 0,2 Iris-setosa
1 2 4,9 3,0 1,4 0,2 Iris-setosa
2 3 4,7 3,2 1,3 0,2 Iris-setosa
3 4 4,6 3,1 1,5 0,2 Iris-setosa
4 5 5,0 3,6 1,4 0,2 Iris-setosa  

Tại đây, cùng một tệp CSV được đọc từ đường dẫn tuyệt đối của nó.

Xem Thêm  Tạo một dòng mới trong C ++ - c ++ lệnh dòng mới

Bạn cũng có thể đọc tệp CSV từ URL của nó. Chuyển URL đến hàm read_csv () và nó sẽ đọc tệp tương ứng vào khung dữ liệu. Tập dữ liệu Iris cũng có thể được tải xuống từ Kho lưu trữ Máy học UCI . Hãy sử dụng URL tải xuống tập dữ liệu của họ để đọc nó dưới dạng khung dữ liệu.

  nhập gấu trúc dưới dạng pd
df = pd.read_csv ("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")
df.head ()  

Đầu ra:

  5,1 3,5 1,4 0,2 Iris-setosa
0 4,9 3,0 1,4 0,2 Iris-setosa
1 4,7 3,2 1,3 0,2 Iris-setosa
2 4,6 3,1 1,5 0,2 Iris-setosa
3 5,0 3,6 1,4 0,2 Iris-setosa
4 5,4 3,9 1,7 0,4 Iris-setosa  

Bạn có thể thấy rằng hàm read_csv () có thể đọc tập dữ liệu từ URL của nó. Điều thú vị là trong nguồn dữ liệu cụ thể này, chúng tôi không có tiêu đề. Hàm read_csv () suy ra tiêu đề theo mặc định và ở đây sử dụng hàng đầu tiên của tập dữ liệu làm tiêu đề.

Trong ví dụ trên, bạn thấy rằng nếu tập dữ liệu không có tiêu đề, thì hàm read_csv () sẽ tự suy diễn và sử dụng hàng đầu tiên của tập dữ liệu làm tiêu đề. Bạn có thể thay đổi hành vi này thông qua tham số header , chuyển None nếu tập dữ liệu của bạn không có tiêu đề. Bạn cũng có thể chuyển một danh sách các số nguyên tùy chỉnh làm tiêu đề.

  nhập gấu trúc dưới dạng pd
df = pd.read_csv ("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", header = Không có)
df.head ()  

Đầu ra:

  0 1 2 3 4
0 5,1 3,5 1,4 0,2 Iris-setosa
1 4,9 3,0 1,4 0,2 Iris-setosa
2 4,7 3,2 1,3 0,2 Iris-setosa
3 4,6 3,1 1,5 0,2 Iris-setosa
4 5,0 3,6 1,4 0,2 Iris-setosa  

Trong ví dụ trên, chúng tôi chuyển header = None vào hàm read_csv () vì tập dữ liệu không có tiêu đề.

Bạn có thể đặt tên cột tùy chỉnh cho khung dữ liệu của mình khi đọc tệp CSV bằng cách sử dụng hàm read_csv () . Chuyển tên cột tùy chỉnh của bạn dưới dạng danh sách cho thông số names .

  nhập gấu trúc dưới dạng pd
df = pd.read_csv ("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data",
                 names = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species'])
print (df.head ())  

Đầu ra:

  SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Loài
0 5,1 3,5 1,4 0,2 Iris-setosa
1 4,9 3,0 1,4 0,2 Iris-setosa
2 4,7 3,2 1,3 0,2 Iris-setosa
3 4,6 3,1 1,5 0,2 Iris-setosa
4 5,0 3,6 1,4 0,2 Iris-setosa  

Bạn cũng có thể sử dụng một cột làm nhãn hàng của khung dữ liệu. Chuyển tên cột cho tham số index_col . Quay lại Iris.csv mà chúng tôi đã tải xuống từ Kaggle. Ở đây, chúng tôi sử dụng các cột Id làm chỉ mục khung dữ liệu.

  # đọc csv với một cột dưới dạng chỉ mục
nhập gấu trúc dưới dạng pd
df = pd.read_csv ('Iris.csv', index_col = 'Id')
print (df.head ())  

Đầu ra:

  SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Loài
ID
1 5,1 3,5 1,4 0,2 Iris-setosa
2 4,9 3,0 1,4 0,2 Iris-setosa
3 4,7 3,2 1,3 0,2 Iris-setosa
4 4,6 3,1 1,5 0,2 Iris-setosa
5 5,0 3,6 1,4 0,2 Iris-setosa  

Trong ví dụ trên, bạn có thể thấy rằng cột Id được sử dụng làm chỉ mục hàng của khung dữ liệu df . Bạn cũng có thể chuyển nhiều cột dưới dạng danh sách cho tham số index_col để được sử dụng làm chỉ mục hàng.

Xem Thêm  Danh sách HTML - Cách sử dụng Dấu đầu dòng, Danh sách có thứ tự và Không có thứ tự - kiểu gạch đầu dòng ul li

Bạn cũng có thể chỉ định tập hợp con các cột để đọc từ tập dữ liệu. Chuyển tập hợp con các cột bạn muốn làm danh sách vào tham số usecols . Ví dụ: hãy đọc tất cả các cột từ Iris.csv ngoại trừ Id .

  # đọc csv với một cột dưới dạng chỉ mục
nhập gấu trúc dưới dạng pd
df = pd.read_csv ('Iris.csv', usecols = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species'])
print (df.head ())  

Đầu ra:

 SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Loài
0 5,1 3,5 1,4 0,2 Iris-setosa
1 4,9 3,0 1,4 0,2 Iris-setosa
2 4,7 3,2 1,3 0,2 Iris-setosa
3 4,6 3,1 1,5 0,2 Iris-setosa
4 5,0 3,6 1,4 0,2 Iris-setosa
 

Trong ví dụ trên, khung dữ liệu trả về không có cột Id .

Bạn cũng có thể chỉ định số hàng của tệp để đọc bằng cách sử dụng tham số nrows cho hàm read_csv () . Đặc biệt hữu ích khi bạn muốn đọc một phân đoạn nhỏ của tệp lớn.

  # đọc csv với một cột dưới dạng chỉ mục
nhập gấu trúc dưới dạng pd
df = pd.read_csv ('Iris.csv', nrows = 3)
print (df.head ())  

Đầu ra:

  Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Loài
0 1 5,1 3,5 1,4 0,2 Iris-setosa
1 2 4,9 3,0 1,4 0,2 Iris-setosa
2 3 4,7 3,2 1,3 0,2 Iris-setosa  

Trong ví dụ trên, chúng tôi chỉ đọc ba hàng đầu tiên của tệp Iris.csv .

Đây chỉ là một số điều bạn có thể làm khi đọc tệp CSV sang khung dữ liệu. Khung dữ liệu Pandas cũng cung cấp một số tính năng hữu ích để thao tác dữ liệu khi khung dữ liệu đã được tạo.

Với điều này, chúng ta sẽ đi đến phần cuối của hướng dẫn này. Các ví dụ mã và kết quả được trình bày trong hướng dẫn này đã được triển khai trong Jupyter Notebook với hạt nhân python (phiên bản 3.8.3) có gấu trúc phiên bản 1.0.5

Xem Thêm  15+ Tài liệu học NodeJS “chất” dành cho Developer - restful web service là gì

Đăng ký nhận bản tin của chúng tôi để biết thêm thông tin hướng dẫn và hướng dẫn.
Chúng tôi không spam và bạn có thể chọn không tham gia bất kỳ lúc nào.

Tác giả

  • Piyush là một nhà khoa học dữ liệu đam mê sử dụng dữ liệu để hiểu mọi thứ tốt hơn và đưa ra quyết định sáng suốt. Trong quá khứ, anh ấy từng là Nhà khoa học dữ liệu cho ZS và có bằng kỹ sư của IIT Roorkee. Sở thích của anh ấy bao gồm xem cricket, đọc sách và làm việc trong các dự án phụ.


Xem thêm những thông tin liên quan đến chủ đề cách đọc tệp csv bằng gấu trúc

1. Đọc file csv

alt

  • Tác giả: Frank T
  • Ngày đăng: 2021-08-31
  • Đánh giá: 4 ⭐ ( 4154 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Hướng dẫn cách đọc dữ liệu từ file csv bằng C

gấu trúc đọc định hướng csv

  • Tác giả: vi.uwenku.com
  • Đánh giá: 5 ⭐ ( 3564 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Hei Tôi đang cố gắng đọc trong gấu trúc tệp csv bạn có thể download from here (tỷ giá euribor Tôi nghĩ bạn có thể tưởng tượng lý do tôi muốn có tệp này!). Tệp này là tệp CSV nhưng nó được định hướng k

Ghi File CSV — C# for Automation

  • Tác giả: www.stdio.vn
  • Đánh giá: 5 ⭐ ( 1709 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: File .csv là gì, cấu trúc file CSV – cách tạo, đọc ghi file csv với các trình soạn thảo. Sử dụng C# để đọc ghi file CSV.

Làm cách nào để đọc tệp csv lớn với gấu trúc?

  • Tác giả: qastack.vn
  • Đánh giá: 4 ⭐ ( 6124 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: [Tìm thấy giải pháp!] Lỗi cho thấy máy không có đủ bộ nhớ để đọc toàn bộ CSV vào DataFrame…

PYTHON: Nhập tệp CSV dưới dạng DataFrame gấu trúc

  • Tác giả: vi.androidnetc.org
  • Đánh giá: 5 ⭐ ( 7863 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Cách Python đọc trong tệp CSV thành DataFrame của gấu trúc là gì (sau đó tôi có thể sử dụng cho các hoạt động thống kê, có thể có các cột được đánh kiểu khác, v.v.)? Tệp CSV của tôi “value.txt” có

Làm cách nào để đọc tệp csv lớn với gấu trúc?

  • Tác giả: isolution.pro
  • Đánh giá: 3 ⭐ ( 6680 lượt đánh giá )
  • Khớp với kết quả tìm kiếm:

Làm cách nào để đọc tệp csv lớn với gấu trúc?

  • Tác giả: vi.gupgallery.com
  • Đánh giá: 5 ⭐ ( 1324 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Tôi đang cố đọc một tệp csv lớn (khoảng 6 GB) bằng gấu trúc và tôi đang gặp lỗi bộ nhớ: MemoryError Traceback (lần gọi gần đây nhất) <>

Xem thêm các bài viết khác thuộc chuyên mục: Kiến thức lập trình

By ads_php