Làm cách nào để đọc tệp .data bằng Python? – python đọc dữ liệu bài đăng

Trong khi làm việc với việc nhập dữ liệu và thu thập dữ liệu cho các mô hình đào tạo, chúng tôi bắt gặp các tệp .data.

Bạn đang xem : python đã đọc dữ liệu bài đăng

Trong khi làm việc với việc nhập dữ liệu và thu thập dữ liệu cho các mô hình đào tạo, chúng tôi bắt gặp tệp .data .

Đây là phần mở rộng tệp được một số phần mềm sử dụng để lưu trữ dữ liệu, một ví dụ như vậy sẽ là Studio phân tích , chuyên về phân tích thống kê khai thác dữ liệu .

Làm việc với Phần mở rộng tệp .data khá đơn giản và ít nhiều xác định cách dữ liệu được sắp xếp, sau đó sử dụng các lệnh Python để truy cập tệp cho phù hợp.

Tệp .data là gì?

Tệp .data được phát triển như một phương tiện để lưu trữ dữ liệu.

Rất nhiều lần, dữ liệu trong tệp này định dạng được đặt ở định dạng giá trị được phân tách bằng dấu phẩy hoặc định dạng giá trị được phân tách bằng tab .

Cùng với biến thể đó, tệp cũng có thể ở định dạng tệp văn bản hoặc ở dạng nhị phân. Trong trường hợp đó, chúng tôi sẽ cần truy cập nó bằng một phương pháp khác.

Chúng tôi sẽ làm việc với các tệp .csv cho bài viết này, nhưng trước tiên hãy để chúng tôi xác định xem nội dung của tệp ở dạng văn bản hoặc dạng nhị phân.

Việc xác định dữ liệu bên trong tệp .data

tệp .data có hai biến thể khác nhau và tệp bản thân nó ở dạng văn bản hoặc ở dạng nhị phân.

Để biết nó thuộc về cái nào, chúng tôi cần tải nó lên và tự mình kiểm tra.

< p class = "_ ap_apex_ad" id = "03dec052-3fc4-4753-88e1-b2bb64738009">

Hãy bắt đầu!

1. Kiểm tra: Tệp văn bản

Tệp .data hầu như có thể tồn tại dưới dạng tệp văn bản và truy cập tệp bằng Python khá đơn giản.

Được tạo sẵn dưới dạng một tính năng có trong Python, chúng tôi không cần nhập bất kỳ mô-đun nào để làm việc với việc xử lý tệp.

Có nghĩa là, cách để mở, đọc và ghi đối với một tệp bằng Python như vậy:

 # đọc từ tệp
file = open ("biscuits.data", "r")
file.read ()
file.close ()

# đang ghi vào tệp
file = open ("biscuits.data", "w")
file.write ("Sô cô la Chip")
file.close ()

2. Kiểm tra: Tệp nhị phân

Tệp .data cũng có thể ở dạng tệp nhị phân. Điều này có nghĩa là cách chúng tôi truy cập tệp cũng cần phải thay đổi.

Chúng tôi sẽ làm việc với chế độ nhị phân đọc và ghi vào tệp , trong trường hợp này, chế độ là rb hoặc đọc tệp nhị phân.

 # đọc từ tệp
file = open ("biscuits.data", "rb")
file.read ()
file.close ()

# đang ghi vào tệp
file = open ("biscuits.data", "wb")
file.write ("Oreos")
file.close ()

Các thao tác với tệp tương đối dễ hiểu bằng Python và đáng xem xét nếu bạn muốn xem các chế độ và phương pháp truy cập tệp khác nhau để truy cập chúng.

Xem Thêm  Nhà phát triển Full-Stack là gì? Hướng dẫn 2022 của chúng tôi - xác định nhà phát triển ngăn xếp đầy đủ

Một trong hai cách tiếp cận này nên hoạt động và sẽ cung cấp cho bạn một phương pháp để truy xuất thông tin liên quan đến nội dung được lưu trữ bên trong tệp .data .

Giờ chúng tôi đã biết tệp hiện có ở định dạng nào, chúng tôi có thể làm việc với gấu trúc để tạo DataFrame cho tệp csv .

3. Sử dụng Pandas để đọc tệp .data

Một phương pháp đơn giản để trích xuất thông tin từ các tệp này sau khi kiểm tra loại nội dung được cung cấp là chỉ cần sử dụng read_csv () do Pandas cung cấp.

 nhập gấu trúc dưới dạng pd
# đọc tệp csv
data = pd.read_csv ('file.data', sep = ",")
in (dữ liệu)

# đọc tệp tsv
data = pd.read_csv ('otherfile.data', sep = "\ t")
in (dữ liệu)

Phương pháp này cũng tự động chuyển đổi dữ liệu thành khung dữ liệu.

Bên dưới được sử dụng là tệp csv mẫu , đã được định dạng lại thành tệp .data và được truy cập bằng mã giống như đã nêu ở trên.

 Tham chiếu loạt bài Mô tả Giai đoạn xuất bản trước Đã sửa đổi
0 PPIQ.SQU900000 Chỉ số đầu ra PPI - Tất cả các ngành 2020.06 1183 1184
1 PPIQ.SQU900001 Chỉ số đầu ra PPI - Tất cả các ngành không bao gồm OOD 2020,06 1180 1181
2 PPIQ.SQUC76745 PPI hàng hóa đầu ra được công bố - Giao thông vận tải ... 2020.06 1400 1603
3 PPIQ.SQUCC3100 Chỉ số đầu ra PPI cấp độ 3 - Sản phẩm gỗ manufa ... 2020.06 1169 1170
4 PPIQ.SQUCC3110 Chỉ số đầu ra PPI cấp 4 - Sản phẩm gỗ manufa ... 2020.06 1169 1170
.. ... ... ... ... ...
73 PPIQ.SQNMN2100 Chỉ số đầu vào PPI cấp 3 - Hành chính và ... 2020,06 1194 1195
74 PPIQ.SQNRS211X Chỉ số đầu vào PPI mức 4 - Sửa chữa & amp; bảo trì 2020.06 1126 1127
75 FPIQ.SEC14 Chỉ số giá chi phí trang trại - Trang trại bò sữa - Vận tải hàng hóa 2020,06 1102 1120
76 FPIQ.SEC99 Chỉ số giá chi phí trang trại - Trang trại bò sữa - Tất cả ... 2020,06 1067 1068
77 FPIQ.SEH14 Chỉ số giá chi phí trang trại - Tất cả các trang trại - Vận chuyển hàng hóa 2020,06 1102 1110

[78 hàng x 5 cột]

Như bạn có thể thấy, nó thực sự đã cung cấp cho chúng tôi DataFrame làm đầu ra.

Cái khác là gì các loại định dạng để lưu trữ dữ liệu?

Đôi khi, phương pháp mặc định để lưu trữ dữ liệu không cắt được nó. Vì vậy, các lựa chọn thay thế để làm việc với lưu trữ tệp là gì?

Xem Thêm  Hướng dẫn: Các hàm Lambda trong Python - python làm thế nào để sử dụng các hàm lambda

1. Tệp JSON

Là một phương pháp để lưu trữ thông tin, JSON là một cấu trúc dữ liệu tuyệt vời để làm việc và hỗ trợ to lớn cho Mô-đun JSON trong Python có sự tích hợp dường như hoàn hảo.

Tuy nhiên, để làm việc với nó trong Python, bạn sẽ cần nhập mô-đun json trong tập lệnh.

 nhập json

Bây giờ, sau khi tạo cấu trúc tương thích JSON , phương pháp để lưu trữ cấu trúc đó là một thao tác tệp đơn giản với json dumps .

< pre class = "brush: python; title:; notranslate" title = ""> # kết xuất cấu trúc dưới dạng một đối tượng JSON trong tệp.
với open (“file.json”, “w”) là f:
json.dumps ([‘foo’, {‘bar’: (‘baz’, None, 1.0, 2)}], f)
# bạn cũng có thể sắp xếp các phím và in đẹp đầu vào bằng mô-đun này
với open (“file.json”, “w”) là f:
json.dumps ([‘foo’, {‘bar’: (‘baz’, None, 1.0, 2)}], f, indent = 4, sort_keys = True)

Lưu ý rằng chúng tôi đang kết xuất vào tệp bằng cách sử dụng biến f .

Hàm tương đương để truy xuất thông tin từ JSON tệp được gọi là load .

 với open ('file.json') là f:
    data = json.load (f)

Điều này cung cấp cho chúng tôi cấu trúc và thông tin của đối tượng JSON bên trong tệp.

2. Pickle

Thông thường, khi bạn lưu trữ thông tin, thông tin được lưu trữ ở định dạng chuỗi thô, khiến đối tượng mất các thuộc tính và chúng tôi sẽ cần tạo lại đối tượng từ một chuỗi thông qua Python.

Mô-đun pickle được sử dụng để giải quyết vấn đề này và được tạo ra để tuần tự hóa và hủy tuần tự hóa các cấu trúc đối tượng Python, để nó có thể được lưu trữ trong một tệp.

Điều này có nghĩa là bạn có thể lưu trữ một danh sách thông qua pickle và khi nó được tải lên bởi mô-đun pickle vào lần sau, bạn sẽ không mất bất kỳ thuộc tính nào của đối tượng danh sách.

Để sử dụng nó, chúng tôi sẽ cần nhập Mô-đun pickle , không cần cài đặt vì nó là một phần của thư viện python chuẩn.

 import dưa muối

Hãy để chúng tôi tạo từ điển để làm việc với tất cả các thao tác tệp của chúng tôi cho đến thời điểm này.

 apple = {"name": "Apple", "price": 40}
banana = {"name": "Banana", "price": 60}
cam = {"name": "Orange", "price": 30}

fruitShop = {}
fruitShop ["apple"] = quả táo
fruitShop ["banana"] = chuối
fruitShop ["orange"] = cam

Làm việc với mô-đun dưa chua cũng đơn giản như làm việc với JSON.

 file = open ('fruitPickles', 'ab')
# chế độ 'ab' cho phép chúng tôi thêm vào tệp
# ở định dạng nhị phân

# phương thức kết xuất gắn vào tệp
# ở định dạng tuần tự an toàn.
pickle.dump (fruitShop, tệp)
file.close ()

file = open ('fruitPickles', 'rb')
# bây giờ, chúng ta có thể đọc từ tệp thông qua hàm tải.
fruitShop = pickle.load (tệp)
file.close ()

Kết luận

Giờ bạn đã biết tệp .data là gì và cách làm việc với chúng. Cùng với điều này, bạn cũng biết các tùy chọn khác có sẵn để thử nghiệm, nhằm lưu trữ và truy xuất dữ liệu.

Xem Thêm  Giá trị mặc định của thuộc tính vị trí css là gì? - giá trị mặc định của thuộc tính vị trí là gì

Hãy xem các bài viết khác của chúng tôi để có hướng dẫn chuyên sâu về từng mô-đun này – Xử lý tệp , Pickle, JSON .

Tài liệu tham khảo


Xem thêm những thông tin liên quan đến chủ đề python đọc dữ liệu bài đăng

[Lập trình Python] Biến file. Đọc và ghi file

  • Tác giả: Lập trình Python
  • Ngày đăng: 2021-12-11
  • Đánh giá: 4 ⭐ ( 8157 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Dulieukieufilebienfilecontrofilemofiledocfileghidulieulenfilemaxphuongthucreadphuongthucreadline

Chi tiết bài học 17.Xử lý tệp Python

  • Tác giả: vimentor.com
  • Đánh giá: 5 ⭐ ( 4571 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Vimentor chi tiết bài học Xử lý tệp Python: Tạo, mở, ghi tiếp, đọc, ghi

Đọc file trong python

  • Tác giả: laptrinhcanban.com
  • Đánh giá: 3 ⭐ ( 5088 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Hướng dẫn cách xử lý file trong Python. Bạn sẽ biết cách đọc file trong python bằng mode r trong python, với các phương pháp như đọc toàn bộ file trong python hoặc đọc từng dòng file txt trong Python

Input và Đọc ghi file trong Python

  • Tác giả: toidicode.com
  • Đánh giá: 4 ⭐ ( 7479 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Ở các bài trước chúng ta đã được tìm hiểu về các kiểu dữ liệu, toán tử cũng như cách khai báo hàm,… trong Python rồi, nhưng ở các bài đó chủ yếu vẫn là làm việc với hệ thống, dữ liệu có sẵn. Mà chúng ta chưa biết cách nhận dữ liệu mà người dùng nhập vào trên comandline, và bài hôm nay chúng ta sẽ tìm hiều về nó.

Bài 11: Đọc dữ liệu và kĩ thuật reindexing

  • Tác giả: vncoder.vn
  • Đánh giá: 4 ⭐ ( 5339 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: reindexing trong panda, kĩ thuật reindexing panda, Đọc dữ liệu trong panda

Python cơ bản

  • Tác giả: hiepsiit.com
  • Đánh giá: 5 ⭐ ( 2784 lượt đánh giá )
  • Khớp với kết quả tìm kiếm:

  • Tác giả: mcivietnam.com
  • Đánh giá: 3 ⭐ ( 8537 lượt đánh giá )
  • Khớp với kết quả tìm kiếm:

Xem thêm các bài viết khác thuộc chuyên mục: Kiến thức lập trình