Hướng dẫn cho người mới bắt đầu về Thư viện gấu trúc [có ví dụ] – Hành tinh Pythonista – thư viện gấu trúc trong python

Trong bài viết này, bạn sẽ tìm hiểu những kiến ​​thức cơ bản về thư viện Pandas bằng Python. Pandas là một thư viện Python rất quan trọng cho những ai quan tâm…

Bạn đang xem: thư viện gấu trúc trong python

Trong bài viết này, bạn sẽ tìm hiểu những kiến ​​thức cơ bản về thư viện Pandas bằng Python. Pandas là một thư viện Python rất quan trọng cho những ai quan tâm đến học máy và khoa học dữ liệu.

Hãy đi sâu vào và tìm hiểu cách sử dụng thư viện này.

Pandas là gì?

Pandas là thư viện Python được sử dụng để phân tích dữ liệu nhanh hơn , làm sạch dữ liệu và xử lý trước dữ liệu. Pandas được xây dựng dựa trên thư viện số của Python, được gọi là numpy.

Trước khi bạn cài đặt gấu trúc, hãy đảm bảo rằng bạn đã cài đặt numpy trong hệ thống của mình. Nếu numpy không quen thuộc với bạn, thì bạn cần xem qua bài viết này . Nâng cao kỹ năng numpy của bạn và sau đó học gấu trúc.

Bạn có thể đã nghe nói về khung dữ liệu, một thuật ngữ phổ biến trong học máy. Từ này đến từ gấu trúc. Thư viện Pandas giúp chúng tôi tạo khung dữ liệu một cách dễ dàng. Phần sau của hướng dẫn này, chúng ta sẽ nói chi tiết về khung dữ liệu.

Thư viện Pandas thường được so sánh với các trang tính excel. Rất nhiều tính năng trong trang tính excel cũng có sẵn trong gấu trúc.

Cài đặt gấu trúc

Bây giờ, hãy xem cách chúng tôi có thể cài đặt gấu trúc.

Nếu bạn đã cài đặt numpy trong hệ thống của mình, hãy cài đặt gấu trúc.

< p> Giống như bạn đã làm với numpy, bạn có thể cài đặt gấu trúc bằng bất kỳ phương pháp nào sau đây.

  • Nếu bạn có anaconda, bạn có thể đã có gấu trúc trong môi trường cơ sở của mình. Nếu không, hãy thử cài đặt nó bằng cách sử dụng sự trợ giúp của Anaconda Navigator GUI.
  • Nếu bạn có anaconda hoặc miniconda, hãy nhập lệnh sau vào dấu nhắc lệnh hoặc dấu nhắc anaconda:

< pre class = "wp-block-code"> conda install pandas

  • Nếu bạn không có conda, bạn có thể nhập pip install pandas < / strong> (dành cho Windows) hoặc pip3 install pandas (dành cho Mac) trong dấu nhắc lệnh hoặc thiết bị đầu cuối của bạn.

Giờ đây, chúng tôi đã sẵn sàng thư viện pandas. Hãy xem cách chúng tôi có thể nhập gấu trúc vào mã của mình.

Nhập gấu trúc

Chúng tôi có thể nhập gấu trúc vào mã của mình bằng cách sử dụng từ khóa nhập. Ngoài ra, đừng quên nhập numpy trước khi chúng tôi nhập gấu trúc. Đây luôn là một phương pháp hay.

  nhập numpy dưới dạng np
nhập gấu trúc dưới dạng pd  

Các lập trình viên thường sử dụng gấu trúc làm pd. Ý nghĩa là từ bây giờ, chúng ta có thể sử dụng pd thay vì sử dụng gấu trúc trong mã của mình.

Bạn có thể viết mã trong trình chỉnh sửa yêu thích của mình. Tôi sử dụng sổ ghi chép jupyter và cũng thực sự khuyên bạn nên sử dụng sổ đó.

Chuỗi trong Pandas

Thư viện Pandas có một thứ gọi là chuỗi. Chuỗi là một mảng có nhãn một chiều có khả năng chứa bất kỳ kiểu dữ liệu nào trong đó. Một chuỗi có dữ liệu và chỉ mục.

Sự khác biệt giữa một chuỗi và một danh sách bình thường là các chỉ số là 0,1,2, v.v., trong danh sách. Nhưng theo chuỗi, chúng ta có thể xác định các chỉ số của riêng mình và đặt tên chúng theo ý muốn.

Để tôi cho bạn một ví dụ.

Chúng ta có thể tạo một chuỗi bằng phương thức Series (). Lưu ý rằng chúng ta có hai đối số chủ yếu cho phương pháp này, đó là dữ liệu và chỉ mục.

Tôi hy vọng bạn hiểu chuỗi này bằng gấu trúc.

Bây giờ, hãy xem cách chúng ta có thể chuyển đổi một < span rel = "noopener" target = "_ blank"> từ điển thành một chuỗi.

Giả sử chúng ta có một từ điển có tên là danh bạ. Chúng tôi có thể chuyển đổi từ điển này thành một chuỗi bằng cách chuyển trực tiếp từ điển này dưới dạng tham số.

Hãy xem mã cho điều đó.

Lưu ý rằng từ điển được tự động chuyển đổi thành một chuỗi.

Truy cập các phần tử trong một chuỗi

Nếu bạn muốn truy cập một phần tử từ một chuỗi, bạn có thể sử dụng chỉ mục của dữ liệu bạn cần bên trong dấu ngoặc vuông, cùng với tên của chuỗi.

Ví dụ:

Thêm hai chuỗi

Chúng ta có thể thêm hai chuỗi lại với nhau bằng cách sử dụng toán tử +. Nhưng dữ liệu bên trong chuỗi chỉ được thêm vào nếu tên của các chỉ số của cả hai chuỗi đều giống nhau.

Bạn cảm thấy bối rối? Xem ví dụ sau:

Bạn có thể thấy rằng chỉ dữ liệu ở a và c mới được thêm vào vì cả hai chuỗi đều có chỉ số giống nhau. Tại b và z, nó hiển thị NaN.

Ngoài ra, hãy lưu ý rằng tất cả các giá trị được tự động chuyển đổi thành kiểu float để bạn không bị mất độ chính xác.

Khung dữ liệu trong Pandas

Chúng tôi có một cấu trúc dữ liệu quan trọng hơn ở gấu trúc, đó là khung dữ liệu. Khung dữ liệu là một cấu trúc dữ liệu hai chiều chứa các hàng và cột có thể chứa bất kỳ loại dữ liệu nào.

Bạn có thể coi nó như một bảng tính hoặc một trang tính excel. Khung dữ liệu rất giống với chúng.

Hãy xem cách chúng tôi có thể tạo khung dữ liệu.

Đối với ví dụ này, chúng tôi đang sử dụng phương pháp numpy randn để lần đầu tiên tạo ma trận 2 chiều với các giá trị ngẫu nhiên. Sau đó, chúng ta sẽ chuyển ma trận này thành một khung dữ liệu bằng phương thức pd.DataFrame ().

Chúng ta cần chuyển ma trận, tên của các hàng và tên của các cột làm tham số của phương thức này. .

Bạn có thể thấy rằng khung dữ liệu của chúng tôi trông giống như một bảng tính hoặc trang tính excel.

Truy cập các cột trong khung dữ liệu

Bạn có thể chọn các phần tử từ dữ liệu khung bằng cách chỉ định tên cột mà bạn muốn chọn trong dấu ngoặc vuông, cùng với tên khung dữ liệu.

Ví dụ: nếu chúng ta chỉ muốn chọn cột đầu tiên, thì chúng ta cần chỉ định C1 trong dấu ngoặc vuông.

Nếu bạn muốn nhiều hơn một giá trị, bạn có thể chuyển vào danh sách bên trong dấu ngoặc vuông.

Thêm một cột mới

Hãy xem cách chúng ta có thể thêm một cột mới vào khung dữ liệu này. Giả sử chúng ta cần cột C3, là tổng của các phần tử trong C1 và C2.

Do đó, chúng ta có một cột mới cho khung dữ liệu của mình.

Xóa một cột mới < / h3>

Bạn có thể xóa bất kỳ cột hoặc hàng nào bằng phương pháp drop. Giả sử chúng tôi muốn xóa cột C2.

Ở đây, axis = 1 có nghĩa là chúng ta đang xóa một cột. Nếu bạn muốn xóa một hàng, thì bạn có thể sử dụng axis = 0.

Ngoài ra, inplace = True có nghĩa là bạn đang thực sự xóa cột của mình khỏi khung dữ liệu.

Truy cập Hàng trong Khung dữ liệu

Bạn có thể chọn một hàng cụ thể từ khung dữ liệu bằng hai phương pháp, loc hoặc iloc.

Trong phương thức loc, bạn cần chuyển tên của hàng vào trong dấu ngoặc vuông.

Chúng ta cũng có thể sử dụng iloc. Nhưng ở đây, thay vì tên hàng, chúng tôi chuyển số của hàng.

Hãy xem ví dụ sau:

Bạn có thể thấy rằng bằng cách thực hiện bất kỳ phương pháp nào trong số này, chúng tôi nhận được cùng một kết quả.

Chọn một SubMatrix

Chúng ta có thể chọn một submatrix bằng cách sử dụng phương pháp loc. Chúng ta cần chuyển các hàng và cột chúng ta cần vào bên trong một danh sách.

Lựa chọn có điều kiện

Lựa chọn có điều kiện ở gấu trúc tương tự như lựa chọn có điều kiện. Chúng tôi có thể chọn dữ liệu dựa trên các điều kiện nhất định.

Hãy xem một số ví dụ.

Đặt Chỉ mục Mới cho Khung Dữ liệu

Nếu chúng ta cần thay đổi tên của các chỉ số, nghĩa là các hàng và các cột của khung dữ liệu, thì chúng ta có thể làm điều đó rất dễ dàng với gấu trúc bằng phương thức set_index ().

Hãy xem một ví dụ.

Bạn cũng có thể làm điều đó với các cột . Đừng quên thêm axis = 1 khi xử lý các cột.

Dọn dẹp dữ liệu bằng Pandas

Trong khi thực hiện các sự cố máy học, hầu hết thời gian, dữ liệu có sẵn có thể không sạch sẽ và hoàn hảo. Có thể thiếu giá trị, dữ liệu không mong muốn và nhiều vấn đề.

Vì vậy, điều rất quan trọng là phải làm sạch dữ liệu trước khi chúng tôi sử dụng cho mục đích máy học. Hãy xem một số cách mà chúng ta có thể làm sạch dữ liệu ở gấu trúc.

Hãy xem ví dụ này. Lưu ý rằng một số giá trị được đánh dấu NaN, có nghĩa là giá trị rỗng.

Bây giờ, chúng ta sẽ xem cách chúng ta có thể dọn dẹp dữ liệu này.

Giảm hàng giá trị Null

Nếu bạn muốn tránh tất cả các hàng chứa một số giá trị null, thì bạn có thể sử dụng phương thức dropna () để làm điều đó.

Hãy xem ví dụ này.

Phương pháp này rất hiếm khi được sử dụng vì không ai muốn mất dữ liệu quý giá của họ trong các ô không phải rỗng của các hàng này.

Vì vậy, hãy tìm một phương pháp tốt hơn để tránh những giá trị rỗng này.

Điền giá trị rỗng bằng một số giá trị khác

Hãy xem cách chúng ta có thể điền vào các ô giá trị rỗng này bằng một số giá trị khác. Chúng ta có thể sử dụng phương thức fillna () cho điều đó.

Ví dụ: nếu chúng ta muốn điền các giá trị null bằng cách thay thế chúng bằng từ hai, chúng ta có thể chuyển ‘hai’ làm tham số của fillna ( ).

Bạn có thể thấy rằng tất cả các giá trị null hiện được thay thế bằng hai.

Hãy xem một chiến lược khác. Sẽ tốt hơn nếu chúng ta thay thế các giá trị null bằng giá trị trung bình của các giá trị có sẵn.

Hãy xem một ví dụ trong đó chúng ta điền các giá trị null với giá trị trung bình của các giá trị khác của cột đầu tiên (cột a).

Bây giờ, bạn có thể thấy rằng tất cả các giá trị null đều được thay thế bằng 3,5.

Nhóm dữ liệu

Để chỉ cho bạn cách nhóm dữ liệu, Tôi chỉ thêm ngẫu nhiên một số tên vào các hàng. Tôi đang đặt tên giống nhau cho hai hàng và hướng dẫn bạn cách nhóm các dữ liệu đó. Để phân nhóm, chúng tôi sử dụng phương thức groupby ().

Ở đây, tôi đã nhóm các hàng bằng cách sử dụng tên của chúng và tìm giá trị trung bình. Thay vì giá trị trung bình, bạn có thể sử dụng sum () để tìm tổng, std () để tìm độ lệch chuẩn, v.v.

Đọc tệp CSV

Nếu chúng tôi có một số dữ liệu trong Tệp CSV và chúng tôi muốn đọc tệp đó, sau đó chúng tôi có thể sử dụng phương thức read_csv () để đọc dữ liệu ở gấu trúc. Bạn chỉ cần chuyển tên tệp hoặc đường dẫn làm tham số của phương thức.

Hãy xem ví dụ.

Trong trường hợp này, tệp CSV của chúng tôi nằm trong cùng một thư mục với của tệp sổ ghi chép python, nơi tôi đang viết mã. Vì vậy, hãy đảm bảo rằng tệp CSV nằm trong thư mục hoạt động hiện tại.

Trong các trường hợp khác, bạn sẽ cần chuyển đường dẫn đầy đủ của tệp làm tham số.

Ngoài ra, chúng tôi có thể đọc nhiều loại tệp khác như Excel, HTML, SQL, v.v. sử dụng gấu trúc. Có các hàm tương tự như read_excel (), read_sql (), v.v. cho mục đích này.

Ghi vào tệp

Chúng tôi cũng có thể tạo tệp từ khung dữ liệu mà chúng tôi có. Ví dụ: nếu chúng ta muốn chuyển đổi khung dữ liệu của mình thành tệp CSV, thì chúng ta có thể sử dụng phương thức to_csv ().

Chuyển khung dữ liệu làm tham số đầu tiên của phương thức này. Tham số thứ hai phải là index = True.

Bạn có thể thấy rằng một tệp CSV mới được tạo trong cùng một thư mục và tệp đó chứa tất cả dữ liệu mà chúng tôi có trong khung dữ liệu của mình.

Ngoài ra, bạn cũng có thể ghi vào nhiều loại tệp khác.

Kết luận

Chúng ta đã học những kiến ​​thức cơ bản về gấu trúc, đây là một thư viện python rất quan trọng, được sử dụng để phân tích dữ liệu, làm sạch dữ liệu và xử lý trước dữ liệu.

Thư viện Pandas cung cấp khả năng đọc nhiều loại tệp dữ liệu và cũng có thể ghi khung dữ liệu của chúng tôi vào các tệp này.

Tôi hy vọng bài viết này là hữu ích. Nếu bạn có bất kỳ nghi ngờ hoặc thắc mắc nào về chủ đề này, vui lòng cho tôi biết trong phần nhận xét.

Nếu bài viết này, tôi sẽ đánh giá cao nếu bạn sẵn sàng chia sẻ.

< p> Chúc bạn viết mã vui vẻ!


Xem thêm những thông tin liên quan đến chủ đề thư viện gấu trúc trong python

Hướng dẫn sử dụng thư viện Turtle trong Python từ A-Z

  • Tác giả: Coding Reshape Future
  • Ngày đăng: 2021-11-28
  • Đánh giá: 4 ⭐ ( 5426 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Python Turtle Tutorial A-Z
    turtle python draw animation effect photo
    —————————————————————————————–
    Author: LTP
    Editor: AP
    Turtle là một thư viện được cài đặt sẵn bằng Python, chúng ta có thể vẽ hình ảnh và các hình dạng hấp dẫn. Nó cung cấp bút trên màn hình mà chúng ta có thể sử dụng để vẽ.
    Link bài viết: https://www.crf-blogger.gq/coding/python/python-turtle-tutorial-a-z/
    —————————————————————————————–
    Tham gia cộng đồng CNTT cho những người mới bắt đầu tại : https://discord.gg/ngTea92XP7

Gấu trúc Python – Gắn dấu thời gian trong DateTimeIndex về tần suất xuất hiện gần nhất

  • Tác giả: vn.wsxdn.com
  • Đánh giá: 5 ⭐ ( 1223 lượt đánh giá )
  • Khớp với kết quả tìm kiếm:

Beginner Cần Biết: Top 30 Thư Viện Python Tốt Nhất (Phần 1)

  • Tác giả: codelearn.io
  • Đánh giá: 3 ⭐ ( 5846 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Libraries hay một Packages mang đến sự tiện lợi và nhanh chóng cho dân lập trình, nâng cao hiệu suất làm việc. Hãy cùng điểm qua top 30 thư viện không thể bỏ lỡ nhé

TOP 20 Thư viện Python tốt nhất cho từng lĩnh vực & hướng dẫn cài đặt chi tiết

  • Tác giả: mci.edu.vn
  • Đánh giá: 4 ⭐ ( 8635 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Thư viện Python hay thường được gọi là mô-đun trong Python, có nghĩa là thư viện mà chúng ta thường biết. Tất cả chúng đều chứa “sách” có giá trị thông tin, nhưng trong Python, bạn sẽ truy cập vào các mô-đun đã xuất và áp dụng chúng vào quá trình viết mã của chúng tôi, thay vì sách, chúng ta làm một số việc đơn giản nhưng tốn thời gian cho chúng ta, có thể hiểu đơn giản là việc sử dụng chúng như một chức năng xử

Thư viện pandas trong python

  • Tác giả: nguyenvanhieu.vn
  • Đánh giá: 5 ⭐ ( 2266 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Thư viện pandas python là một thư viện hỗ trợ đắc lực cho việc đọc, ghi dữ liệu và thực hiện các xử lý dữ liệu trên dataframe.

Cách cài đặt thư viện python

  • Tác giả: itzone.com.vn
  • Đánh giá: 5 ⭐ ( 3571 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: The ITZone platform Vietnam is the community for anyone interested in news, training seminars, presentations etc in the IT industry

Tài liệu miễn phí Web sinh viên

  • Tác giả: websinhvien.com
  • Đánh giá: 5 ⭐ ( 9879 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Python và các thư viện của nó – Ảnh chụp nhanh Web Sinh viên – Trang tài liệu miễn phí Sinh viên

Xem thêm các bài viết khác thuộc chuyên mục: Kiến thức lập trình

Xem Thêm  Làm thế nào để cắt mảng đa chiều trong Python? - lát python mảng 2d

By ads_php