Đào tạo và kiểm tra tập dữ liệu trong Học máy với Hướng dẫn, Giới thiệu về Học máy, Học máy là gì, Học máy dữ liệu, Học máy và trí tuệ nhân tạo, v.v.

Bạn đang xem: đào tạo và kiểm tra dữ liệu

tiếp theo →
← trước

Đào tạo và kiểm tra tập dữ liệu trong Học máy

Máy học là một trong những công nghệ đang bùng nổ trên toàn thế giới cho phép máy tính / máy móc biến một lượng lớn dữ liệu thành dự đoán. Tuy nhiên, những dự đoán này phụ thuộc nhiều vào chất lượng của dữ liệu và nếu chúng ta không sử dụng đúng dữ liệu cho mô hình của mình, thì nó sẽ không tạo ra kết quả như mong đợi. Trong các dự án máy học, chúng tôi thường chia tập dữ liệu gốc thành dữ liệu đào tạo và dữ liệu thử nghiệm. Chúng tôi đào tạo mô hình của mình trên một tập hợp con của tập dữ liệu gốc, tức là tập dữ liệu đào tạo, sau đó đánh giá xem nó có thể tổng quát hóa tốt cho tập dữ liệu hoặc tập thử nghiệm mới hay chưa từng thấy. Do đó, tập dữ liệu huấn luyện và kiểm tra là hai khái niệm chính của học máy, trong đó tập dữ liệu huấn luyện được sử dụng để phù hợp với mô hình và tập dữ liệu thử nghiệm được sử dụng để đánh giá mô hình .

Trong chủ đề này, chúng ta sẽ thảo luận về tập dữ liệu huấn luyện và thử nghiệm cùng với sự khác biệt giữa cả hai. Vì vậy, hãy bắt đầu với việc giới thiệu tập dữ liệu đào tạo và tập dữ liệu kiểm tra trong Học máy.

Tập dữ liệu đào tạo là gì?

Dữ liệu đào tạo là tập hợp con (trong-kích thước) lớn nhất của tập dữ liệu gốc, được sử dụng để đào tạo hoặc điều chỉnh mô hình học máy . Thứ nhất, dữ liệu đào tạo được cung cấp cho các thuật toán ML, cho phép họ học cách đưa ra dự đoán cho nhiệm vụ đã cho.

Ví dụ: để đào tạo mô hình phân tích tình cảm, dữ liệu đào tạo có thể như sau:

Đầu vào
Đầu ra (Nhãn)

Giao diện người dùng mới thật tuyệt vời
Tích cực

Cập nhật thực sự chậm
Phủ định

Dữ liệu đào tạo khác nhau tùy thuộc vào việc chúng tôi đang sử dụng thuật toán Học tập có giám sát hay Học tập không giám sát.

Đối với Học tập không giám sát , dữ liệu đào tạo chứa các điểm dữ liệu không được gắn nhãn, tức là đầu vào không được gắn thẻ với đầu ra tương ứng. Mô hình được yêu cầu để tìm các mẫu từ các tập dữ liệu đào tạo đã cho để đưa ra dự đoán.

Mặt khác, đối với phương pháp học có giám sát, dữ liệu đào tạo chứa các nhãn để đào tạo mô hình và đưa ra dự đoán.

Loại dữ liệu đào tạo mà chúng tôi cung cấp cho mô hình chịu trách nhiệm cao về độ chính xác và khả năng dự đoán của mô hình. Nó có nghĩa là chất lượng của dữ liệu đào tạo càng tốt thì hiệu suất của mô hình càng tốt. Dữ liệu đào tạo xấp xỉ hơn hoặc bằng 60% tổng dữ liệu cho một dự án ML.

Tập dữ liệu kiểm tra là gì?

Sau khi chúng tôi đào tạo mô hình với tập dữ liệu đào tạo, đã đến lúc kiểm tra mô hình với tập dữ liệu thử nghiệm. Tập dữ liệu này đánh giá hiệu suất của mô hình và đảm bảo rằng mô hình có thể tổng quát hóa tốt với tập dữ liệu mới hoặc chưa thấy. Tập dữ liệu kiểm tra là một tập con khác của dữ liệu gốc, độc lập với tập dữ liệu đào tạo . Tuy nhiên, nó có một số loại tính năng tương tự và phân phối xác suất lớp và sử dụng nó như một tiêu chuẩn để đánh giá mô hình sau khi quá trình đào tạo mô hình hoàn thành. Dữ liệu thử nghiệm là một tập dữ liệu được tổ chức tốt chứa dữ liệu cho từng loại tình huống cho một vấn đề nhất định mà mô hình sẽ gặp phải khi sử dụng trong thế giới thực. Thông thường, tập dữ liệu thử nghiệm chiếm khoảng 20-25% tổng số dữ liệu ban đầu cho một dự án ML.

Xem Thêm  Stacking Ensemble Machine Learning With Python - interval tree

Ở giai đoạn này, chúng tôi cũng có thể kiểm tra và so sánh độ chính xác thử nghiệm với độ chính xác đào tạo, có nghĩa là mô hình của chúng tôi với tập dữ liệu thử nghiệm chính xác như thế nào so với tập dữ liệu đào tạo. Nếu độ chính xác của mô hình trên dữ liệu đào tạo lớn hơn độ chính xác của mô hình trên dữ liệu thử nghiệm, thì mô hình được cho là có trang bị quá mức.

Dữ liệu thử nghiệm phải:

  • Đại diện hoặc một phần của tập dữ liệu gốc.
  • Nó phải đủ lớn để đưa ra các dự đoán có ý nghĩa.

Cần Tách tập dữ liệu thành tập Huấn luyện và Thử nghiệm

Chia tập dữ liệu thành các tập huấn luyện và thử nghiệm là một trong những phần quan trọng của quá trình xử lý trước dữ liệu, vì làm như vậy, chúng tôi có thể cải thiện hiệu suất của mô hình của mình và do đó cung cấp khả năng dự đoán tốt hơn.

Chúng tôi có thể hiểu điều này giống như thể chúng tôi đào tạo mô hình của mình bằng một tập hợp đào tạo và sau đó kiểm tra mô hình đó bằng một tập dữ liệu thử nghiệm hoàn toàn khác và khi đó mô hình của chúng tôi sẽ không thể hiểu được mối tương quan giữa các tính năng.

Đào tạo và kiểm tra bộ dữ liệu trong Học máy

Do đó, nếu chúng tôi đào tạo và kiểm tra mô hình với hai tập dữ liệu khác nhau, thì điều đó sẽ làm giảm hiệu suất của mô hình. Do đó, điều quan trọng là phải chia tập dữ liệu thành hai phần, tức là tập hợp đào tạo và tập kiểm tra.

Bằng cách này, chúng tôi có thể dễ dàng đánh giá hiệu suất của mô hình của mình. Chẳng hạn như, nếu mô hình hoạt động tốt với dữ liệu đào tạo, nhưng không hoạt động tốt với tập dữ liệu thử nghiệm, thì người ta ước tính rằng mô hình có thể được trang bị quá mức.

Để tách tập dữ liệu, chúng tôi có thể sử dụng hàm train_test_split của scikit-learning.

Dòng mã dưới đây có thể được sử dụng để tách tập dữ liệu:

Giải thích:

Trong dòng đầu tiên của đoạn mã trên, chúng tôi đã nhập hàm train_test_split từ thư viện sklearn .

Trong dòng thứ hai, chúng tôi đã sử dụng bốn biến, đó là

  • x_train: Nó được sử dụng để biểu thị các tính năng cho dữ liệu đào tạo
  • x_test: Nó được sử dụng để đại diện cho các tính năng để kiểm tra dữ liệu
  • y_train: Nó được sử dụng để biểu thị các biến phụ thuộc cho dữ liệu đào tạo
  • y_test: Nó được sử dụng để đại diện cho biến độc lập cho dữ liệu thử nghiệm
  • Trong hàm train_test_split (), chúng ta đã chuyển bốn tham số. Hai đầu tiên dành cho mảng dữ liệu và test_size là để chỉ định kích thước của tập kiểm tra. Kích thước test_size có thể là .5, .3 hoặc .2, cho biết tỷ lệ phân chia của tập hợp đào tạo và kiểm tra.
  • Tham số cuối cùng, random_state, được sử dụng để đặt hạt giống cho trình tạo ngẫu nhiên để bạn luôn nhận được cùng một kết quả và giá trị được sử dụng nhiều nhất cho giá trị này là 42.

Các vấn đề về trang bị quá mức và thiếu trang bị

Mặc quá nhiều và thiếu trang bị là những vấn đề phổ biến nhất xảy ra trong mô hình Học máy.

Một mô hình có thể được cho là quá trang bị khi nó hoạt động khá tốt với tập dữ liệu đào tạo nhưng không tổng quát hóa tốt với tập dữ liệu mới hoặc chưa thấy. Vấn đề trang bị quá mức xảy ra khi mô hình cố gắng che tất cả các điểm dữ liệu và do đó bắt đầu xuất hiện các tiếng ồn trong bộ nhớ đệm trong dữ liệu. Do đó, nó không thể tổng quát hóa tốt cho tập dữ liệu mới. Vì những vấn đề này, độ chính xác và hiệu quả của mô hình bị suy giảm. Nói chung, mô hình phức tạp có khả năng bị overfitting cao. Có nhiều cách khác nhau để chúng tôi có thể tránh trang bị quá nhiều trong mô hình, chẳng hạn như Sử dụng Phương pháp xác thực chéo, dừng đào tạo sớm hoặc bằng cách chính thức hóa , v.v.

Xem Thêm  Cách căn giữa mọi thứ bằng CSS - Căn chỉnh Div, Text, v.v. - trung tâm phông chữ trong css

Mặt khác, mô hình được cho là chưa phù hợp khi không thể nắm bắt xu hướng cơ bản của dữ liệu . Nó có nghĩa là mô hình cho thấy hiệu suất kém ngay cả với tập dữ liệu đào tạo. Trong hầu hết các trường hợp, vấn đề trang bị thiếu xảy ra khi mô hình không hoàn toàn phù hợp với vấn đề mà chúng tôi đang cố gắng giải quyết. Để tránh vấn đề trang bị quá nhiều, chúng tôi có thể tăng thời gian đào tạo của mô hình hoặc tăng số lượng tính năng trong tập dữ liệu.

Dữ liệu đào tạo so với Dữ liệu Kiểm tra

  • Sự khác biệt chính giữa dữ liệu đào tạo và dữ liệu thử nghiệm là dữ liệu đào tạo là tập hợp con của dữ liệu gốc được sử dụng để đào tạo mô hình học máy, trong khi dữ liệu thử nghiệm được sử dụng để kiểm tra độ chính xác của mô hình.
  • Tập dữ liệu đào tạo thường có kích thước lớn hơn so với tập dữ liệu thử nghiệm. Tỷ lệ chung của việc chia nhỏ tập dữ liệu huấn luyện và thử nghiệm là 80:20, 70:30 hoặc 90:10.
  • Dữ liệu đào tạo được biết đến với mô hình vì nó được sử dụng để đào tạo mô hình, trong khi dữ liệu thử nghiệm giống như dữ liệu mới / chưa thấy đối với mô hình.

Dữ liệu đào tạo và kiểm tra hoạt động như thế nào trong Học máy?

Các thuật toán của Học máy cho phép máy đưa ra dự đoán và giải quyết vấn đề trên cơ sở quan sát hoặc kinh nghiệm trong quá khứ. Những kinh nghiệm hoặc quan sát này mà một thuật toán có thể lấy từ dữ liệu huấn luyện, được cung cấp cho nó. Hơn nữa, một trong những điều tuyệt vời về thuật toán ML là chúng có thể tự học và cải thiện theo thời gian vì chúng được đào tạo với dữ liệu đào tạo có liên quan.

Sau khi mô hình được đào tạo đủ với dữ liệu đào tạo liên quan, mô hình sẽ được kiểm tra với dữ liệu thử nghiệm. Chúng ta có thể hiểu toàn bộ quá trình đào tạo và kiểm tra theo ba bước như sau:

  1. Nguồn cấp dữ liệu: Trước tiên, chúng tôi cần đào tạo mô hình bằng cách cung cấp cho nó dữ liệu đầu vào đào tạo.
  2. Xác định: Giờ đây, dữ liệu đào tạo được gắn thẻ với các kết quả đầu ra tương ứng (trong Học tập có giám sát) và mô hình chuyển đổi dữ liệu đào tạo thành vectơ văn bản hoặc một số tính năng dữ liệu.
  3. Kiểm tra: Trong bước cuối cùng, chúng tôi kiểm tra mô hình bằng cách cung cấp cho nó dữ liệu thử nghiệm / tập dữ liệu không nhìn thấy. Bước này đảm bảo rằng mô hình được đào tạo một cách hiệu quả và có thể tổng quát hóa tốt.

Quy trình trên được giải thích bằng cách sử dụng sơ đồ bên dưới:

Đào tạo và kiểm tra bộ dữ liệu trong Học máy

Đặc điểm của dữ liệu đào tạo Chất lượng

Vì khả năng dự đoán của một mô hình ML phụ thuộc nhiều vào cách nó được đào tạo, do đó, điều quan trọng là phải đào tạo mô hình với dữ liệu chất lượng. Hơn nữa, ML hoạt động dựa trên khái niệm “Rác vào, Rác ra.” Có nghĩa là bất kỳ loại dữ liệu nào chúng ta sẽ nhập vào mô hình của mình, nó sẽ đưa ra các dự đoán tương ứng. Để có dữ liệu đào tạo chất lượng, cần xem xét các điểm dưới đây:

1. Có liên quan

Chất lượng đầu tiên của dữ liệu đào tạo phải có liên quan đến vấn đề mà bạn sẽ giải quyết. Nó có nghĩa là bất kỳ dữ liệu nào bạn đang sử dụng phải có liên quan đến vấn đề hiện tại. Ví dụ: nếu bạn đang xây dựng một mô hình để phân tích dữ liệu trên mạng xã hội, thì dữ liệu nên được lấy từ các trang xã hội khác nhau như Twitter, Facebook, Instagram, v.v.

2. Đồng phục:

Phải luôn có sự đồng nhất giữa các tính năng của tập dữ liệu. Điều đó có nghĩa là tất cả dữ liệu cho một vấn đề cụ thể phải được lấy từ cùng một nguồn với các thuộc tính giống nhau.

Xem Thêm  Dữ liệu truy vấn Python MySQL - kết quả truy vấn python mysql

3. Tính nhất quán: Trong tập dữ liệu, các thuộc tính tương tự phải luôn tương ứng với nhãn tương tự để đảm bảo tính đồng nhất trong tập dữ liệu.

4. Toàn diện: Dữ liệu đào tạo phải đủ lớn để thể hiện đủ các tính năng mà bạn cần để đào tạo mô hình theo cách tốt hơn. Với một tập dữ liệu toàn diện, mô hình sẽ có thể tìm hiểu tất cả các trường hợp phức tạp.

Kết luận

Dữ liệu đào tạo tốt là nền tảng của học máy. Điều quan trọng là phải hiểu tầm quan trọng của dữ liệu đào tạo tốt trong Học máy vì nó đảm bảo rằng bạn có dữ liệu với chất lượng và số lượng phù hợp để đào tạo mô hình của mình.

Sự khác biệt chính giữa dữ liệu đào tạo và dữ liệu thử nghiệm là dữ liệu đào tạo là tập hợp con của dữ liệu gốc được sử dụng để đào tạo mô hình học máy, trong khi dữ liệu thử nghiệm được sử dụng để kiểm tra độ chính xác của mô hình.

Chủ đề tiếp theo

Cách bắt đầu với Học máy

← trước
tiếp theo →


Xem thêm những thông tin liên quan đến chủ đề đào tạo và kiểm tra dữ liệu

FEB 13, 2021 | Police Chief Candidate Forum

alt

  • Tác giả: City of San Jose, CA
  • Ngày đăng: 2021-02-13
  • Đánh giá: 4 ⭐ ( 4406 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Police Chief Candidate Forum:
    The City of San José is in the process of recruiting for a new Chief of Police following the retirement of Chief Eddie Garcia after 29 years of service to our community. During this session, the candidates will answer questions posed by San Joseans.

    Foro de Candidatos a Jefe de Policía:
    La Ciudad de San José está en proceso de reclutar un nuevo Jefe de Policía luego del retiro del Jefe Eddie García después de 29 años de servicio a nuestra comunidad. Durante el Foro, los candidatos responderán a las preguntas planteadas por San Joseanos.

    Buổi Hội Thảo cho Ứng Cử Viên Vị Trí Cảnh Sát Trưởng:
    Thành Phố San José đang trong quá trình kêu gọi và chọn lựa người Cảnh Sát Trưởng mới sau khi Cảnh Sát Trưởng Eddie Garcia đã về hưu sau 29 năm phục vụ cộng đồng. Trong Buổi Hội Thảo, các ứng cử viên sẽ trả lời các câu hỏi của người dân San Jose.

Tôi muốn kiểm tra các thông tin về dữ liệu kế toán đã được tạo thì làm thế nào? – AMIS Kế toán

  • Tác giả: helpact.misa.vn
  • Đánh giá: 5 ⭐ ( 6224 lượt đánh giá )
  • Khớp với kết quả tìm kiếm:

: art: Pytorch YOLO v5 Hướng dẫn siêu chi tiết về đào tạo tập dữ liệu của riêng bạn!

  • Tác giả: www.wenyanet.com
  • Đánh giá: 5 ⭐ ( 6932 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Ứng dụng của YOLO v5 trong việc phát hiện các mục tiêu nội soi tiêu hóa trong lĩnh vực y tếYOLO v5 đào tạo hướng dẫn chi tiết về bộ dữ liệu của riêng bạnXu Jing🔥 Do backbone của YOLO v5 phiên bản mới

Bình Dương tăng cường công tác đào tạo nghiệp vụ về đo lường chất lượng

  • Tác giả: khcncongthuong.vn
  • Đánh giá: 5 ⭐ ( 1264 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Mới đây, Chi cục Tiêu chuẩn Đo lường Chất lượng tỉnh Bình Dương đã phối hợp với Trung tâm Đào tạo – Tổng cục Tiêu chuẩn Đo lường Chất lượng tổ chức khóa đào tạo “Nghiệp vụ kiểm tra nhà nước về đo lường”.

[ETL/Data Warehouse Testing Tutorial] – Hướng Dẫn Kiểm Thử Kho Dữ Liệu Qua Ví Dụ

  • Tác giả: inda.vn
  • Đánh giá: 5 ⭐ ( 4534 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Hướng dẫn này trình bày chi tiết các Mục tiêu & Tầm quan trọng của Kiểm thử Kho dữ liệu, Kiểm thử ETL, những lỗi trong Triển khai DWH và ETL

Tập huấn luyện và kiểm tra trong Machine learning

  • Tác giả: websitehcm.com
  • Đánh giá: 5 ⭐ ( 2040 lượt đánh giá )
  • Khớp với kết quả tìm kiếm: Tập huấn luyện và kiểm tra trong Machine learning w3seo cách phân chia và sử dụng tập huấn luyên sử dụng python cho machine learning

MSN

  • Tác giả: www.msn.com
  • Đánh giá: 3 ⭐ ( 4581 lượt đánh giá )
  • Khớp với kết quả tìm kiếm:

Xem thêm các bài viết khác thuộc chuyên mục: Kiến thức lập trình

By ads_php