Roc curve là gì

ROC (Receiver operating characteristic) là 1 đồ thị được thực hiện tương đối phổ biến trong validation những Model phân nhiều loại nhị phân. Đường cong này được tạo nên bằng phương pháp màn trình diễn Xác Suất dự đoán true positive rate (TPR) dựa vào Tỷ Lệ dự đoán failse positive sầu rate (FPR) tại các ngưỡng Threshold khác biệt. Trong machine learning Chúng ta hotline true positive rate là độ tinh tế sensitivity tức là xác xuất dự đoán đúng một sự khiếu nại là positive sầu. Tỷ lệ false positive sầu rate là probability of false alarm (phần trăm chú ý không nên, một sự khiếu nại là negative dẫu vậy coi nó là positive) và Phần Trăm này tương xứng cùng với xác xuất mắc sai lầm một số loại II sẽ tiến hành trình bày bên dưới. Vậy nên ROC curve sầu đã bộc lộ quan hệ, sự tấn công đổi cùng ý nghĩa lựa lựa chọn một model tương xứng của độ nhạy cảm và Tỷ Lệ lưu ý không nên. Nhằm tạo ra một cái nhìn tổng quan liêu độc nhất vô nhị về ROC, nội dung bài viết này vẫn giới thiệu mang lại bạn đọc nỗ lực làm sao là ROC, ý nghĩa sâu sắc học thuật cùng phương pháp chọn lọc Model dựa trên ROC.

Bạn đang xem: Roc curve là gì


I. Sai lầm các loại I, II trong dự báo.

Xác xuất mắc sai lạc loại I và loại II trong dự báo được nhắc tới tương đối nhiều trong những tư liệu thống kê học cùng đó là đa số một số loại sai lạc đặc trưng cơ phiên bản trong những model đoán trước. Giả sử họ xét một Mã Sản Phẩm dự báo sự kiện với 2 khả năng positive (tích cực) với negative (tiêu cực). Các hiệu quả của mã sản phẩm xảy ra đang rơi vào cảnh 4 nhóm sau:

TP: True positive sầu, dự báo đúng sự khiếu nại là positive sầu vào trường thích hợp thực tiễn là positive sầu.FP: False positive, dự báo sai sự khiếu nại là positive sầu vào trường hòa hợp thực tiễn là negative.TN: True negative sầu, đoán trước đúng sự kiện là negative vào trường hợp thực tế là negative sầu.FN: False negative sầu, dự báo sai sự kiện là negative sầu vào ngôi trường hợp thực tế là positive sầu.

TP và TN là phần nhiều case dự đoán đúng. Còn FPhường, FN là đều case dự đoán sai. FN tương tự cùng với mắc sai trái nhiều loại I (Bác quăng quật sự kiện là positive cùng gán đến nó là negative) cùng FPhường tương tự cùng với mắc sai lạc nhiều loại II (Chấp thừa nhận một sự kiện là positive khi bản chất sự kiện cùng negative). Thông thường xác xuất mắc sai lầm loại II đã gây nên hậu quả lớn hơn. Mục đích bao gồm của các Model chuẩn chỉnh đoán thù, lưu ý giỏi quản ngại trị rủi ro là chú ý nhanh chóng, phòng phòng ngừa, loại bỏ những sự kiện xấu bắt buộc việc tìm chính xác được sự khiếu nại negative được ưu tiên hơn positive. Để gọi hơn vì sao cường độ khủng hoảng rủi ro của sai lạc các loại II là cao hơn nữa loại I bọn họ so với ví dụ thực tiễn sau.

Bệnh tè con đường hơi nguy hiểm cơ mà xác xuất mắc bệnh lý của loại bệnh dịch này đối với phần trăm số lượng dân sinh là siêu thấp ví dụ điển hình 1:10000. Một người dân có những biểu thị tè mặt đường và tiến hành các xét nghiệm. Sau lúc chứng kiến tận mắt tác dụng chúng ta mang định rằng chưng sĩ tóm lại sai. lúc kia tất cả 2 tài năng xảy ra:

Loại I: Bản thân bệnh nhân hoàn toàn thông thường, chưng sĩ tóm lại người mắc bệnh bị tiểu mặt đường.

Loại II: Bệnh nhân bị tiểu con đường nhưng lại bác bỏ sĩ tóm lại trọn vẹn thông thường.

Rõ ràng sai lạc loại II tạo ra kết quả to hơn vày người mắc bệnh không phân phát hiện nhanh chóng bệnh của mình nhằm điều trị đúng lúc đã dẫn đến căn bệnh trở nên tân tiến xấu đi. Sai lầm một số loại I có tác động tới ngân sách đi khám chữa dịch tuy thế ko ảnh hưởng mang đến sức khỏe và kết quả là không nhiều cực kỳ nghiêm trọng rộng.

Xem thêm: Cách Giải Nén File Zip Online (Fast!), Zip And Unzip Zip Files And Folders Online

Căn cđọng vào khoảng độ khủng hoảng này nhiều lúc họ đã chắt lọc Model dựa trên tiêu chuẩn mức độ thiệt sợ hãi mang đến là tốt tuyệt nhất cơ mà không phải là những chỉ số giám sát sức khỏe của Model nlỗi AUC, Gini, Accuracy rate. Chẳng hạn như giả dụ một Mã Sản Phẩm dự báo nợ xấu khách hàng gồm xác xuất dự đoán đúng đắn tốt rộng mà lại Khi áp dụng Model quý hiếm nợ xấu bớt tđọc của chính nó rẻ rộng một Mã Sản Phẩm không giống có xác xuất dự báo chính xác kém nhẹm hơn thì vẫn chọn lọc Mã Sản Phẩm thứ 2 vị tuy nhiên dự đoán kỉm hơn về tổng thể (bao hàm cả ngôi trường hợp dự đoán đúng khách hàng đổ vỡ nợ cùng không tan vỡ nợ) mà lại Phần Trăm đoán trước chính xác những phù hợp đồng vỡ nợ của nó cao hơn. vì thế nếu coi xác xuất dự báo chính xác là cố định thì luôn luôn gồm sự đánh đổi giữa những việc dự đoán đúng những trường hòa hợp giỏi với dự đoán đúng nguy cơ xấu. Hay nói cách khác lúc Tỷ Lệ chính xác đoán trước nguy cơ tiềm ẩn xấu tăng lên thì phần trăm dự đoán chính xác ngôi trường hòa hợp tốt giảm đi. Vì mức độ đặc biệt của vấn đề tuyển lựa kim chỉ nam mô hình là tập trung vào đoán trước nguy cơ tiềm ẩn xấu xuất xắc tốt nhưng mà thống kê học tập đưa ra một vài ba ttê mê số thống kê giám sát những Phần Trăm dự báo nlỗi sensitivity, specifithành phố.


II. Sensitivity, Specitivity với False positive sầu rate

1.Độ nhạy Model (sensitivity):

Độ nhạy mã sản phẩm có cách gọi khác là TPR(True positive sầu rate) cho thấy thêm cường độ dự báo đúng đắn trong team sự kiện positive sầu.

Sensitivity = Số lượng sự khiếu nại positive được dự báo đúng là positive/Số lượng sự khiếu nại positive sầu.

2.Độ sệt hiệu (Specificity):

Trái lại với Sensitivity là Specifiđô thị được định nghĩa là Phần Trăm dự đoán đúng mực vào nhóm sự khiếu nại negative sầu.

Specificity = Số lượng sự khiếu nại negative được dự đoán chính xác là negative/con số sự kiện negative sầu.

3.Xác xuất mắc sai lầm nhiều loại II (False positive rate):

False positive sầu rate kí hiệu là Flăng xê bao gồm công thức:

Fquảng bá = 1-Specificity.

Xem thêm: Fix Lỗi Lưu File Excel Bắt Lưu 1 File Mới, Lỗi Lưu File Excel Bắt Lưu Một Tên Khác

Cho biết mức độ đoán trước không đúng một sự kiện khi nó là negative tuy vậy Kết luận là positive. False positive sầu rate chính là Phần Trăm mắc sai trái nhiều loại II cùng là phương châm nhằm những mã sản phẩm quản ngại trị rủi ro buổi tối tgọi hóa nó. Bảng bên dưới sẽ mang lại chúng ta tưởng tượng rõ rộng về cách tính cùng mọt tương tác của những chỉ số này.


Hỏi đáp công nghệ