Nguồn: https://bsxqtuan.wordpress.com
(Bài này là một phần của bài “Methodologic Considerations in Comparing Imaging Methods. AJR 144:1117-1121, June 1985. David W. Gelfan và David J. Ott). Bài đăng đã lâu nhưng có ưu điểm ngắn gọn, nêu được các ưu điểm và hạn chế của các số đo đánh giá độ chính xác của kiểm tra chẩn đoán hình ảnh (độ nhạy, độ đặc hiệu, đường cong ROC), các số đo diễn giải các kiểm tra chẩn đoán hình ảnh (các giá trị dự báo dương tính và âm tính), các số đo độ chính xác của kiểm tra chẩn đoán hình ảnh (độ chính xác, tỉ lệ sai sót chung). Các số đo này hay được trình bày trong nghiên cứu hiệu năng (performance) của các phương pháp chẩn đoán, một loại nghiên cứu phổ biến trong các tạp chí X quang.)
————-
Cách thức biểu diễn các kết quả nghiên cứu có thể ảnh hưởng rất nhiều đến giá trị của các kết luận, và rõ ràng là khi sử dụng các thuật ngữ thống kê thì nhiều nhà nghiên cứu không nhận thức được hệ quả của chúng. Tuy nhiên, trong thực tế thậm chí nhiều vấn đề cơ bản hơn còn tồn tại do sự bất cập của các cách thức sẵn có để trình bày các kết quả nghiên cứu. Thứ nhất, các thuật ngữ thống kê được sử dụng nhiều nhất có xu hướng quá đơn giản bởi vì chúng yêu cầu một chẩn đoán dương tính hoặc âm tính rõ ràng, và do đó trong báo cáo X quang chúng không phản ánh các mức độ biến đổi của sự bất định phát hiện được trong nghiên cứu. Thứ hai, những thuật ngữ đó có nguồn gốc từ bảng 2 x 2 quen thuộc trình bày kết quả so sánh phương pháp kiểm tra (xét nghiệm hoặc hình ảnh) cần đánh giá với kiểm tra tham chiếu, hay “tiêu chuẩn vàng’. Đôi khi kiểm tra tham chiếu thực sự kém hoàn hảo thì các thuật ngữ thống kê trở nên kém chính xác khi trình bày kết quả nghiên cứu. Phần tiếp theo là một bàn luận ngắn gọn về một vài thuật ngữ thống kê phổ biến nhất và các vấn đề cố hữu của chúng liên quan đến so sánh các phương pháp chẩn đoán hình ảnh [1-3].
Độ nhạy (sensitivity) là thuật ngữ cơ bản nêu rõ hiệu quả của một kiểm tra y học (xét nghiệm hoặc chẩn đoán) phát hiện các tổn thương và có thể được định nghĩa như sau:
Độ nhạy = số dương tính thật/(số dương tính thật + số âm tính giả)
Độ nhạy = tỉ lệ phần trăm các tổn thương có kết quả kiểm tra dương tính
Độ nhạy là thông số hữu ích nhất và sẵn có phổ biến nhất để đánh giá hiệu quả của một phương pháp chẩn đoán hình ảnh hoặc so sánh nó với phương các phương pháp thay thế. Bởi vì độ nhạy chỉ quan hệ các tổn thương hiện diện, nên các tính toán độ nhạy không bị ảnh hưởng bởi sự biến đổi tỉ lệ bệnh nhân ở mỗi loạt nghiên cứu được công bố, do đó thuật ngữ này (độ nhạy) được dùng như là một chỉ số để so sánh các kết quả của nghiên cứu này với những kết quả của nghiên cứu khác.
Độ đặc hiệu (specificity) đo khả năng một kiểm tra (xét nghiệm hoặc chẩn đoán) xác định những trường hợp bình thường và được định nghĩa như sau:
Độ đặc hiệu = số âm tính thật /(số âm tính thật + số dương tính giả)
Độ đặc hiệu = tỉ lệ phần trăm các trường hợp bình thường có kết quả âm tính.
Bởi vì chỉ bao gồm các trường hợp bình thường, tính toán độ đặc hiệu cũng không bị ảnh hưởng bởi tỉ lệ các trường hợp bình thường, và nó cũng được dùng một cách hợp lý để so sánh các kết quả của một nghiên cứu này với kết quả của nghiên cứu khác.
Nên lưu ý rằng độ nhạy và độ đặc hiệu có quan hệ với nhau, bởi vì những chỉ số này có thể bị ảnh hưởng bởi tính chất của quần thể bệnh nhân và các khuynh hướng của mỗi bác sỹ X quang đọc không đầy đủ hoặc đọc quá một kết quả chẩn đoán hình ảnh. Những hạn chế này có thể khắc phục phần lớn bằng cách sử dụng phân tích ROC (receiver operating characteristic), nó mô tả đầy đủ hơn các đặc điểm phát hiện của việc kết hợp phương pháp-người kiểm tra [4,5]. Tuy nhiên, phân tích đường cong ROC yêu cầu số liệu ít có sẵn trong bối cảnh lâm sàng, như bằng chứng về tính chuẩn tắc (normality) của một số lượng lớn các bệnh nhân, và điều này có thể giải thích cho việc nó không thường xuyên được sử dụng.
Độ chính xác (accuracy) được sử dụng rộng rãi để nêu rõ các kết quả nghiên cứu của các phương pháp chẩn đoán hình ảnh và được định nghĩa như sau:
Độ chính xác = (số dương tính thật + số âm tính thật)/(số dương tính thật + số dương tính giả + số âm tính thật + số âm tính giả)
Độ chính xác = số chẩn đoán chính xác / tổng số chẩn đoán
Độ chính xác = tỉ lệ phần trăm các chẩn đoán chính xác
Độ chính xác, như đã tính ở trên, là hầu như không có giá trị nào để so sánh các kết quả có thể đạt được với các phương pháp kiểm tra thay thế bởi vì các tỉ lệ khác nhau người bình thường trong mỗi nghiên cứu sẽ chi phối các kết quả. Sự bao hàm một tỉ lệ lớn người bình thường trong các loạt nghiên cứu cũng tạo ra các tỉ lệ phần trăm chính xác và “tỉ lệ sai sót chung” tương ứng có xu hướng phóng đại gây sai lạc các khả năng của một phương pháp kiểm tra (xét nghiệm hoặc chẩn đoán hình ảnh). Thật không may, nhiều tài liệu công bố đã trình bày con số độ chính xác cao hoặc tỉ lệ sai sót chung thấp để chứng minh sự vượt trội của một phương pháp chẩn đoán hình ảnh cụ thể, trong khi đó số liệu riêng của tác giả bộc lộ một độ nhạy thấp hơn nhiều với tỉ lệ đáng kể các tổn thương không được phát hiện.
Các thí dụ về các kết quả lạc quan ngẫu nhiên được tạo ra do sử dụng thuật ngữ độ chính xác (accuracy) hoặc tỉ lệ sai sót chung có thể được dẫn ra đây. Trong hai thí dụ mà phần lớn bệnh nhân nghiên cứu là bình thường [6,7], chụp loạt cản quang kép đường tiêu hóa cao đã chứng minh là tạo ra tỉ lệ sai sót chung 7% và 10%, phản ánh các con số độ chính xác tương ứng 93% và 90%. Mặt khác, tính toán lại cho thấy rằng độ đặc hiệu đạt được là 82% và 83%, chúng xấp xỉ với độ nhạy đã báo cáo về phát hiện các tổn thương tương tự sử dụng phương pháp cản quang đơn [8]. Tuy nhiên, đối với các độc giả bình thường không thử tính độ nhạy thì các kiểm tra cản quang kép dường như tạo ra kết quả đặc biệt. Trong một thí dụ kém rõ ràng, chụp hai thì (biphasic) loạt phim đường tiêu hóa trên đã báo cáo tạo ra tỉ lệ sai sót chung 11% so với tỉ lệ sai sót 20.5% và 19.5% đối với các kiểm tra cản quang đơn và cản quang kép không kết hợp tương ứng [9]. Những kết quả này đã xác minh giả thuyết của tác giả là kết hợp hai kỹ thuật sẽ tạo nên kết quả cao hơn kết quả của từng kỹ thuật. Tuy nhiên, độ nhạy 82.5% thu được bằng kiểm tra hai thì (tính lại theo số liệu nghiên cứu) đã không cho thấy sự cải thiện nào so với các kết quả của các kiểm tra riêng rẽ bằng cản quang đơn độc và cản quang kép đã báo cáo [8]
Các nghiên cứu đánh giá siêu âm túi mật cũng trình bày tương tự về độ chính xác cao để ủng hộ việc sử dụng phương pháp này. Một thí dụ nghiên cứu siêu âm phát hiện bệnh sỏi mật [10], độ chính xác 89% là kết luận được nhấn mạnh. Tuy nhiên, độ chính xác này liên quan tới độ nhạy 81% khi nhìn thấy rõ túi mật và chỉ 58% khi không nhìn thấy toàn bộ túi mật. Do vậy, như đã trình bày trong các thí dụ, sử dụng thuật ngữ độ chính xác để trình bày các kết quả nghiên cứu thường thể hiện bức tranh quá lạc quan về các khả năng của một phương pháp chẩn đoán.
Giá trị dự báo kết quả âm tính hoặc dương tính thể hiện khả năng một chẩn đoán hình ảnh dương tính hoặc âm tính sẽ chính xác, và được định nghĩa như sau:
Giá trị dự báo dương tính = số dương tính thật / (số dương tính thật + số dương tính giả)
Giá trị dự báo dương tính = tỉ lệ phần trăm các chẩn đoán dương tính đúng
Giá trị dự báo âm tính = số âm tính thật / (số âm tính thật + số âm tính giả)
Giá trị dự báo âm tính = tỉ lệ phần trăm các chẩn đoán âm tính đúng
Các giá trị dự báo có tầm quan trọng trong xác định độ tin cậy của một báo cáo âm tính hoặc dương tính của bác sỹ X quang. Tuy nhiên, các giá trị dự báo bị ảnh hưởng nhiều bởi số lượng người bình thường (không có tổn thương) trong các loạt nghiên cứu, do đó chúng không có giá trị trong việc so sánh các kết quả của nghiên cứu này với kết quả của nghiên cứu khác.
Gân đây mối liên quan giữa tỉ lệ phần trăm đối tượng có bệnh (có tổn thương nghiên cứu), hoặc tỉ lệ bệnh hiện hành và các giá trị dự báo âm tính và dương tính đã được Kundel làm sáng tỏ [11]. Khi đánh giá các phương pháp chẩn đoán hình ảnh có độ nhạy và độ đặc hiệu cao thì giá trị dự báo dương tính luôn cao khi tỉ lệ bệnh hiện hành cao, nhưng giá trị dự báo dương tính giảm mạnh khi tỉ lệ bệnh giảm. Lấy thí dụ, một kiểm tra có độ nhạy 80% và độ đặc hiệu 80% là những con số thực tế đối với nhiều kiểm tra chẩn đoán hình ảnh, giá trị dự báo dương tính sẽ nằm trong khoảng 80% với tỉ lệ bệnh 50% giảm xuống 16% với tỉ lệ bệnh 5%. Điều này là do các chẩn đoán dương tính giả tăng lên so với các chẩn đoán dương tính thật bởi vì kiểm tra có nhiều đối tượng bình thường thêm vào. Trong cùng thí dụ này, giá trị dự báo âm tính sẽ lần lượt là 80% và 99%, tăng theo tỉ lệ các đối tượng bình thường. Do đó, trong các điều kiện lâm sàng điển hình, các giá trị dự báo dương tính hầu như được quyết định bởi tỉ lệ bệnh hiện hành và có thể giảm xuống rất thấp, còn các giá trị dự báo âm tính ít biến đổi và có xu hướng vẫn còn cao.
Các gợi ý để cải thiện nghiên cứu và áp dụng thực hành
1. Trong trình bày kết quả nghiên cứu, tầm quan trọng hàng đầu nên tập trung vào độ nhạy và độ đặc hiệu của các phương pháp chẩn đoán được so sánh, đặc biệt là độ nhạy. Thuật ngữ độ chính xác có lẽ nên bỏ.
2. Các khác biệt rõ ràng về hiệu quả của các phương pháp chẩn đoán được so sánh phải được xác nhận bởi các phép xác định ý nghĩa thống kê.
3. Khi duyệt y văn, tầm quan trọng chủ yếu là xem độ nhạy của các phương pháp chẩn đoán được sánh.
4. Cần có thái độ hoài nghi trước khi chấp nhận các tuyên bố độ nhạy trung bình lớn hơn 85% nhiều đối với mọi kiểm tra phụ thuộc kỹ năng (như siêu âm, chụp cản quang đường tiêu hoá), bởi vì những kết quả phi thường như thế hiếm khi lặp lại trong thực hành lâm sàng.
Ghi chú:
– Examination tạm dịch là kiểm tra y học (xét nghiệm hoặc chẩn đoán hình ảnh) để tránh nhầm với nghiên cứu (study hoặc investigation).
– Một số thuật ngữ trong bài :
Sentivity: độ nhạy
Specificity : độ đặc hiệu
Accuracy: độ chính xác
Positive predictive value: giá trị dự báo dương tính
Negative predictive value: giá trị dự báo âm tính
– Bảng tiếp liên 2 x 2:
Kiểm tra (xét nghiệm hoặc chẩn đoán hình ảnh) | Tổn thương | |
Có | Không | |
+ – | Dương tính thật Âm tính giả | Dương tính giả Âm tính thật |
Tham khảo
1. Feinstein AR. On the sensitivity, specificity, and discrimination of diagnostic tests. In: Clinical biostatistics. St. Louis: Mosby, 1977:214-226
2. Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of diagnostic tests. N Engl J Med 1978;299:926-930
3. Phillips WC, Scott JA, Blasczcynski G. Statistics for diagnostic procedures: I. How sensitive is “sensitivity”; how specific is “specificity”? AJR 1983;1 40:1265-1270
4. Metz CE. Basic principles of ROC analysis. Semin NucI Med 1978;8:283-298
5. Lusted LB. General problems in medical decision making with comments on ROC analysis. Semin NucI Med 1978;8:299-306
6. Laufer I. Assessment of the accuracy of double-contrast gastroduodenal radiology. Gastroenterology 1976;71 :874-878
7. Keto P, Suoranta H, Ihamaki T, Melartin E. Double-contrast examination of the stomach compared with endoscopy. Acta Radiol [Diagn] (Stockh) 1979;20:762-768
8. Gelfand DW, Ott DJ. Single- vs. double-contrast gastrointestinal studies: critical analysis of reported statistics. AJR 1981;137:523-52
9. Montague JP, Moss AA, Margulis AR. Double-blind study of the single and double-contrast upper gastrointestinal examinations using endoscopy as a control. AJR 1978;130:1041-1045
10. Anderson JC, Harned RK. Gray scale ultrasonography of the gallbladder: an evaluation of accuracy and report of additional ultrasound signs. AJR 1977;129:975-977
11. Kundel HL. Disease prevalence and radiological decision making. Invest Radiol 1982;17:107-109