Tuesday, March 30, 2021

Điểm sách “Calling Bullshit”:

 Hết đường ba xạo

 

Có đời thuở nào mà một môn học tại một trường đại học lại mang tên “Calling Bullshit in the Age of Big Data”. Bullshit là một từ thông tục, gọi ai đó bằng từ này có nghĩa mình bảo họ xạo, họ nói bậy, họ nói vớ vẩn; cho nên tên khóa học này đại khái là “Vạch mặt nói xạo trong thời đại dữ liệu lớn”. Hai ông thầy dạy khóa này tại đại học Washington, Seatle là Jevin West, giáo sư về tin học và Carl Bergstrom, một nhà sinh học – lại là một sự kết hợp kỳ lạ nữa.

Thật ra cơ sở ra đời môn học này là rất lô-gich và hợp thời: loài người từ khi biết kể chuyện ắt hẳn đã pha lẫn trong câu chuyện mình kể cho người khác nghe nhiều chi tiết “ba xạo” cho thêm phần hấp dẫn; từ đó con người ai cũng phải tự trang bị cho mình cái kỹ năng phát hiện “ba xạo” để khỏi bị “phỉnh” như một kẻ khờ khạo. Thế nhưng khi “ba xạo” lan sang dữ liệu lớn, sang nghiên cứu khoa học, vào lãnh vực trí tuệ nhân tạo, rồi “học máy”… đa phần chưa quen, vẫn “há hốc miệng” mà nghe một cách say mê, đầy tin tưởng. Một môn học giúp người ta vạch mặt được các lời ba xạo cao cấp này sẽ cần thiết biết bao cho người sẽ ra đời trong thời đại công nghệ hiện nay – chẳng lạ gì khi công bố nội dung môn học, chỉ 1 phút sau đã đủ 180 sinh viên ghi danh.

Khóa học ở tận bên Mỹ nhưng may thay hai ông thầy đã soạn lại nội dung bài giảng thành một cuốn sách mới xuất bản vào tháng 8 vừa qua và hiện đang bán chạy như tôm tươi – cuốn “Calling Bullshit: The Art of Skepticism in a Data-Driven World” (Vạch mặt nói xạo: Nghệ thuật hoài nghi trong thế giới vận hành bởi dữ liệu lớn). Sách kể khá nhiều câu chuyện bao xạo cao cấp nhưng để dễ hình dung vì sao người ta ba xạo, hãy bắt đầu bằng câu chuyện này: Một người bạn bảo, này, anh biết không, ai nuôi mèo lương thường cao hơn người nuôi chó. Nếu chỉ chừng đó, người nghe rất dễ phán, ông nói xạo và người kia gật gù, cười xòa. Nhưng người kia không cười mà cứ khăng khăng nói hôm qua mới nghe một bài TED Talk nói về đề tài này một cách nghiêm túc à nghe. Họ giải thích người nuôi mèo thường thích tính độc lập còn người nuôi chó thích sự trung thành mà ai thích độc lập thường có tố chất NVT hay NVS gì đó tớ quên rồi nhưng tố chất này giúp họ dễ thăng tiến nên lương cao hơn là chuyện đương nhiên. Đến đây rất có thể ông bạn tin sái cổ dù ông kia ba xạo theo kiểu cao cấp.

Ba xạo cao cấp là dùng dữ liệu, biểu đồ, dẫn chứng, minh họa, lý thuyết… để củng cố câu chuyện mình kể bất kể thông tin đúng hay sai, hợp lý hay phi lý. Câu chuyện chó mèo lúc trà dư tửu hậu nói trên mà vào tay một nhà nghiên cứu, bỏ công ghi nhận dữ liệu ở thành phố New York nơi mức lương thường cao hơn hẳn nơi khác và rất khó nuôi chó với các thành phố khác ở mạn trên tiểu bang New York, nơi lương thường thấp hơn và  đất rộng nên dễ nuôi chó hơn – rất dễ có một công trình công phu, dữ liệu chính xác nhưng kết quả cũng chỉ là ba xạo.

Các nghiên cứu loại này có nhiều lắm. Năm 2016 có hai nhà nghiên cứu công bố công trình dùng công nghệ học máy để phát hiện các đặc điểm trên gương mặt người gắn với tội phạm. Họ tuyên bố dùng thuật toán của họ, chỉ cần nhìn vào hình chụp chân dung, người ta có thể phán đoán ai là tội phạm, ai là dân vô tội với độ chính xác cao. Báo chí rùm beng lên về một thuật toán họ cho là vô nhân đạo, vô đạo đức; một số báo than, nếu phát hiện tội phạm ngay cả trước khi hắn phạm tội thì còn gì là nền móng xã hội… Nhưng người ta quên rằng bản thân cái nghiên cứu này là đồ ba xạo vì tác giả dùng ảnh sưu tầm trên mạng để đưa vào nhóm người bình thường, xin ảnh của cảnh sát chụp các kẻ từng phạm tội để đưa vào nhóm tội phạm. Chừng đó cũng đủ cho cái nghiên cứu này vào sọt rác vì ảnh tội phạm lúc nào cũng chụp xấu, người bị chụp đang lo sợ, hoang mang hay gầm gừ phản ứng. Ảnh bình thường ai cũng muốn chụp cho đẹp hẳn lên. Chưa kể tác giả chỉ ra những đặc điểm của chân dung tội phạm, trong đó có câu rất phức tạp để miêu tả với kích thước so sánh, tỷ lệ này nọ nhưng hóa ra để chỉ gương mặt không cười. Có đời nào hình cảnh sát chụp kẻ phạm tội mà đang cười tươi?

Đáng tiếc, thế giới nghiên cứu đầy rẫy các công trình như thế nấp dưới các câu văn phức tạp, các công thức tính toán dài dòng, các lập luận dắt dây rất khó lần ra manh mối. Với cuốn Calling Bullshit, chỉ cần đọc các câu chuyện ba xạo cao cấp trong sách cũng đã hấp dẫn và bổ ích nhưng quan trọng hơn, các tác giả bày cho người đọc cách phát hiện các loại ba xạo này. Đầu tiên, tác giả cảnh báo ai cũng tưởng trong một thời kỳ mà ai nấy đều có trong tay một máy tính mạnh dưới dạng chiếc điện thoại di động có kết nối Internet để người dùng có thể kiểm tra bất kỳ dữ kiện nào trong nháy mắt thì “ba xạo” sẽ không còn đất sống. Ngược lại là đằng khác, công nghệ đã giúp ba xạo lan rộng hơn bất kỳ giai đoạn nào trước đây; một câu chuyện ba xạo nhưng kèm thêm yếu tố hấp dẫn là miếng mồi ngon cho mạng xã hội lưu truyền lan mạnh.

Nếu trước đây tít báo có nhiệm vụ nói một cách gọn nhất nội dung chủ yếu của tin bài thì nay với công nghệ câu khách nhấp vào đọc, không ai dại gì viết hết mọi sự ra tít – viết ra rõ ràng rồi ai mà chịu bấm vào để đọc tiếp. Thế nên, theo các tác giả, tít báo nay uốn éo để làm sao KHÔNG kể cho bạn nghe tin bài nói về chuyện gì mới là thành công. Một tít trên tờ Washington Post viết “Một phần năm ai làm nghề này đều có vấn đề nghiện rượu nặng”; tờ USA Today viết: “Iceland từng là điểm đến hấp dẫn du khách nhất. Chuyện gì đã xảy ra?”. Báo có chức năng cung cấp thông tin ngay càng sớm càng tốt; đời nào lại nói lấp lửng “nghề này”, “chuyện gì”… như thế. Để dễ hình dung, chúng ta hãy nhớ lại các tít trên báo trong nước: “Chồng mở cửa phòng ngủ và sững sờ khi nhìn lên giường”; “Bà mẹ chồng làm một điều khiến cô con dâu tái mặt”… Những loại tít úp úp mở mở này mở đường cho các câu chuyện ba xạo lan truyền.

Mỗi chương sách đều bày cho người đọc cách phát hiện ba xạo; ở đây xin điểm qua chương 8 về cách vạch mặt ba xạo khi nói về dữ liệu lớn. Đại thể trí tuệ nhân tạo (AI) hay học máy gì cũng cần dựa vào dữ liệu; thuật toán có hay ho đến đâu mà dữ liệu sai, dữ liệu tầm bậy sẽ ra kết quả ba xạo (tác giả dùng cụm từ “garbage in, garbage out – đầu vào là rác thì đầu ra cũng là rác”. Với các startup khoe là công nghệ dựa vào AI thì cần hỏi kỹ về dữ liệu dùng để huấn luyện máy, lấy từ đâu ra, dữ liệu có sạch không thì sẽ biết ngay họ ba xạo hay startup thứ thiệt.

Năm 2009 tạp chí Nature đăng bài miêu tả một công trình nghiên cứu của Google, dựa vào các từ khóa người dùng gõ vào để tìm kiếm như “sốt”, “đau đầu”, “triệu chứng cúm”, “tiệm thuốc tây gần tôi”, Google có thể tiên đoán sớm và chính xác dịch cúm sẽ diễn ra ở địa phương nào còn nhanh hơn giới y tế. Nghiên cứu này gây xôn xao dư luận, ai nấy đều hăm hở giờ là thời của “dữ liệu lớn”, chỉ cần có “dữ liệu lớn” mọi phương pháp khoa học khác là lỗi thời rồi. Bản đồ cúm của Google thành một thứ hàng “hot” khắp nơi. Chỉ cần đến năm 2014, thiên hạ mới ngã ngửa, càng ngày dự đoán cúm của Google càng sai thực tế; cuối cùng Google phải hủy bỏ dự án và lấy trang “xu hướng cúm” xuống trong ê chề. Sai lầm là chọn các cụm từ để dự báo cúm bởi không hề có mối quan hệ nhân quả như Google nhầm tưởng.

“Calling Bullshit” là một cẩm nang hữu ích để lọc cát đãi vàng tìm trong một thế giới đi đâu cũng thấy những lời đao to búa lớn, văn phong quảng cáo, kể cả trong thông cáo báo chí của các công trình nghiên cứu, nhất là qua mùa đại dịch Covid-19 vừa qua. Có lẽ ngoài việc nắm được nguyên tắc phân biệt giữa tương quan và nhân quả, hoài nghi dữ liệu lớn, cảnh giác việc nhào nặn số liệu để phù hợp với kết quả, cách dễ nhất là cứ tâm niệm chuyện gì “quá tốt để tin” thì ắt nó không tốt thật.

 

Box

Một trong những câu chuyện “ba xạo” được các tác giả kể là công trình nghiên cứu cho rằng các nghệ sĩ dòng nhạc rap hay hip-hop chết trẻ hơn nghệ sĩ dòng nhạc blue hay jazz. Nghe qua tưởng như một công trình khoa học làm sáng tỏ một hiện tượng mà nhiều người cũng thấy. Hóa ra cái sai là quãng thời gian đưa vào để quan sát là quá ngắn, nhạc rap mới ra đời từ thập niên 1970 nên nghệ sĩ rap nào chết đều là chết trẻ hơn so với các dòng nhạc khác. Nếu kéo dài thời gian quan sát thêm 100 năm nữa, kết luận sau cùng sẽ không còn đúng nữa.

 

  

 

No comments:

Post a Comment

Cryptocurrency

  Phép thử tiền crypto   Không biết hãng Finder khảo sát ở đâu, với ai mà kết luận đến 41% dân Việt Nam có sở hữu tiền mã hóa (cryptocur...