Hết đường ba xạo
Có đời thuở nào mà một môn học tại một trường đại học lại
mang tên “Calling Bullshit in the Age of Big Data”. Bullshit là một
từ thông tục, gọi ai đó bằng từ này có nghĩa mình bảo họ xạo, họ nói bậy, họ nói
vớ vẩn; cho nên tên khóa học này đại khái là “Vạch mặt nói xạo trong thời đại dữ
liệu lớn”. Hai ông thầy dạy khóa này tại đại học Washington, Seatle là Jevin
West, giáo sư về tin học và Carl Bergstrom, một nhà sinh học – lại là một sự kết
hợp kỳ lạ nữa.
Thật ra cơ sở ra đời môn học này là rất lô-gich và hợp thời:
loài người từ khi biết kể chuyện ắt hẳn đã pha lẫn trong câu chuyện mình kể cho
người khác nghe nhiều chi tiết “ba xạo” cho thêm phần hấp dẫn; từ đó con người
ai cũng phải tự trang bị cho mình cái kỹ năng phát hiện “ba xạo” để khỏi bị “phỉnh”
như một kẻ khờ khạo. Thế nhưng khi “ba xạo” lan sang dữ liệu lớn, sang nghiên cứu
khoa học, vào lãnh vực trí tuệ nhân tạo, rồi “học máy”… đa phần chưa quen, vẫn
“há hốc miệng” mà nghe một cách say mê, đầy tin tưởng. Một môn học giúp người
ta vạch mặt được các lời ba xạo cao cấp này sẽ cần thiết biết bao cho người sẽ
ra đời trong thời đại công nghệ hiện nay – chẳng lạ gì khi công bố nội dung môn
học, chỉ 1 phút sau đã đủ 180 sinh viên ghi danh.
Khóa học ở tận bên Mỹ nhưng may thay hai ông thầy đã soạn lại
nội dung bài giảng thành một cuốn sách mới xuất bản vào tháng 8 vừa qua và hiện
đang bán chạy như tôm tươi – cuốn “Calling Bullshit: The Art of Skepticism
in a Data-Driven World” (Vạch mặt nói xạo: Nghệ thuật hoài nghi trong thế
giới vận hành bởi dữ liệu lớn). Sách kể khá nhiều câu chuyện bao xạo cao cấp
nhưng để dễ hình dung vì sao người ta ba xạo, hãy bắt đầu bằng câu chuyện này: Một
người bạn bảo, này, anh biết không, ai nuôi mèo lương thường cao hơn người nuôi
chó. Nếu chỉ chừng đó, người nghe rất dễ phán, ông nói xạo và người kia gật gù,
cười xòa. Nhưng người kia không cười mà cứ khăng khăng nói hôm qua mới nghe một
bài TED Talk nói về đề tài này một cách nghiêm túc à nghe. Họ giải thích người
nuôi mèo thường thích tính độc lập còn người nuôi chó thích sự trung thành mà
ai thích độc lập thường có tố chất NVT hay NVS gì đó tớ quên rồi nhưng tố chất
này giúp họ dễ thăng tiến nên lương cao hơn là chuyện đương nhiên. Đến đây rất
có thể ông bạn tin sái cổ dù ông kia ba xạo theo kiểu cao cấp.
Ba xạo cao cấp là dùng dữ liệu, biểu đồ, dẫn chứng, minh họa,
lý thuyết… để củng cố câu chuyện mình kể bất kể thông tin đúng hay sai, hợp lý
hay phi lý. Câu chuyện chó mèo lúc trà dư tửu hậu nói trên mà vào tay một nhà
nghiên cứu, bỏ công ghi nhận dữ liệu ở thành phố New York nơi mức lương thường
cao hơn hẳn nơi khác và rất khó nuôi chó với các thành phố khác ở mạn trên tiểu
bang New York, nơi lương thường thấp hơn và
đất rộng nên dễ nuôi chó hơn – rất dễ có một công trình công phu, dữ liệu
chính xác nhưng kết quả cũng chỉ là ba xạo.
Các nghiên cứu loại này có nhiều lắm. Năm 2016 có hai nhà
nghiên cứu công bố công trình dùng công nghệ học máy để phát hiện các đặc điểm trên
gương mặt người gắn với tội phạm. Họ tuyên bố dùng thuật toán của họ, chỉ cần
nhìn vào hình chụp chân dung, người ta có thể phán đoán ai là tội phạm, ai là
dân vô tội với độ chính xác cao. Báo chí rùm beng lên về một thuật toán họ cho
là vô nhân đạo, vô đạo đức; một số báo than, nếu phát hiện tội phạm ngay cả trước
khi hắn phạm tội thì còn gì là nền móng xã hội… Nhưng người ta quên rằng bản
thân cái nghiên cứu này là đồ ba xạo vì tác giả dùng ảnh sưu tầm trên mạng để đưa
vào nhóm người bình thường, xin ảnh của cảnh sát chụp các kẻ từng phạm tội để
đưa vào nhóm tội phạm. Chừng đó cũng đủ cho cái nghiên cứu này vào sọt rác vì ảnh
tội phạm lúc nào cũng chụp xấu, người bị chụp đang lo sợ, hoang mang hay gầm gừ
phản ứng. Ảnh bình thường ai cũng muốn chụp cho đẹp hẳn lên. Chưa kể tác giả chỉ
ra những đặc điểm của chân dung tội phạm, trong đó có câu rất phức tạp để miêu
tả với kích thước so sánh, tỷ lệ này nọ nhưng hóa ra để chỉ gương mặt không cười.
Có đời nào hình cảnh sát chụp kẻ phạm tội mà đang cười tươi?
Đáng tiếc, thế giới nghiên cứu đầy rẫy các công trình như thế
nấp dưới các câu văn phức tạp, các công thức tính toán dài dòng, các lập luận dắt
dây rất khó lần ra manh mối. Với cuốn Calling Bullshit, chỉ cần đọc các câu
chuyện ba xạo cao cấp trong sách cũng đã hấp dẫn và bổ ích nhưng quan trọng
hơn, các tác giả bày cho người đọc cách phát hiện các loại ba xạo này. Đầu
tiên, tác giả cảnh báo ai cũng tưởng trong một thời kỳ mà ai nấy đều có trong
tay một máy tính mạnh dưới dạng chiếc điện thoại di động có kết nối Internet để
người dùng có thể kiểm tra bất kỳ dữ kiện nào trong nháy mắt thì “ba xạo” sẽ
không còn đất sống. Ngược lại là đằng khác, công nghệ đã giúp ba xạo lan rộng
hơn bất kỳ giai đoạn nào trước đây; một câu chuyện ba xạo nhưng kèm thêm yếu tố
hấp dẫn là miếng mồi ngon cho mạng xã hội lưu truyền lan mạnh.
Nếu trước đây tít báo có nhiệm vụ nói một cách gọn nhất nội
dung chủ yếu của tin bài thì nay với công nghệ câu khách nhấp vào đọc, không ai
dại gì viết hết mọi sự ra tít – viết ra rõ ràng rồi ai mà chịu bấm vào để đọc
tiếp. Thế nên, theo các tác giả, tít báo nay uốn éo để làm sao KHÔNG kể cho bạn
nghe tin bài nói về chuyện gì mới là thành công. Một tít trên tờ Washington
Post viết “Một phần năm ai làm nghề này đều có vấn đề nghiện rượu nặng”; tờ
USA Today viết: “Iceland từng là điểm đến hấp dẫn du khách nhất. Chuyện
gì đã xảy ra?”. Báo có chức năng cung cấp thông tin ngay càng sớm càng tốt; đời
nào lại nói lấp lửng “nghề này”, “chuyện gì”… như thế. Để dễ hình dung, chúng
ta hãy nhớ lại các tít trên báo trong nước: “Chồng mở cửa phòng ngủ và sững sờ
khi nhìn lên giường”; “Bà mẹ chồng làm một điều khiến cô con dâu tái mặt”… Những
loại tít úp úp mở mở này mở đường cho các câu chuyện ba xạo lan truyền.
Mỗi chương sách đều bày cho người đọc cách phát hiện ba xạo;
ở đây xin điểm qua chương 8 về cách vạch mặt ba xạo khi nói về dữ liệu lớn. Đại
thể trí tuệ nhân tạo (AI) hay học máy gì cũng cần dựa vào dữ liệu; thuật toán
có hay ho đến đâu mà dữ liệu sai, dữ liệu tầm bậy sẽ ra kết quả ba xạo (tác giả
dùng cụm từ “garbage in, garbage out – đầu vào là rác thì đầu ra cũng là rác”.
Với các startup khoe là công nghệ dựa vào AI thì cần hỏi kỹ về dữ liệu dùng để
huấn luyện máy, lấy từ đâu ra, dữ liệu có sạch không thì sẽ biết ngay họ ba xạo
hay startup thứ thiệt.
Năm 2009 tạp chí Nature đăng bài miêu tả một công
trình nghiên cứu của Google, dựa vào các từ khóa người dùng gõ vào để tìm kiếm
như “sốt”, “đau đầu”, “triệu chứng cúm”, “tiệm thuốc tây gần tôi”, Google có thể
tiên đoán sớm và chính xác dịch cúm sẽ diễn ra ở địa phương nào còn nhanh hơn giới
y tế. Nghiên cứu này gây xôn xao dư luận, ai nấy đều hăm hở giờ là thời của “dữ
liệu lớn”, chỉ cần có “dữ liệu lớn” mọi phương pháp khoa học khác là lỗi thời rồi.
Bản đồ cúm của Google thành một thứ hàng “hot” khắp nơi. Chỉ cần đến năm 2014,
thiên hạ mới ngã ngửa, càng ngày dự đoán cúm của Google càng sai thực tế; cuối
cùng Google phải hủy bỏ dự án và lấy trang “xu hướng cúm” xuống trong ê chề. Sai
lầm là chọn các cụm từ để dự báo cúm bởi không hề có mối quan hệ nhân quả như
Google nhầm tưởng.
“Calling Bullshit” là một cẩm nang hữu ích để lọc cát đãi
vàng tìm trong một thế giới đi đâu cũng thấy những lời đao to búa lớn, văn phong
quảng cáo, kể cả trong thông cáo báo chí của các công trình nghiên cứu, nhất là
qua mùa đại dịch Covid-19 vừa qua. Có lẽ ngoài việc nắm được nguyên tắc phân biệt
giữa tương quan và nhân quả, hoài nghi dữ liệu lớn, cảnh giác việc nhào nặn số
liệu để phù hợp với kết quả, cách dễ nhất là cứ tâm niệm chuyện gì “quá tốt để
tin” thì ắt nó không tốt thật.
Box
Một trong những câu chuyện “ba xạo” được các tác giả kể là công
trình nghiên cứu cho rằng các nghệ sĩ dòng nhạc rap hay hip-hop chết trẻ hơn
nghệ sĩ dòng nhạc blue hay jazz. Nghe qua tưởng như một công trình khoa học làm
sáng tỏ một hiện tượng mà nhiều người cũng thấy. Hóa ra cái sai là quãng thời
gian đưa vào để quan sát là quá ngắn, nhạc rap mới ra đời từ thập niên 1970 nên
nghệ sĩ rap nào chết đều là chết trẻ hơn so với các dòng nhạc khác. Nếu kéo dài
thời gian quan sát thêm 100 năm nữa, kết luận sau cùng sẽ không còn đúng nữa.
No comments:
Post a Comment