Từ Google
Translate nghĩ về AI
Với nhiều người cho đến nay, Google Translate chỉ là một nơi
để minh họa cho lối dịch ngớ ngẩn, nhiều sai sót. Đôi lúc có người vào Google
Translate bắt nó dịch một hai câu rồi cười thú vị về cách dịch đôi lúc rất quái
đản của nó. Nhưng từ tháng 3 năm nay nếu họ vào lại Google Translate, thử bắt
nó dịch một bài báo tiếng Anh ra tiếng Việt, có thể họ sẽ ngạc nhiên.
Kết quả dịch có thể vẫn còn trúc trắc, vẫn còn lỗi, đọc vẫn
biết là “máy dịch” nhưng nhìn tổng thể Google Translate hôm nay so với năm
ngoái là một bước tiến nhảy vọt thật sự gây bất ngờ. Cứ thử bắt nó dịch một hai
câu rồi nguyên cả một bài báo, một tài liệu, một bài diễn văn, càng dài càng tốt,
nó sẽ giúp người đọc nắm bắt được ý chính của văn bản, câu kéo khá chính xác và
tốc độ thì nhanh không thể tưởng.
Đó là bởi từ cuối năm ngoái Google đã thay đổi cách tiếp cận
để giải quyết vấn đề dịch thuật bằng máy. Trước đây máy dịch theo từ hay cụm từ,
tức dựa vào hàng triệu từ hay cụm từ đã được dịch để đối chiếu, so sánh và chọn
cụm từ nào sát nhất bằng phương pháp thống kê để đưa vào kết quả (phrase-based machine translation). Nay
thì máy dịch theo cả câu, rồi dùng ngữ cảnh để quyết định xem từ đó trong ngữ cảnh
đó thì chọn nghĩa nào cho chính xác nhất (Google Neural Machine Translation - GNMT).
Nói ngắn gọn thì Google đã ứng dụng các tiến bộ mới nhất trong lĩnh vực trí tuệ
nhân tạo, máy tự học và mạng nơ rôn để Google Translate ngày càng thông minh
hơn, dịch chính xác hơn, câu văn dịch tự nhiên hơn. Theo đánh giá của nhiều người
ở các cặp ngôn ngữ khác như Anh-Tây Ban Nha, Anh-Pháp, Anh-Đức, Anh- Nhật, cách
dịch mới cải thiện chất lượng dịch vượt bậc so với trước.
Thế nhưng vấn đề đặt ra cho cặp Anh-Việt là gì? Vì sao người
dùng vẫn còn thấy lấn cấn, chất lượng Google Translate cho cặp Anh-Việt dù tiến
bộ nhiều vẫn chưa như kỳ vọng? Tháng 11-2016 cách dịch mới được áp dụng cho 8
ngôn ngữ và đến tháng 3-2017 đã mở rộng thêm cho 3 ngôn ngữ khác, trong đó có
tiếng Việt rồi.
Google Translate thông minh lên, đầu tiên nó sẽ giải quyết những
lỗi sai do máy dịch gây ra. Trước đây, nó sẽ không phân biệt được khi nào bank được dùng theo nghĩa ngân hàng, khi nào là bờ sông; nay bằng cách liên kết cả câu
hay các yếu tố trước đó, nó sẽ dịch chính xác, bạn cứ thử bắt nó dịch, she went to the bank và she went to the river bank cho xem.Cái
tiến bộ rõ nhất là giảm hẳn lỗi do máy dù vẫn còn không ít.
Nhưng lỗi do con người cũng mắc phải thì cho đến nay Google
Translate bó tay.Dù gọi là trí tuệ thông minh nhân tạo nhưng máy cũng phải dựa
vào hàng triệu, triệu câu đã được dịch để học. Nếu chúng ta đọc một cuốn sách
và nhận ra ngay đó là sách dịch do văn nghe rất “Tây” thì làm sao kỳ vọng
Google Translate dịch thanh thoát như thể nó không phải là bản dịch được.
Lâu
nay ai học tiếng Anh thấy câu “We worked
hard” đều dịch thành “Chúng tôi làm
việc chăm chỉ”, biểu sao Google Translate dịch khác khi đến đoạn Steve Jobs
kể lại những ngày đầu ông khởi nghiệp cùng Steve Wozniak trong bài diễn văn nổi
tiếng đọc ở đại học Stanford. Hầu hết các bản dịch đều dịch work hard là làm việc
chăm chỉ; Google Translate cũng thế!Lúc nào thì tự nó quyết định, thôi nói “làm
việc cật lực” cho nó ra tiếng Việt?
Đó là chưa kể tiếng Anh thì chỉ một từ mà tiếng Việt, với
khái niệm tương đương, chục người dùng chục từ khác nhau, ví dụ như commodities, futures contract…Đưa cho 10
người đến 9 người dịch commodities là
“hàng hóa” và chỉ 1 người dịch thành “thương phẩm”. Chắc máy cũng đau đầu chọn
lựa và đi theo cách chọn từ nào được dùng nhiều nhất!
Vậy trí tuệ thông minh nhân tạo (AI), ở đây là một dạng AI
chuyên biệt chứ chưa phải là AI tổng quátcó thể nào vượt qua được trí tuệ thông
minh của con người như một tập thể để đem lại giá trị thật sự trong tương lai? Liệu
Google Translate có thể học nhưng sau đó vượt qua được cách dịch của số đông để
hoàn thiện kỹ năng dịch đến mức hoàn hảo trong tương lai?
Hiện nay đã có nhiều ý kiến phản đối cách dùng một cách máy
móc các thuật toán máy tính như một dạng trí tuệ thông minh nhân tạo sơ khai để
giải quyết các vấn đề liên quan đến con người, ví dụ quan tòa dựa vào máy móc để
đưa ra quyết định có cho tù nhân này được tạm thachưa hay một cơ quan quản lý
giáo dục dựa vào thuật toán để quyết định tuyển hay sa thải giáo viên ở địa
phương.Dựa vào máy tưởng đâu khách quan hoàn toàn nhưng không phải.
Máy cũng phải
dựa vào big data mà kho dữ liệu dù khổng
lồ đến đâu cũng dựa vào thực tế cuộc sống, có cả thiên kiến, định kiến, sự thù
hằn, sự phân biệt đối xử trong vô thức hay đơn giản là sự máy móc của con người
vô tâm… Máy thấy một giáo viên năm xưa lúc còn là sinh viên từng bị bắt vì một
lần hút cần sa nay cứ ghi dấu chuyện đó để làm thước đo cân nhắc, liệu có thỏa
đáng?Sinh viên nào từng hút nhưng không bị phát hiện nay có gì hơn người bị tì
vết đó?
Google thấy một ai tìm “máy giặt” và sau đó liên tục dội bom
người này bằng các quảng cáo máy giặt ở bất cứ nơi nào trong không gian mạng
người ấy ghé qua, tưởng đâu thế là thông minh theo kiểu AI nhưng có ở trong
hoàn cảnh nhu cầu máy giặt chỉ là thoáng qua và cả tuần lễ bị máy giặt quấy rầy
mới thấy còn lâu AI mới trở thành một trí tuệ thật sự chứ không phải sự phiền
toái.
Vì thế, Google Translate sẽ tiến bộ, các lỗi ngớ ngẩn chỉ có
máy mới mắc phải sẽ dần biến mất. Nhưng khó lòng trông chờ đến ngày nó cho
chúng ta những kết quả dịch thuật hoàn hảo, đọc vô không biết là văn dịch – ít
ra là với cặp ngôn ngữ Anh – Việt. Bạn cứ thử dùng Google Translate dịch từ Việt
sang Anh sẽ thấy kết quả khá hơn nhiều bởi máy đã quen với loại tiếng Anh tự
nhiên cũng như hiện nay máy đã quen với loại tiếng Việt ngây ngô của dịch thuật.
Trừ phi Google thay đổi cách tiếp cận thêm một lần nữa. Đừng
bắt máy học – dù là deep learning–theo
các bản dịch đã có. Hãy bắt máy hiểu nội dung của đầu vào và bắt máy viết luận,
làm luận đầu ra bằng thứ tiếng Việt tự nhiên của người Việt đang dùng. Hãy quên
chuyện dịch đi, may đâu mới đạt được đỉnh cao của dịch thuật.
Đó là chuyện khó bởi cho đến nay người ta đã chấp nhận chuyện
dịchnhư một thực tế. Lấy ví dụ, bản dịch Hiệp định thương mại tự do giữa Mỹ và
Việt Nam là một bản dịch hoàn hảo nhưng bảo đảm bất kỳ người Việt nào đọc bản
Hiệp định này bằng tiếng Việt sẽ cho đó không phải là tiếng Việt tự nhiên.
Hãy đọc
câu này ở trang nhất xem thử nó có phải là tiếng Việt không: “Mỗi bên điều hành các biện pháp thuế quan và
phi thuế quan có ảnh hưởng đến thương mại để tạo cho hàng hóa của Bên kia những
cơ hội cạnh tranh có ý nghĩa đối với các nhà cạnh tranh trong nước”.Nhưng dễ
gì chính phủ hai nước chấp nhận một “bản dịch” thuần Việt theo kiểu “làm luận”,
được viết lại toàn bộ trừ phi phía Việt Nam là bên soạn thảo và phía Mỹ phải dịch
ra tiếng Anh?
Cho dù Google Translate đọc câu sau “The Government’s approach to restructuring its banking sector is
considerably different fromwhat is generally considered as good practice”
và hiểu ý của nó nói cách chính phủ tái cơ cấu hệ thống ngân hàng là không giống
ai nhưng nó cũng sẽ dịch như hiện nay nó đang dịch (và vậy đã là quá tốt): “Cách tiếp cận của Chính phủ để tái cơ cấu
ngành ngân hàng khác biệt đáng kể so vớinhững gì thường được coi là thực hành tốt”.
Thôi đành đợi một bước đột phá khác của Google Translate
trong tương lai vậy!