Monday, October 16, 2017

Từ Google Translate nghĩ về AI

Từ Google Translate nghĩ về AI

Với nhiều người cho đến nay, Google Translate chỉ là một nơi để minh họa cho lối dịch ngớ ngẩn, nhiều sai sót. Đôi lúc có người vào Google Translate bắt nó dịch một hai câu rồi cười thú vị về cách dịch đôi lúc rất quái đản của nó. Nhưng từ tháng 3 năm nay nếu họ vào lại Google Translate, thử bắt nó dịch một bài báo tiếng Anh ra tiếng Việt, có thể họ sẽ ngạc nhiên.

Kết quả dịch có thể vẫn còn trúc trắc, vẫn còn lỗi, đọc vẫn biết là “máy dịch” nhưng nhìn tổng thể Google Translate hôm nay so với năm ngoái là một bước tiến nhảy vọt thật sự gây bất ngờ. Cứ thử bắt nó dịch một hai câu rồi nguyên cả một bài báo, một tài liệu, một bài diễn văn, càng dài càng tốt, nó sẽ giúp người đọc nắm bắt được ý chính của văn bản, câu kéo khá chính xác và tốc độ thì nhanh không thể tưởng.

Đó là bởi từ cuối năm ngoái Google đã thay đổi cách tiếp cận để giải quyết vấn đề dịch thuật bằng máy. Trước đây máy dịch theo từ hay cụm từ, tức dựa vào hàng triệu từ hay cụm từ đã được dịch để đối chiếu, so sánh và chọn cụm từ nào sát nhất bằng phương pháp thống kê để đưa vào kết quả (phrase-based machine translation). Nay thì máy dịch theo cả câu, rồi dùng ngữ cảnh để quyết định xem từ đó trong ngữ cảnh đó thì chọn nghĩa nào cho chính xác nhất (Google Neural Machine Translation - GNMT). 

Nói ngắn gọn thì Google đã ứng dụng các tiến bộ mới nhất trong lĩnh vực trí tuệ nhân tạo, máy tự học và mạng nơ rôn để Google Translate ngày càng thông minh hơn, dịch chính xác hơn, câu văn dịch tự nhiên hơn. Theo đánh giá của nhiều người ở các cặp ngôn ngữ khác như Anh-Tây Ban Nha, Anh-Pháp, Anh-Đức, Anh- Nhật, cách dịch mới cải thiện chất lượng dịch vượt bậc so với trước.

Thế nhưng vấn đề đặt ra cho cặp Anh-Việt là gì? Vì sao người dùng vẫn còn thấy lấn cấn, chất lượng Google Translate cho cặp Anh-Việt dù tiến bộ nhiều vẫn chưa như kỳ vọng? Tháng 11-2016 cách dịch mới được áp dụng cho 8 ngôn ngữ và đến tháng 3-2017 đã mở rộng thêm cho 3 ngôn ngữ khác, trong đó có tiếng Việt rồi.

Google Translate thông minh lên, đầu tiên nó sẽ giải quyết những lỗi sai do máy dịch gây ra. Trước đây, nó sẽ không phân biệt được khi nào bank được dùng theo nghĩa ngân hàng, khi nào là bờ sông; nay bằng cách liên kết cả câu hay các yếu tố trước đó, nó sẽ dịch chính xác, bạn cứ thử bắt nó dịch, she went to the bankshe went to the river bank cho xem.Cái tiến bộ rõ nhất là giảm hẳn lỗi do máy dù vẫn còn không ít.

Nhưng lỗi do con người cũng mắc phải thì cho đến nay Google Translate bó tay.Dù gọi là trí tuệ thông minh nhân tạo nhưng máy cũng phải dựa vào hàng triệu, triệu câu đã được dịch để học. Nếu chúng ta đọc một cuốn sách và nhận ra ngay đó là sách dịch do văn nghe rất “Tây” thì làm sao kỳ vọng Google Translate dịch thanh thoát như thể nó không phải là bản dịch được. 

Lâu nay ai học tiếng Anh thấy câu “We worked hard” đều dịch thành “Chúng tôi làm việc chăm chỉ”, biểu sao Google Translate dịch khác khi đến đoạn Steve Jobs kể lại những ngày đầu ông khởi nghiệp cùng Steve Wozniak trong bài diễn văn nổi tiếng đọc ở đại học Stanford. Hầu hết các bản dịch đều dịch work hard là làm việc chăm chỉ; Google Translate cũng thế!Lúc nào thì tự nó quyết định, thôi nói “làm việc cật lực” cho nó ra tiếng Việt?

Đó là chưa kể tiếng Anh thì chỉ một từ mà tiếng Việt, với khái niệm tương đương, chục người dùng chục từ khác nhau, ví dụ như commodities, futures contract…Đưa cho 10 người đến 9 người dịch commodities là “hàng hóa” và chỉ 1 người dịch thành “thương phẩm”. Chắc máy cũng đau đầu chọn lựa và đi theo cách chọn từ nào được dùng nhiều nhất!

Vậy trí tuệ thông minh nhân tạo (AI), ở đây là một dạng AI chuyên biệt chứ chưa phải là AI tổng quátcó thể nào vượt qua được trí tuệ thông minh của con người như một tập thể để đem lại giá trị thật sự trong tương lai? Liệu Google Translate có thể học nhưng sau đó vượt qua được cách dịch của số đông để hoàn thiện kỹ năng dịch đến mức hoàn hảo trong tương lai?

Hiện nay đã có nhiều ý kiến phản đối cách dùng một cách máy móc các thuật toán máy tính như một dạng trí tuệ thông minh nhân tạo sơ khai để giải quyết các vấn đề liên quan đến con người, ví dụ quan tòa dựa vào máy móc để đưa ra quyết định có cho tù nhân này được tạm thachưa hay một cơ quan quản lý giáo dục dựa vào thuật toán để quyết định tuyển hay sa thải giáo viên ở địa phương.Dựa vào máy tưởng đâu khách quan hoàn toàn nhưng không phải. 

Máy cũng phải dựa vào big data mà kho dữ liệu dù khổng lồ đến đâu cũng dựa vào thực tế cuộc sống, có cả thiên kiến, định kiến, sự thù hằn, sự phân biệt đối xử trong vô thức hay đơn giản là sự máy móc của con người vô tâm… Máy thấy một giáo viên năm xưa lúc còn là sinh viên từng bị bắt vì một lần hút cần sa nay cứ ghi dấu chuyện đó để làm thước đo cân nhắc, liệu có thỏa đáng?Sinh viên nào từng hút nhưng không bị phát hiện nay có gì hơn người bị tì vết đó?

Google thấy một ai tìm “máy giặt” và sau đó liên tục dội bom người này bằng các quảng cáo máy giặt ở bất cứ nơi nào trong không gian mạng người ấy ghé qua, tưởng đâu thế là thông minh theo kiểu AI nhưng có ở trong hoàn cảnh nhu cầu máy giặt chỉ là thoáng qua và cả tuần lễ bị máy giặt quấy rầy mới thấy còn lâu AI mới trở thành một trí tuệ thật sự chứ không phải sự phiền toái.

Vì thế, Google Translate sẽ tiến bộ, các lỗi ngớ ngẩn chỉ có máy mới mắc phải sẽ dần biến mất. Nhưng khó lòng trông chờ đến ngày nó cho chúng ta những kết quả dịch thuật hoàn hảo, đọc vô không biết là văn dịch – ít ra là với cặp ngôn ngữ Anh – Việt. Bạn cứ thử dùng Google Translate dịch từ Việt sang Anh sẽ thấy kết quả khá hơn nhiều bởi máy đã quen với loại tiếng Anh tự nhiên cũng như hiện nay máy đã quen với loại tiếng Việt ngây ngô của dịch thuật.

Trừ phi Google thay đổi cách tiếp cận thêm một lần nữa. Đừng bắt máy học – dù là deep learning–theo các bản dịch đã có. Hãy bắt máy hiểu nội dung của đầu vào và bắt máy viết luận, làm luận đầu ra bằng thứ tiếng Việt tự nhiên của người Việt đang dùng. Hãy quên chuyện dịch đi, may đâu mới đạt được đỉnh cao của dịch thuật.

Đó là chuyện khó bởi cho đến nay người ta đã chấp nhận chuyện dịchnhư một thực tế. Lấy ví dụ, bản dịch Hiệp định thương mại tự do giữa Mỹ và Việt Nam là một bản dịch hoàn hảo nhưng bảo đảm bất kỳ người Việt nào đọc bản Hiệp định này bằng tiếng Việt sẽ cho đó không phải là tiếng Việt tự nhiên.

Hãy đọc câu này ở trang nhất xem thử nó có phải là tiếng Việt không: “Mỗi bên điều hành các biện pháp thuế quan và phi thuế quan có ảnh hưởng đến thương mại để tạo cho hàng hóa của Bên kia những cơ hội cạnh tranh có ý nghĩa đối với các nhà cạnh tranh trong nước”.Nhưng dễ gì chính phủ hai nước chấp nhận một “bản dịch” thuần Việt theo kiểu “làm luận”, được viết lại toàn bộ trừ phi phía Việt Nam là bên soạn thảo và phía Mỹ phải dịch ra tiếng Anh?

Cho dù Google Translate đọc câu sau “The Government’s approach to restructuring its banking sector is considerably different fromwhat is generally considered as good practice” và hiểu ý của nó nói cách chính phủ tái cơ cấu hệ thống ngân hàng là không giống ai nhưng nó cũng sẽ dịch như hiện nay nó đang dịch (và vậy đã là quá tốt): “Cách tiếp cận của Chính phủ để tái cơ cấu ngành ngân hàng khác biệt đáng kể so vớinhững gì thường được coi là thực hành tốt”.


Thôi đành đợi một bước đột phá khác của Google Translate trong tương lai vậy!

AI - hype and reality

  AI – cường điệu và thực tế Nguyễn Vạn Phú Bạn đôi lúc có cảm giác hơi hơi mặc cảm vì chung quanh đọc đâu cũng thấy bàn về AI (trí tuệ ...