Amazon đang tiêm cho Alexa nhiều trí tuệ nhân tạo hơn bao giờ hết
Amazon đang sử dụng các mạng thần kinh và các mô hình ngôn ngữ tự nhiên để cải thiện phong cách nói của Alexa, mang đến cho họ những tiếng nói mới và thậm chí nhận thấy rằng người dùng không hài lòng với nó.
[Ảnh: Rahul Chakraborty / Bapt]
BỞI MARK SULLIVAN4 PHÚT ĐỌC
Amazon đã công bố một loạt lớn các sản phẩm mới vào thứ Tư, một lần nữa nói rõ rằng họ muốn phổ biến trợ lý kỹ thuật số Alexa của mình vào càng nhiều danh mục công nghệ tiêu dùng càng tốt, không chỉ là loa thông minh, mà là tất cả mọi thứ từ tai nghe đến kính mắt đến nhẫn . Nhưng có một cốt truyện khác được đưa vào các thông báo ở Seattle. Nhiều trí tuệ nhân tạo, cụ thể là ngôn ngữ tự nhiên AI, đang tìm đường vào Alexa và bằng nhiều cách khác.
Để bắt đầu, Amazon cho biết họ đã sử dụng các mạng thần kinh để làm cho giọng nói của Alexa nghe giống người hơn khi dịch văn bản (như tin nhắn văn bản của bạn) thành lời nói. Rohit Prasad, người đứng đầu Alexa học máy và trí tuệ nhân tạo, nói với tôi rằng công nghệ này đã cho phép Amazon thực hiện một cách tiếp cận hoàn toàn khác để tạo ra lời nói.
Trước đây, thuật toán của Alexa đã chia nhỏ ngôn ngữ thành các phần từ hoặc âm thanh, sau đó cố gắng xâu chuỗi chúng lại với nhau một cách trơn tru nhất có thể. Nhưng nó luôn luôn nghe có vẻ hơi nhảm và robot. Bây giờ, Amazon đang sử dụng các mạng thần kinh có thể tạo ra toàn bộ câu văn bản trong thời gian thực, Prasad nói. Điều này tạo ra một âm thanh có chất lỏng và âm thanh của con người nhiều hơn. (Siri của Apple và Trợ lý của Google cũng đã đạt được tiếng nói tự nhiên hơn gần đây thông qua các phương tiện tương tự.)
Chính mô hình ngôn ngữ tự nhiên này sẽ sớm mang đến cho Alexa một giọng nói hoàn toàn khác. Amazon cho biết họ sẽ bắt đầu với những người nổi tiếng, với Samual L. Jackson là người đầu tiên. Amazon sẽ bán Jackson-as-Alexa dưới dạng dịch vụ bổ sung bắt đầu vào cuối năm nay.
Giọng Jackson của Amazon ít nhất được điều khiển một phần bởi mô hình ngôn ngữ tự nhiên. Người mẫu học được từ giọng nói của Jackson, anh ấy đã ghi lại một loạt các mẫu trong phòng thu để tạo ra giọng nói bắt chước giọng điệu đặc biệt của mình trong khi cung cấp câu trả lời và thông tin mà trợ lý thường cung cấp. Nhưng Amazon cũng đã quản lý một bộ các cách nói hoàn chỉnh của Jackson để trợ lý sử dụng khi thời điểm thích hợp.
Jackson có thể sẽ chỉ là người đầu tiên trong số nhiều giọng nói nổi tiếng mà Amazon sẽ cung cấp như là sự thay thế cho giọng nói Alexa tiêu chuẩn. (Google, trong khi đó, hãy để Trợ lý Google nói chuyện như John Legend vào đầu năm nay, cũng do những tiến bộ trong việc sử dụng AI để tổng hợp giọng nói.)
CHUÔNG CỬA NÓI CHUYỆN
Amazon cũng đã thêm một số thủ thuật học máy vào máy quay chuông cửa. Trong một dịch vụ mới, Amazon đang gọi tới dịch vụ Hướng dẫn khách của chuông cửa, các thiết bị sẽ sớm có thể phát hiện nhiều loại người xuất hiện ở cửa trước mà không báo trước. Bản demo tôi thấy có ba loại khách truy cập, một chàng trai đang giao hàng, một cô gái bán bánh quy Scout và một người đàn ông không xác định. The Ring đã lôi kéo tất cả họ vào một cuộc đối thoại ngắn để tìm hiểu những gì họ muốn, và một mạng lưới thần kinh ở phía sau đã sử dụng những gì họ nói để xác định họ là loại người gọi nào. Nó đã làm điều này chỉ dựa trên những gì họ nói, không phải trên hình ảnh máy ảnh. Việc phân loại sau đó đã thông báo cho thiết bị Ring những gì cần nói với từng người. Chẳng hạn, nó nói với anh chàng giao hàng nơi đặt gói hàng, sau khi hỏi anh ta có cần chữ ký không.
Chuông cửa video. [Ảnh: lịch sự của Ring]
Tính năng mới của Hướng dẫn viên chưa sẵn sàng cho thị trường. Khi được phát hành, nó có khả năng sẽ nhận ra một nhóm nhỏ các loại người gọi. Nhưng bộ đó có thể sẽ phát triển.
ALEXA ĐANG LẮNG NGHE
Năm ngoái, Amazon đã mở rộng khả năng nghe của Alexa để phát hiện nhiều hơn chỉ là mệnh lệnh của con người. Là một phần của chế độ bảo mật nhà Guard, dải micro nhạy được sử dụng trong loa Echo bắt đầu lắng nghe âm thanh vỡ kính và báo động khói phát ra khi không có ai trong nhà. Bây giờ Amazon đã bổ sung khả năng lắng nghe âm thanh liên quan đến con người trong nhà trong khi Guard được đặt ở chế độ Tắt đi. Chúng bao gồm tiếng bước chân, tiếng ho và tiếng đóng cửa khi không có ai ở nhà. Alexa có thể gửi cảnh báo cho người dùng nếu phát hiện một trong những âm thanh này.
Trong tất cả các trường hợp này, một mô hình học sâu đang lấy đầu vào âm thanh từ micrô và gắn cờ các âm thanh nguy hiểm tiềm tàng. Amazon có thể đào tạo trợ lý để nghe nhiều loại âm thanh khác. Ví dụ, các thiết bị Alexa có thể bắt đầu lắng nghe âm thanh của tiếng té ngã hoặc hơi thở mệt nhọc ở những nơi người già sống. Liệu Amazon có đi theo hướng này hay không là phỏng đoán của bất kỳ ai, nhưng thực tế là công ty đang liên tục bổ sung những điều mà Alexa có thể lắng nghe đang nói.
Echo Dot mới của Amazon cũng là một chiếc đồng hồ. [Ảnh: Amazon.com, Inc.]
NGHE THẤT VỌNG
Một lĩnh vực tương đối mới trong nghiên cứu ngôn ngữ tự nhiên là sử dụng mạng lưới thần kinh để phát hiện cảm xúc thông qua các từ và ngữ điệu. Amazon đã tập trung vào âm thanh của sự thất vọng trong giọng nói của những người nói chuyện với Alexa. Khi phát hiện sự thất vọng, Alexa có thể kết luận rằng đó là câu trả lời mà người dùng không thích và sau đó tìm kiếm một cách khác để trả lời. Prasad cho biết Amazon có tập hợp các bản ghi âm được dán nhãn riêng của những người nghe có vẻ bực bội, được sử dụng để đào tạo các mạng lưới thần kinh.
Nhưng đó là một vấn đề khó khăn. Người trợ lý phải biết cách phản ứng sau khi phát hiện một người thất vọng. Và nếu cần một cú đâm khác để đưa ra câu trả lời, tốt hơn hết là người trợ lý chắc chắn rằng câu trả lời thứ hai là hữu ích. Và có những lúc trợ lý phải nói về Xin lỗi, tôi không có câu trả lời.
Chúng tôi đang bắt đầu thử nghiệm những cách đáp ứng khác nhau này và một khi điều này được đưa ra, bạn sẽ thấy nhiều hương vị khác nhau, theo ông Prasad nói.
Loại nhận thức cảm xúc này có thể sẽ bắt đầu xuất hiện trong nhiều loại trợ lý. Bất kỳ trợ lý nào cũng có khả năng biết khi nào nó làm sai và có thể mở ra một vòng phản hồi để cải thiện.
Tính năng phát hiện sự thất vọng có thể sẽ xuất hiện trong Alexa vào năm tới.
[Ảnh: Rahul Chakraborty / Bapt]
BỞI MARK SULLIVAN4 PHÚT ĐỌC
Amazon đã công bố một loạt lớn các sản phẩm mới vào thứ Tư, một lần nữa nói rõ rằng họ muốn phổ biến trợ lý kỹ thuật số Alexa của mình vào càng nhiều danh mục công nghệ tiêu dùng càng tốt, không chỉ là loa thông minh, mà là tất cả mọi thứ từ tai nghe đến kính mắt đến nhẫn . Nhưng có một cốt truyện khác được đưa vào các thông báo ở Seattle. Nhiều trí tuệ nhân tạo, cụ thể là ngôn ngữ tự nhiên AI, đang tìm đường vào Alexa và bằng nhiều cách khác.
Để bắt đầu, Amazon cho biết họ đã sử dụng các mạng thần kinh để làm cho giọng nói của Alexa nghe giống người hơn khi dịch văn bản (như tin nhắn văn bản của bạn) thành lời nói. Rohit Prasad, người đứng đầu Alexa học máy và trí tuệ nhân tạo, nói với tôi rằng công nghệ này đã cho phép Amazon thực hiện một cách tiếp cận hoàn toàn khác để tạo ra lời nói.
Trước đây, thuật toán của Alexa đã chia nhỏ ngôn ngữ thành các phần từ hoặc âm thanh, sau đó cố gắng xâu chuỗi chúng lại với nhau một cách trơn tru nhất có thể. Nhưng nó luôn luôn nghe có vẻ hơi nhảm và robot. Bây giờ, Amazon đang sử dụng các mạng thần kinh có thể tạo ra toàn bộ câu văn bản trong thời gian thực, Prasad nói. Điều này tạo ra một âm thanh có chất lỏng và âm thanh của con người nhiều hơn. (Siri của Apple và Trợ lý của Google cũng đã đạt được tiếng nói tự nhiên hơn gần đây thông qua các phương tiện tương tự.)
Chính mô hình ngôn ngữ tự nhiên này sẽ sớm mang đến cho Alexa một giọng nói hoàn toàn khác. Amazon cho biết họ sẽ bắt đầu với những người nổi tiếng, với Samual L. Jackson là người đầu tiên. Amazon sẽ bán Jackson-as-Alexa dưới dạng dịch vụ bổ sung bắt đầu vào cuối năm nay.
Giọng Jackson của Amazon ít nhất được điều khiển một phần bởi mô hình ngôn ngữ tự nhiên. Người mẫu học được từ giọng nói của Jackson, anh ấy đã ghi lại một loạt các mẫu trong phòng thu để tạo ra giọng nói bắt chước giọng điệu đặc biệt của mình trong khi cung cấp câu trả lời và thông tin mà trợ lý thường cung cấp. Nhưng Amazon cũng đã quản lý một bộ các cách nói hoàn chỉnh của Jackson để trợ lý sử dụng khi thời điểm thích hợp.
Jackson có thể sẽ chỉ là người đầu tiên trong số nhiều giọng nói nổi tiếng mà Amazon sẽ cung cấp như là sự thay thế cho giọng nói Alexa tiêu chuẩn. (Google, trong khi đó, hãy để Trợ lý Google nói chuyện như John Legend vào đầu năm nay, cũng do những tiến bộ trong việc sử dụng AI để tổng hợp giọng nói.)
CHUÔNG CỬA NÓI CHUYỆN
Amazon cũng đã thêm một số thủ thuật học máy vào máy quay chuông cửa. Trong một dịch vụ mới, Amazon đang gọi tới dịch vụ Hướng dẫn khách của chuông cửa, các thiết bị sẽ sớm có thể phát hiện nhiều loại người xuất hiện ở cửa trước mà không báo trước. Bản demo tôi thấy có ba loại khách truy cập, một chàng trai đang giao hàng, một cô gái bán bánh quy Scout và một người đàn ông không xác định. The Ring đã lôi kéo tất cả họ vào một cuộc đối thoại ngắn để tìm hiểu những gì họ muốn, và một mạng lưới thần kinh ở phía sau đã sử dụng những gì họ nói để xác định họ là loại người gọi nào. Nó đã làm điều này chỉ dựa trên những gì họ nói, không phải trên hình ảnh máy ảnh. Việc phân loại sau đó đã thông báo cho thiết bị Ring những gì cần nói với từng người. Chẳng hạn, nó nói với anh chàng giao hàng nơi đặt gói hàng, sau khi hỏi anh ta có cần chữ ký không.
Chuông cửa video. [Ảnh: lịch sự của Ring]
Tính năng mới của Hướng dẫn viên chưa sẵn sàng cho thị trường. Khi được phát hành, nó có khả năng sẽ nhận ra một nhóm nhỏ các loại người gọi. Nhưng bộ đó có thể sẽ phát triển.
ALEXA ĐANG LẮNG NGHE
Năm ngoái, Amazon đã mở rộng khả năng nghe của Alexa để phát hiện nhiều hơn chỉ là mệnh lệnh của con người. Là một phần của chế độ bảo mật nhà Guard, dải micro nhạy được sử dụng trong loa Echo bắt đầu lắng nghe âm thanh vỡ kính và báo động khói phát ra khi không có ai trong nhà. Bây giờ Amazon đã bổ sung khả năng lắng nghe âm thanh liên quan đến con người trong nhà trong khi Guard được đặt ở chế độ Tắt đi. Chúng bao gồm tiếng bước chân, tiếng ho và tiếng đóng cửa khi không có ai ở nhà. Alexa có thể gửi cảnh báo cho người dùng nếu phát hiện một trong những âm thanh này.
Trong tất cả các trường hợp này, một mô hình học sâu đang lấy đầu vào âm thanh từ micrô và gắn cờ các âm thanh nguy hiểm tiềm tàng. Amazon có thể đào tạo trợ lý để nghe nhiều loại âm thanh khác. Ví dụ, các thiết bị Alexa có thể bắt đầu lắng nghe âm thanh của tiếng té ngã hoặc hơi thở mệt nhọc ở những nơi người già sống. Liệu Amazon có đi theo hướng này hay không là phỏng đoán của bất kỳ ai, nhưng thực tế là công ty đang liên tục bổ sung những điều mà Alexa có thể lắng nghe đang nói.
Echo Dot mới của Amazon cũng là một chiếc đồng hồ. [Ảnh: Amazon.com, Inc.]
NGHE THẤT VỌNG
Một lĩnh vực tương đối mới trong nghiên cứu ngôn ngữ tự nhiên là sử dụng mạng lưới thần kinh để phát hiện cảm xúc thông qua các từ và ngữ điệu. Amazon đã tập trung vào âm thanh của sự thất vọng trong giọng nói của những người nói chuyện với Alexa. Khi phát hiện sự thất vọng, Alexa có thể kết luận rằng đó là câu trả lời mà người dùng không thích và sau đó tìm kiếm một cách khác để trả lời. Prasad cho biết Amazon có tập hợp các bản ghi âm được dán nhãn riêng của những người nghe có vẻ bực bội, được sử dụng để đào tạo các mạng lưới thần kinh.
Nhưng đó là một vấn đề khó khăn. Người trợ lý phải biết cách phản ứng sau khi phát hiện một người thất vọng. Và nếu cần một cú đâm khác để đưa ra câu trả lời, tốt hơn hết là người trợ lý chắc chắn rằng câu trả lời thứ hai là hữu ích. Và có những lúc trợ lý phải nói về Xin lỗi, tôi không có câu trả lời.
Chúng tôi đang bắt đầu thử nghiệm những cách đáp ứng khác nhau này và một khi điều này được đưa ra, bạn sẽ thấy nhiều hương vị khác nhau, theo ông Prasad nói.
Loại nhận thức cảm xúc này có thể sẽ bắt đầu xuất hiện trong nhiều loại trợ lý. Bất kỳ trợ lý nào cũng có khả năng biết khi nào nó làm sai và có thể mở ra một vòng phản hồi để cải thiện.
Tính năng phát hiện sự thất vọng có thể sẽ xuất hiện trong Alexa vào năm tới.
Nhận xét
Đăng nhận xét