Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ

Thứ 2, 08/04/2024 16:29
Đây cũng là thách thức khó khăn mà toàn ngành AI đang gặp phải khi phát triển các công cụ AI mới.

Trong khi mọi người đều đang hân hoan nói về các công cụ AI mới với khả năng thay đổi cuộc sống con người như thế nào trong tương lai, có một vấn đề mà mọi người đang bỏ qua, đó là nguồn gốc của những bộ dữ liệu làm nên các tính năng tuyệt vời này. Mới đây, một báo cáo của New York Times đã tiết lộ phần nào góc khuất của vấn đề này cũng như cách OpenAI tạo ra các tính năng hấp dẫn cho những công cụ AI của mình.

Mở đầu câu chuyện cho biết, OpenAI vào thời điểm năm 2021 đã trở nên cạn kiệt và vô cùng thèm khát dữ liệu, vì vậy đã phát triển nên một mô hình AI biên dịch âm thanh có tên Whisper để vượt qua trở ngại này. Mô hình này sau đó đã biên dịch hơn 1 triệu giờ các video trên YouTube – bao gồm cả để huấn luyện cho GPT-4, mô hình ngôn ngữ lớn tiên tiến nhất của họ lúc đó.

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ- Ảnh 1.

Theo báo cáo của New York Times, cho dù lúc đó OpenAI – bao gồm cả chủ tịch Greg Brockman – biết rằng điều này có thể gây ra các rắc rối pháp lý nhưng vẫn tiếp tục sử dụng nó vì cho rằng điều là phù hợp với mục đích sử dụng hợp lý.

Trả lời yêu cầu bình luận của The Verge, đại diện OpenAI Lindsay Held cho biết trong email rằng, công ty tinh chỉnh các bộ dữ liệu "duy nhất" cho mỗi mô hình AI của họ để "giúp chúng hiểu được thế giới hơn" và duy trì khả năng cạnh tranh trong nghiên cứu trên toàn cầu. Held cho biết, công ty sử dụng "nhiều nguồn dữ liệu khác nhau bao gồm cả các dữ liệu công khai và các dữ liệu không công khai của nhiều đối tác", đồng thời họ cũng đang xem xét việc tạo ra dữ liệu tổng hợp cho riêng mình.

Trong khi đó, là công ty sở hữu nền tảng YouTube, Google cho rằng, công ty đã biết về "các báo cáo chưa được xác nhận" về hoạt động của OpenAI, cũng như bổ sung rằng "cả file robots.txt và Điều khoản Dịch vụ của chúng tôi đều cấm việc thu thập và tải xuống nội dung YouTube". Trước đó, CEO YouTube, Neal Mohan cũng cho rằng nhiều khả năng OpenAI đã sử dụng YouTube để huấn luyện cho AI tạo sinh video Sora.

Chính vì vậy, đại diện Google Matt Bryant cho biết, công ty đang tiến hành "các biện pháp kỹ thuật và pháp lý" để ngăn chặn việc sử dụng trái phép dữ liệu "khi chúng tôi có bằng chứng kỹ thuật và pháp lý rõ ràng để làm điều đó".

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ- Ảnh 2.

Không chỉ OpenAI, chính Google cũng khai thác các video YouTube làm nguồn dữ liệu huấn luyện cho AI của mình.

Báo cáo của NYT cho biết, không chỉ OpenAI, chính Google cũng thu thập các bản biên dịch âm thanh từ YouTube. Ông Bryant cho biết, Google đã huấn luyện một số mô hình của mình bằng dữ liệu từ "nội dung trên YouTube, theo như thỏa thuận giữa chúng tôi với các nhà sáng tạo nội dung YouTube".

Cũng rơi vào tình cảnh tương tự như các đối thủ khác là hãng Meta, khi dù nắm trong tay nhiều mạng xã hội lớn nhất hành tinh cũng gặp nhiều hạn chế về việc có được nguồn dữ liệu chất lượng. Báo cáo của New York Times cho biết, nhóm AI của Meta đã thảo luận về việc tìm cách sử dụng bất hợp pháp các tài liệu có bản quyền trong nỗ lực để bắt kịp OpenAI.

Về phần Meta, sau khi họ xem qua "gần như toàn bộ các tài liệu bằng tiếng Anh bao gồm sách, tiểu luận, thơ ca và báo chí có sẵn trên internet", đã cân nhắc thực hiện các bước đi như trả tiền mua giấy phép xuất bản sách hoặc mua lại một nhà xuất bản lớn. Các động thái này cho thấy, rõ ràng công ty cũng bị giới hạn bởi nguồn dữ liệu của người dùng sau vụ bê bối Cambridge Analytica.

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ- Ảnh 3.

Báo cáo cho thấy, toàn bộ ngành AI, bao gồm cả các công ty lớn như Google, OpenAI và Meta đều đang vật lộn với việc thiếu hụt dữ liệu. Thậm chí một báo cáo khác của Wall Street Journal cho thấy, nhiều khả năng toàn bộ nguồn dữ liệu trên internet sẽ bị các công ty tiêu thụ hết vào năm 2028, gây nên một thách thức nghiêm trọng cho toàn bộ ngành AI.

Một giải pháp khả thi vào lúc này là việc huấn luyện các mô hình AI dựa trên dữ liệu "tổng hợp" được tạo ra bởi chính các mô hình của họ - hay còn được gọi là kỹ thuật "học tập theo chương trình giáo dục", bao gồm việc cung cấp cho các mô hình này dữ liệu chất lượng cao được sắp xếp theo thứ tự phù hợp. Các nhà nghiên cứu hy vọng rằng các dữ liệu này có thể sử dụng để tạo ra "các kết nối thông minh hơn giữa những ý tưởng" đồng thời tiêu thụ ít thông tin hơn, tuy nhiên các cách tiếp cận này vẫn chưa được chứng minh trong thực tế.

Chính vì vậy, cho đến giờ, lựa chọn phổ biến của nhiều công ty khác là sử dụng bất kỳ dữ liệu nào họ có được, cho dù được phép hay không. Với hàng loạt vụ kiện liên quan đến việc sử dụng dữ liệu vào năm ngoái, đây rõ ràng là một lựa chọn không dễ dàng gì cho họ.

Nguyễn Hải

Cùng chuyên mục

Nữ CEO bị tố “làm màu” khi quyên góp hơn 25 tỷ: Từ cô bé nghèo Đắk Lắk, tốt nghiệp xuất sắc đại học Mỹ, giờ sở hữu cơ ngơi 600m2 giá hơn chục tỷ

Thứ 2, 20/05/2024 18:57
Hiện nữ doanh nhân đang sống hạnh phúc cùng chồng và con trai trong căn penthouse 600m2 tại chung cư cao cấp ở TP.HCM. Đồng thời, vợ chồng cô còn sở hữu nhiều tài sản đắt đỏ khác.

Elon Musk xuất hiện tại Indonesia, quyết định rót 1,2 tỷ USD của VinFast có bị thách thức?

Thứ 2, 20/05/2024 18:54
Elon Musk cho biết trước mắt sẽ tập trung đầu tư cho dịch vụ Internet vệ tinh Starlink tại quốc gia này.

Có gì ở "siêu cảng" Trung Quốc đề xuất 6 tuyến đường đến Việt Nam, hút 7.000 doanh nghiệp kéo đến?

Thứ 2, 20/05/2024 18:50
Chỉ cách Việt Nam khoảng 130km theo đường chim bay, "siêu cảng" này của Trung Quốc đang nắm trong tay "vũ khí mang tính quyết định".

iPhone SE bán đã ế, Apple còn tính tăng giá

Thứ 2, 20/05/2024 18:39
Giá bán của iPhone SE 4 có thể sẽ cao hơn so với các model tiền nhiệm.

Hoa hậu Việt bất ngờ đi đóng hài, tuổi U35 đẹp nóng bỏng, giàu có nhưng buồn vì chưa có chồng con

Thứ 2, 20/05/2024 18:28
Phan Thị Mơ bộc bạch, cô giỏi kiếm tiền, nhưng kiếm chồng lại rất khó khăn.
     
Nổi bật trong ngày

Doanh nhân Hải Phòng tiếp tục mang Porsche 911 Dakar 'phượt' Trung Quốc: Hành trình gần 11.000km, không kế hoạch, hết visa thì về

Chủ nhật, 19/05/2024 06:51
Sau khi kết thúc chuyến "phượt" lần thứ 2 này, đồng hồ công tơ mét của chiếc xe Porsche 911 Dakar sẽ cán mốc 50.000 km, dù mua xe chưa đầy 1 năm.

Trước mùa nắng nóng cao điểm, một doanh nghiệp điều hoà báo lãi trước thuế cũng tăng "nóng" hơn 70% so với cùng kỳ

Chủ nhật, 19/05/2024 08:49
Vừa qua, CTCP Tập đoàn Nagakawa (Mã chứng khoán: NAG) vừa công bố Báo cáo Tài chính hợp nhất Quý I/2024.

Xiaomi ra mắt máy giặt + sấy 12Kg: Dẫn động trực tiếp, cảm biến thông minh, giá 8.9 triệu đồng

Chủ nhật, 19/05/2024 11:15
Một mẫu máy giặt sấy đa năng đáp ứng nhu cầu đa dạng của gia đình.

AI mang tới một diện mạo mới cho con gái của Tứ Hoàng Shank trong One Piece

Chủ nhật, 19/05/2024 13:54
Nữ thần cướp biển xinh đẹp đã sẵn sàng khiến fan One Piece phải mê mẩn với loạt ảnh sống động từ AI.

Những điều cần biết về game bom tấn Tây Du Ký - Black Myth: Wukong

Chủ nhật, 19/05/2024 16:51
Đầu tiên và quan trọng nhất, Black Myth: Wukong lấy cảm hứng rất nhiều từ thể loại Soulslike được yêu thích.
xe.nguoiduatin.vn