Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Thứ 2, 24/03/2025 18:39
AI đang đánh cắp nội dung của bạn và các công ty AI đã xây dựng nên đế chế kinh doanh bằng cách thu thập dữ liệu web. Cloudflare, một dịch vụ mạng toàn cầu, đã nghĩ ra một kế hoạch mới để đối phó với vấn nạn này: "mê cung AI".

AI đang đánh cắp nội dung của bạn. Chúng ta đều biết các công ty AI đã xây dựng nên những doanh nghiệp trị giá hàng tỷ USD như thế nào – bằng cách cào dữ liệu web và sử dụng dữ liệu của bạn để huấn luyện chatbot. Việc cào dữ liệu web không phải là điều mới mẻ. Trước đây, các trang web có thể dựa vào các giao thức đơn giản như robots.txt để xác định những gì có thể và không thể được sử dụng bởi các trình thu thập thông tin web. Các hướng dẫn đó đã được các công ty thực hiện việc cào dữ liệu, chẳng hạn như xây dựng kết quả cho các công cụ tìm kiếm, tôn trọng. Tuy nhiên, các công ty AI lại không tuân thủ giao kèo xã hội này và phớt lờ các hướng dẫn đó.

one companys devious plan to sto
Chú thích ảnh

Cloudflare, một dịch vụ mạng toàn cầu giúp một số trang web lớn nhất thế giới phân phối nội dung đến người dùng, đã nghĩ ra một kế hoạch mới để đối phó với các trình cào dữ liệu web của các công ty AI. Ý tưởng này vừa xảo quyệt lại vừa khéo léo. Trong một bài đăng blog mới, Cloudflare đã chia sẻ cách họ đang "bẫy các bot cư xử sai trái trong một mê cung AI". Về cơ bản, các bot không tuân theo các quy tắc được đặt ra cho chúng thông qua các giao thức như robots.txt, một tệp văn bản đơn giản quy định những gì trình thu thập thông tin web được phép làm trên một trang web, sẽ bị can thiệp để làm lãng phí thời gian và tài nguyên của công ty phụ trách bot.

Cloudflare cho biết: "Nội dung do AI tạo ra đã bùng nổ… đồng thời, chúng tôi cũng chứng kiến ​​sự bùng nổ của các trình thu thập thông tin mới được các công ty AI sử dụng để cào dữ liệu cho việc huấn luyện mô hình. Các trình thu thập thông tin AI tạo ra hơn 50 tỷ yêu cầu đến mạng Cloudflare mỗi ngày, tương đương gần 1% tổng số yêu cầu web mà chúng tôi thấy." Cloudflare cho biết trước đây họ chỉ chặn các trình thu thập thông tin và cào dữ liệu web AI. Tuy nhiên, việc làm như vậy đã cảnh báo những người đứng sau các bot rằng quyền truy cập của họ đã bị từ chối, và kết quả là họ sẽ thay đổi chiến lược để tiếp tục các chiến dịch cào dữ liệu của mình.

Vì vậy, Cloudflare đã nảy ra ý tưởng xây dựng một "honeypot": một loạt các trang web giả được tạo bằng nội dung do AI tạo ra. Việc Cloudflare sử dụng nội dung do AI tạo ra để chống lại các trình cào dữ liệu web AI không chỉ đơn thuần là để hả hê. Khi AI huấn luyện trên nội dung do AI tạo ra, nó thực sự làm suy giảm chính mô hình AI. Ngành công nghiệp này thậm chí còn có một thuật ngữ cho nó: "model collapse" (sụp đổ mô hình). Cloudflare về cơ bản đang đảm bảo rằng các bot vi phạm quy tắc sẽ bị trừng phạt vì đã làm như vậy.

Bài đăng của Cloudflare đi sâu vào các chi tiết kỹ thuật của việc xây dựng mê cung AI. Nhưng, ý chính của nó là Cloudflare đã nghĩ ra mọi thứ theo cách mà khách truy cập là con người sẽ không bao giờ nhìn thấy các trang honeypot do AI tạo ra này. Ngoài ra, con người sẽ nhận thấy "những điều vô nghĩa do AI tạo ra" trên các trang này. Tuy nhiên, các bot sẽ rơi xuống hang thỏ, lãng phí tài nguyên tính toán khi chúng đi sâu hơn và sâu hơn qua nhiều trang nội dung do AI tạo ra. Khách hàng của Cloudflare có thể lựa chọn sử dụng mê cung AI ngay bây giờ để bảo vệ nội dung của họ khỏi các trình cào dữ liệu web.

Ánh Viên

Bình luận tiêu biểu (0)

Sắp xếp theo lượt thích | Sắp xếp theo ngày
Chưa có bình luận. Hãy là người đầu tiên bình luận bài viết này.
Cùng chuyên mục

Vắt ít nước chanh rồi bỏ vào máy giặt, công dụng "vàng mười" sẽ khiến bạn phải bất ngờ

Chủ nhật, 30/03/2025 22:59
Nước chanh cho vào máy giặt, điều gì sẽ xảy ra?

Thùy Tiên - Pháo bị gạch tên khỏi show Em Xinh Say Hi vì lùm xùm?

Chủ nhật, 30/03/2025 22:11
Cư dân mạng lan truyền và bàn tán rôm rả về việc tham gia của cả 2 trong show mới.

Khoảnh khắc tự hào: 2 máy bay chở lực lượng cứu hộ Việt Nam và 60 tấn hàng cứu trợ đã hạ cánh tại Myanmar

Chủ nhật, 30/03/2025 22:08
Khoảng 18h15' (theo giờ Việt Nam) tối 30/3, máy bay chở Đội cứu nạn, cứu hộ (CNCH) Bộ Công an Việt Nam đã hạ cánh xuống sân bay quốc tế Yangon, Myanmar để bắt đầu hành trình thực hiện nhiệm vụ cứu trợ quốc tế tại nước bạn.
    Xem thêm
Nổi bật trong ngày

Xe Hyundai sẽ dùng màn hình siêu to mới này từ năm sau: Giao diện giống Tesla, tích hợp AI, cấu hình mạnh

Chủ nhật, 30/03/2025 08:09
Hệ thống thông tin giải trí có tên Pleos Connect sẽ là ‘trái tim’ mới của hệ thống phần mềm trên xe Hyundai từ năm sau.

Chồng hành hung nam shipper sau cuộc điện thoại với vợ: Diễn biến mới nhất gây chú ý

Chủ nhật, 30/03/2025 10:58
Nam shipper bị thương khá nặng sau khi bị người đàn ông chém.

Sao phim "Sex Education" sợ đóng cảnh này hơn 'cảnh nóng', hóa ra từng vật lộn với 2 chứng bệnh

Chủ nhật, 30/03/2025 14:54
Sao phim "Sex Education" từng vật lộn với 2 chứng bệnh và thú nhận cảnh quay này khiến cô rất lo lắng.

Thủ tướng Thái Lan chỉ đạo khẩn về tòa nhà duy nhất sụp đổ do động đất: “Nhân vật bí ẩn” can thiệp dự án?

Chủ nhật, 30/03/2025 17:26
Theo Tổng cục Kiểm toán Nhà nước Thái Lan, tòa nhà văn phòng cao 30 tầng với tổng mức đầu tư 2,13 tỷ baht (hơn 1.600 tỷ VNĐ) này được khởi công xây dựng vào năm 2020.

Hiện trường kinh hoàng vụ xe khách 52 chỗ lao xuống đèo Bảo Lộc, nhiều người thương vong

Chủ nhật, 30/03/2025 20:29
Chiếc xe khách 52 chỗ ngồi chở theo nhiều hành khách lao xuống vực sâu hơn 20 mét trên đèo Bảo Lộc, làm một người tử vong, ít nhất 30 người bị thương.
xe.nguoiduatin.vn