Nhận diện trang web bất hợp pháp từ ảnh

07/09/2015 08:04

Các nhà khoa học máy tính đến từ Đại học Công nghệ Sofia (Bulgaria) đã tìm ra cách đọc đường dẫn web trong các bức ảnh để từ đó mở rộng khả năng lọc và ngăn chặn việc truy nhập đến các trang web có nội dung không lành mạnh như đánh bạc hay mua bán chất gây nghiện.

Đọc địa chỉ URL từ ảnh rất khó và cho tỷ lệ thành công thấp.

Các nhà tiếp thị trên Internet luôn tìm nhiều cách khác nhau như thêm địa chỉ URL của trang web vào ảnh để có thể tìm được từ các cỗ máy tìm kiếm theo ảnh và từ đó, người dùng sẽ đọc và gõ vào trình duyệt để đến các trang web này nếu bức ảnh làm họ thích thú.

Cũng vì thế mà các đường dẫn này có thể dẫn đến các nội dung không lành mạnh như đánh bạc, buôn bán chất gây nghiện hay quảng bá cho khủng bố. Những nội dung này, thường các nhà chức trách, phụ huynh hay giám hộ trẻ em hoặc các cơ quan thực thi pháp luật muốn tự động đưa vào danh sách đen để ngăn chặn truy nhập.

Để giải quyết việc này, anh Nikolay Neshow đến từ trường Đại học Công nghệ Sofia (Bulgaria) và các cộng sự đến từ các trường Đại học Karlstad (Thụy Điển) và Belgrade (Serbia) đã phát triển một thuật toán có thể phát hiện những dòng chữ trên một bức ảnh hoặc một đoạn phim và chuyển nó thành một đường dẫn URL đến một trang web đang hoạt động để xem xét cho phép truy nhập hay ngăn chặn.

Các kỹ thuật nhận dạng chữ truyền thống OCR thường không làm việc tốt với chữ ở trên ảnh vì nền của ảnh thường phức tạp, khác hẳn với chữ ở trên tài liệu được quét từ máy scanner. Cách tiếp cận mới của các nhà khoa học là sử dụng công nghệ trích chọn ảnh theo phương sai từ đó có thể lấy ra các dòng chữ nằm trên bức ảnh. Sau đó, những bức ảnh chỉ còn chữ sẽ dùng phương pháp OCR thông thường để chuyển thành những dòng chữ mà máy tính có thể đọc được.

Quá trình kiểm tra thuật toán rất thành công khi thử với hàng nghìn bức ảnh có chứa các đường dẫn URL. Thuật toán mới này có thể nhận diện được 619 đường dẫn URL trong 1000 bức ảnh được lựa chọn trong vòng ba giây trong khi dùng phương pháp OCR cũ chỉ đọc được 83 địa chỉ URL nên có thể nâng mức độ nhận diện chính xác từ 8% lên hơn 60%.

Động lực ban đầu của các nhà nghiên cứu là muốn dùng công cụ máy tính trong hỗ trợ điều tra từ hàng chục nghìn bức ảnh bất hợp pháp lấy từ mấy quét ảnh để nhanh chóng nhận diện được các trang web liên quan. Điều này rất quan trọng trong điều tra đối với xâm phạm trẻ em nhưng với cách làm cũ sẽ rất khó khăn do tỷ lệ nhận diện thành công thấp trong khi số lượng bức ảnh quá lớn.

Nghiên cứu mới này sẽ bổ sung thêm một cách mới trong đọc địa chỉ URL từ ảnh để giúp các hãng tìm kiếm Internet hay các nhà cung cấp dịch vụ thêm một cách nhận diện và ngăn chặn các nội dung bất hợp pháp trên Internet hay giúp các nhà điều tra nhanh chóng đọc được các nội dung phục vụ công tác thực thi pháp luật.

Nguồn Nhân dân

Gửi bình luận