Kiểm tra tập huấn luyện và tập kiểm tra có cùng phân bố xác suất Chào mọi người !
Mình đang xử lý 1 dataset gồm hơn 4 triệu bản ghi, các phần tử 41 chiều, và đang muốn kiểm tra xem tập huấn luyện và kiểm tra có tuân theo nguyên lý ERM trong học thống kê là cùng phân bố xác suất. Có nhiều cách có thể nghĩ ngay trong đầu như tính các moments E[X], E[X^2], hoặc thêm 1 chiều 1 hoặc 0 vào mỗi phần tử của (1 tương ứng với phần tử thuộc tập huấn luyện, 0 nếu phần tử đó thuộc tập kiểm tra) và dùng classifier để xem các phần tử của cả 2 tậpcó phân biệt đc ko . Nhưng các cánh này đều theo cảm nhận, có các test nào hình thức không ?
thay đổi nội dung bởi: ttmhut, 06-23-2011 lúc 10:18 AM |