Thứ Năm, 18 tháng 11, 2010

Video summarization (5)

1. Extract feature (cm & lbp)
2. Clustering
3. Build Scoring matrix
4. Build Alignment subsequence

(continue...)

Thứ Tư, 17 tháng 11, 2010

Video Summarization (4)

Werner - Bailer 's frame work

1) Loại junk frames

2) Chạy SBD (Shot Boundary Detection) để chia video thành các parts, in general (assumption của tác giả) là các part sẽ chứa 1 hoặc nhiều takes - trong trường hợp lý tưởng là mỗi part chứa 1 take

3) Dùng pair-wise similarity để tính ra các đoạn con giống nhau trong các part --> lưu là take candidates (vì thông thường mỗi take được quay nhiều lần --> do đó trong các parts khác nhau sẽ có các đoạn giống nhau)

4) Chạy linkage-hierarchical clustering các take candidates

5) Sampling để lấy ra các frame đại diện dùng làm summary clip

Để tính similarity giữa 2 parts p1 vaf p2

(1) Extract feature cho part1 và part2

(2) Vì trong 1 part có nhiều frame nên sampling các frames --> sau đó extract feature cho các frame này (sử dụng khá nhiều các feature khác nhau biểu diễn cho một keyframe: color moment, edge orientation)
 - Feature của 1 part = concatenate Feature của các keyframes (sampling từ part)
 - Feature của 1 keyframe = concatenate các features khác nhau

Similarity giữa 2 parts: S(p1, p2)  = 1 - Normalize{LCSS(p1, p2)}    (còn phần chuẩn hóa loằng ngoằng nữa, nhưng bản chất là như vậy)

Tại sao LCSS: vì mỗi part có thể coi là một chuỗi các keyframe --> dùng LCSS để alignment 2 chuỗi với nhau tìm ra các đoạn giống nhau

Độ đo similarity giữa 2 keyframe đơn giản là L2 (Khoảng cách Euclide giữa 2 feature tương ứng với 2 keyframes)

Video Summarization (3)

Emili Dumont's frame work

Đầu tiên là loại bỏ các junk frame (color bars, clap-boards, mono-color-frames...). Sau đó

1) Từ video ban đầu chia thành các segment 1 second
Lý do: 1 second nhỏ nhất để có thể nhận ra một cảnh + take overlap nếu có thì cũng không ảnh hưởng

2) Extract feature cho các 1-second-segments --> Lấy trung bình trên 25 frames (dùng HSV histogram)

3) Hierarchical clustering: Sau bước này, tại mỗi level của clustering: video sẽ được biểu diễn như một chuỗi string, mỗi ký tự là label của cluster của frame tương ứng

4) Sử dụng thuật toán smith-waterman để tìm ra các chuỗi con lặp lại trong nó --> lưu dưới dạng rank list chuỗi đầu tiên là chuỗi tốt nhất

5) Scene boudary detection: để tìm scene boudary --> build alignment matrix --> tính rect(f)

6) Take selection and re-take removal: Chọn chuỗi dài nhất các frame liên tiếp mà không có frame nào aligned với nhau là take

7) Summary clip generation: đến bước này toàn bộ các frame un-interesting đã bị loại bỏ, tuy nhiên duration vẫn vượt quá time uper-limited --> phải tiến hành chọn các frames đại diện trong mỗi take để build summary clip