Phụ thuộc hàm
Các phụ thuộc hàm là các tương quan giữa các thuộc tính của một quan hệ: Một phụ thuộc hàm chỉ ra rằng giá trị của một thuộc tính được xác định duy nhất bởi một số các thuộc tính khác. Vấn đề phát hiện các phụ thuộc hàm từ các quan hệ đã nhận được các mối quan tâm đáng kể. Việc phân tích CSDL tự động, đương nhiên, rất thú vị cho các mục tiêu khai phá tri thức và khai phá dữ liệu (KDD), và các phụ thuộc hàm có nhiều ứng dụng trong các lĩnh vực quản lý CSDL, tối ưu hóa truy vấn…
Một cách hình thức, một phụ thuộc hàm trên một lược đồ quan hệ R là một biểu thức
X→AX→A size 12{X rightarrow A} {} với
X⊆RX⊆R size 12{X subseteq R} {}và
A∈RA∈R size 12{A in R} {}. Phụ thuộc này thỏa, hay đúng, trong một quan hệ r trên R cho trước nếu với mọi các cặp hàng
t,u∈Rt,u∈R size 12{t,u in R} {}, ta có: nếu
tB=uBtB=uB size 12{t left [B right ]=u left [B right ]} {}mọi
B∈XB∈X size 12{B in X} {}, thì
tA=uAtA=uA size 12{t left [A right ]=u left [A right ]} {}(ta cũng nói rằng t và u thỏa trên X và A)
Phụ thuộc hàm
X→AX→A size 12{X rightarrow A} {} là tối thiểu (trong r) nếu A không phụ thuộc hàm vào bất kỳ một tập con thực sự nào của X, ví dụ: nếu
Y→AY→A size 12{Y rightarrow A} {} không thỏa trong r với bất kỳ
Y⊂XY⊂X size 12{Y subset X} {}.
Phụ thuộc hàm
X→AX→A size 12{X rightarrow A} {} là tầm thường nếu
A⊂XA⊂X size 12{A subset X} {}
Nhiệm vụ trọng tâm mà chúng ta quan tâm là như sau: Cho một quan hệ r, tìm tất cả các phụ thuộc tối thiểu, không tầm thường thỏa mãn trong r
Phụ thuộc hàm xấp xỉ
Phụ thuộc hàm xấp xỉ là một phụ thuộc hàm mà hầu hết thỏa. Các phụ thuộc này xuất hiện trong nhiều CSDL khi mà có một phụ thuộc tự nhiên giữa các thuộc tính, nhưng có một số hàng chứa lỗi hoặc có những ngoại lệ đối với luật. Việc khám phá các phụ thuộc xấp xỉ, không mong muốn nhưng có nhiều ý nghĩa dường như là một mục tiêu thú vị và thực tế trong nhiều ứng dụng khai phá dữ liệu
Có rất nhiều cách khả thi để định nghĩa xấp xỉ của một phụ thuộc
X→AX→A size 12{X rightarrow A} {}. Định nghĩa chúng tôi sử dụng ở đây dựa trên số lượng nhỏ nhất các hàng cần phải loại bỏ khỏi quan hệ r để
X→AX→A size 12{X rightarrow A} {} thỏa trên r: lỗi
g3=X→Ag3=X→A size 12{g rSub { size 8{3} } = left (X rightarrow A right )} {}= 1-max({|s| |s
size 12{ subseteq } {}r và X->A thỏa trên s})/|r|
Độ đo
g3g3 size 12{g rSub { size 8{3} } } {}có một cách lý giải tự nhiên như là số các hàng với các lỗi hoặc ngoại lệ ảnh hưởng đến phụ thuộc.
Cho trước một ngưỡng lỗi
εε size 12{ε} {},
0≤ε≤10≤ε≤1 size 12{0 <= ε <= 1} {}, chúng ta nói rằng
X→AX→A size 12{X rightarrow A} {} là phụ thuộc xấp xỉ nếu và chỉ nếu
g3X→Ag3X→A size 12{g rSub { size 8{3} } left (X rightarrow A right )} {}thỏa với hầu hết
εε size 12{ε} {}.
Trong bài báo này, chúng ta cũng đồng thời quan tâm tới nhiệm vụ lập luận phụ thuộc xấp xỉ: Cho một quan hệ r và một ngưỡng εε size 12{ε} {}, tìm tất cả các phụ thuộc xấp xỉ tối thiểu, không tầm thường