tenzin3 · tenzin3 · Apr 22, 2024 · Apr 21, 2024 · Apr 22, 2024
diff --git a/src/monocheck/dimension_reduction.py b/src/monocheck/dimension_reduction.py
@@ -0,0 +1,11 @@
+import numpy as np
+
+from sklearn.decomposition import PCA
+
+def reduce_dimension(images_feature: np.ndarray, components:int = 100):
+    pca = PCA(n_components=2, random_state=22)
+    pca.fit(images_feature)
+    reduced_images_feature = pca.transform(images_feature)
+
+    return reduced_images_feature
+
diff --git a/src/monocheck/feature_extraction.py b/src/monocheck/feature_extraction.py
@@ -3,11 +3,8 @@
 from keras.applications.vgg16 import VGG16 
 
 
-def extract_features(images_input: List[np.ndarray], model:VGG16):
-    images_features = []
-    for image_input in images_input:
-        feature = model.predict(image_input)
-        images_features.append(feature)
+def extract_features(images_input: np.ndarray, model:VGG16):
+    images_features = model.predict(images_input)
 
     return images_features
 

diff --git a/src/monocheck/pipeline.py b/src/monocheck/pipeline.py
@@ -1,3 +1,4 @@
+import numpy as np
 from pathlib import Path 
 from typing import List 
 
@@ -6,23 +7,24 @@
 
 from monocheck.prepare import load_image
 from monocheck.feature_extraction import extract_features
-
+from monocheck.dimension_reduction import reduce_dimension
 
 def pipeline(image_paths:List[Path]):
-    imgs_array = [load_image(image_path) for image_path in image_paths]
+    imgs_array = [load_image(image_path).squeeze(0) for image_path in image_paths]
+    imgs_array = np.stack(imgs_array, axis=0)
     model = VGG16()
     model = Model(inputs = model.inputs, outputs = model.layers[-2].output)
 
     imgs_features = extract_features(imgs_array, model)
-    return imgs_features
-
+    imgs_features = imgs_features.reshape(-1,4096)
+    reduced_imgs_features = reduce_dimension(imgs_features)
+    return reduced_imgs_features
 
 if __name__ == "__main__":
-    image_path = Path("image.jpg")
-    imgs_path = [image_path]
+    imgs_path = [Path("image.jpg"), Path("image2.jpg")]
+    imgs_feat = pipeline(imgs_path)
+    print(imgs_feat)
 
-    imgs_features = pipeline(imgs_path)
-    print(imgs_features)
 
 
 
diff --git a/tests/feature_extraction/test_extract_features.py b/tests/feature_extraction/test_extract_features.py
@@ -1,25 +1,28 @@
 import numpy as np
-from pathlib import Path 
 
 from keras.applications.vgg16 import VGG16 
 from keras.models import Model
 
 from monocheck.feature_extraction import extract_features
 
+
 def generate_random_image():
     """ Generate a random array with shape (1, 224, 224, 3) """
     random_image = np.random.rand(1, 224, 224, 3)
     return random_image
 
 def test_extract_features():
     """5 random images array"""
-    imgs_array = [generate_random_image() for _ in range(5)]
+    num_of_imgs = 5
+    imgs_array = [generate_random_image().squeeze(0) for _ in range(num_of_imgs)]
+    imgs_array = np.stack(imgs_array, axis=0)
+
     model = VGG16()
     model = Model(inputs = model.inputs, outputs = model.layers[-2].output)
 
     images_feature = extract_features(imgs_array, model)
 
-    for image_feature in images_feature:     
-        assert isinstance(image_feature, np.ndarray)
-        assert image_feature.shape == (1, 4096)
+
+    assert isinstance(images_feature, np.ndarray)
+    assert images_feature.shape == (num_of_imgs, 4096)