Nospoko · wmilkowska · Sep 13, 2023 · Sep 13, 2023 · Sep 13, 2023 · Sep 14, 2023
diff --git a/.DS_Store b/.DS_Store
diff --git a/.idea/.gitignore b/.idea/.gitignore
diff --git a/.idea/inspectionProfiles/profiles_settings.xml b/.idea/inspectionProfiles/profiles_settings.xml
diff --git a/.idea/midi-internship.iml b/.idea/midi-internship.iml
diff --git a/.idea/misc.xml b/.idea/misc.xml
diff --git a/.idea/modules.xml b/.idea/modules.xml
diff --git a/.idea/vcs.xml b/.idea/vcs.xml
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -1,8 +1,8 @@
 default_language_version:
-  python: python3.9.10
+  python: python3.10.12
 repos:
   - repo: https://github.com/pre-commit/pre-commit-hooks
-    rev: v4.0.1
+    rev: v4.4.0
     hooks:
       - id: check-merge-conflict
       - id: end-of-file-fixer
@@ -11,19 +11,19 @@ repos:
       - id: check-yaml
       - id: check-docstring-first
       - id: requirements-txt-fixer
-  - repo: https://gitlab.com/pycqa/flake8
-    rev: 3.9.2
+  - repo: https://github.com/pycqa/flake8
+    rev: 6.1.0
     hooks:
     - id: flake8
       args: ["--max-line-length=180","--extend-ignore=E203","--per-file-ignores=.github/scripts/bump_version.py:E402"]
   - repo: https://github.com/ambv/black
-    rev: 21.7b0
+    rev: 23.9.1
     hooks:
     - id: black
       args: [--line-length=130]
       additional_dependencies: ['click==8.0.4']
   - repo: https://github.com/pycqa/isort
-    rev: 5.10.1
+    rev: 5.12.0
     hooks:
     - id: isort
       name: isort

diff --git a/myplot.png b/myplot.png
diff --git a/sequence_similarity.py b/sequence_similarity.py
@@ -0,0 +1,64 @@
+import numpy as np
+import pandas as pd
+from datasets import load_dataset
+
+dataset = load_dataset("roszcz/internship-midi-data-science", split="train")
+
+record = dataset[0]
+df = pd.DataFrame(record["notes"])
+print(df.head())
+
+
+def cos_sim_score(sequence: pd.DataFrame, window: pd.DataFrame) -> float:
+    """
+    Calculating cosine similarity between sequence and window
+    Args:
+        sequence (pd.DataFrame): input sequence
+        window (pd.DataFrame): subset of rolling window
+    Returns:
+        float: cosine similarity score
+    """
-def cos_sim_score(sequence: pd.DataFrame, window: pd.DataFrame) -> float:
-    """
-    Calculating cosine similarity between sequence and window
-    Args:
-        sequence (pd.DataFrame): input sequence
-        window (pd.DataFrame): subset of rolling window
-    Returns:
-        float: cosine similarity score
-    """
+def cos_sim_score(sequence_a: pd.DataFrame, sequence_b: pd.DataFrame) -> float:
+    """
+    Calculating cosine similarity between two sequences
+    Args:
+        sequence_a (pd.DataFrame): first sequence
+        sequence_b (pd.DataFrame): second sequence
+    Returns:
+        float: cosine similarity score
+    """
-def cos_sim_score(sequence: pd.DataFrame, window: pd.DataFrame) -> float:
-    """
-    Calculating cosine similarity between sequence and window
-    Args:
-        sequence (pd.DataFrame): input sequence
-        window (pd.DataFrame): subset of rolling window
-    Returns:
-        float: cosine similarity score
-    """
+def cos_sim_score(sequence_a: pd.DataFrame, sequence_b: pd.DataFrame) -> float:
+    """
+    Calculating cosine similarity between two sequences
+    Args:
+        sequence_a (pd.DataFrame): first sequence
+        sequence_b (pd.DataFrame): second sequence
+    Returns:
+        float: cosine similarity score
+    """
+
+    # extracting numpy array and transposing, shape: [num_features, window_size]
+    sequence_arr = sequence.values.T
+    # shape: [window_size, num_features]
+    window_arr = window.values
+
+    # det product shape: [features, features]
+    sequence_x_window = sequence_arr @ window_arr
+
+    # shape: [num_features, 1]
+    sequence_norm = np.linalg.norm(sequence_arr, axis=1, keepdims=True)
+    # shape: [1, num_features]
+    window_norm = np.linalg.norm(window_arr, axis=0, keepdims=True)
+
+    # shape: [num_features, num_features]
+    normalization = sequence_norm * window_norm
+
+    # calculating cosine similarity for each entry
+    cos_sim = sequence_x_window / (normalization + 1e-8)
+
+    num_features = cos_sim.shape[0]
+
+    # returning normalized trace of cosine similarity because the values of interest are along main diagonal
+    return np.sum(cos_sim) / (num_features * num_features)
+
+
+x = df.iloc[0:16]
+x = x[["pitch", "velocity"]]
+
+scores = {"score": [], "idx": []}
+
+seq_len = len(x)
+
+for i in range(0, len(df) - seq_len):
+    seq = df.iloc[i : i + seq_len]
+    seq = seq[["pitch", "velocity"]]
+    score = cos_sim_score(x, seq)
+    scores["score"].append(score)
+    scores["idx"].append(i)
-x = df.iloc[0:16]
-x = x[["pitch", "velocity"]]
-
-scores = {"score": [], "idx": []}
-
-seq_len = len(x)
-
-for i in range(0, len(df) - seq_len):
-    seq = df.iloc[i : i + seq_len]
-    seq = seq[["pitch", "velocity"]]
-    score = cos_sim_score(x, seq)
-    scores["score"].append(score)
-    scores["idx"].append(i)
+target_sequence = df.iloc[0:16]
+target_sequence = target_sequence[["pitch", "velocity"]]
+
+scores = {"score": [], "idx": []}
+
+seq_len = len(target_sequence)
+
+for i in range(0, len(df) - seq_len):
+    sequence_window = df.iloc[i : i + seq_len]
+    sequence_window = sequence_window[["pitch", "velocity"]]
+    score = cos_sim_score(sequence_a=target_sequence, sequence_b=sequence_window)
+    scores["score"].append(score)
+    scores["idx"].append(i)
-x = df.iloc[0:16]
-x = x[["pitch", "velocity"]]
-
-scores = {"score": [], "idx": []}
-
-seq_len = len(x)
-
-for i in range(0, len(df) - seq_len):
-    seq = df.iloc[i : i + seq_len]
-    seq = seq[["pitch", "velocity"]]
-    score = cos_sim_score(x, seq)
-    scores["score"].append(score)
-    scores["idx"].append(i)
+target_sequence = df.iloc[0:16]
+target_sequence = target_sequence[["pitch", "velocity"]]
+
+scores = {"score": [], "idx": []}
+
+seq_len = len(target_sequence)
+
+for i in range(0, len(df) - seq_len):
+    sequence_window = df.iloc[i : i + seq_len]
+    sequence_window = sequence_window[["pitch", "velocity"]]
+    score = cos_sim_score(sequence_a=target_sequence, sequence_b=sequence_window)
+    scores["score"].append(score)
+    scores["idx"].append(i)
+
+similarity = pd.DataFrame(scores)
+similarity.sort_values(by="score", ascending=False, inplace=True)
+
+print(similarity)
-x = df.iloc[0:16]
-x = x[["pitch", "velocity"]]
-
-scores = {"score": [], "idx": []}
-
-seq_len = len(x)
-
-for i in range(0, len(df) - seq_len):
-    seq = df.iloc[i : i + seq_len]
-    seq = seq[["pitch", "velocity"]]
-    score = cos_sim_score(x, seq)
-    scores["score"].append(score)
-    scores["idx"].append(i)
-
-similarity = pd.DataFrame(scores)
-similarity.sort_values(by="score", ascending=False, inplace=True)
-
-print(similarity)
+if __name__ == "__main__":
+    # Moved this from the top of the script
+    dataset = load_dataset("roszcz/internship-midi-data-science", split="train")
+    
+    record = dataset[0]
+    df = pd.DataFrame(record["notes"])
+    print(df.head())
+
+    x = df.iloc[0:16]
+    x = x[["pitch", "velocity"]]
+    
+    scores = {"score": [], "idx": []}
+    
+    seq_len = len(x)
+    
+    for i in range(0, len(df) - seq_len):
+        seq = df.iloc[i : i + seq_len]
+        seq = seq[["pitch", "velocity"]]
+        score = cos_sim_score(x, seq)
+        scores["score"].append(score)
+        scores["idx"].append(i)
+    
+    similarity = pd.DataFrame(scores)
+    similarity.sort_values(by="score", ascending=False, inplace=True)
+    
+    print(similarity)
-x = df.iloc[0:16]
-x = x[["pitch", "velocity"]]
-
-scores = {"score": [], "idx": []}
-
-seq_len = len(x)
-
-for i in range(0, len(df) - seq_len):
-    seq = df.iloc[i : i + seq_len]
-    seq = seq[["pitch", "velocity"]]
-    score = cos_sim_score(x, seq)
-    scores["score"].append(score)
-    scores["idx"].append(i)
-
-similarity = pd.DataFrame(scores)
-similarity.sort_values(by="score", ascending=False, inplace=True)
-
-print(similarity)
+if __name__ == "__main__":
+    # Moved this from the top of the script
+    dataset = load_dataset("roszcz/internship-midi-data-science", split="train")
+    
+    record = dataset[0]
+    df = pd.DataFrame(record["notes"])
+    print(df.head())
+
+    x = df.iloc[0:16]
+    x = x[["pitch", "velocity"]]
+    
+    scores = {"score": [], "idx": []}
+    
+    seq_len = len(x)
+    
+    for i in range(0, len(df) - seq_len):
+        seq = df.iloc[i : i + seq_len]
+        seq = seq[["pitch", "velocity"]]
+        score = cos_sim_score(x, seq)
+        scores["score"].append(score)
+        scores["idx"].append(i)
+    
+    similarity = pd.DataFrame(scores)
+    similarity.sort_values(by="score", ascending=False, inplace=True)
+    
+    print(similarity)
diff --git a/speed.py b/speed.py
@@ -0,0 +1,47 @@
+import pandas as pd
+import matplotlib.pyplot as plt
+from datasets import load_dataset
+
+
+def plot_speed_time(df: pd.DataFrame) -> plt.Figure:
+    duration = df["end"].max() - df["start"][0]
+
+    if duration > 120:
+        time_unit = "minutes"
+    else:
+        time_unit = "seconds"
+
+    bins = []
+    for index, row in df.iterrows():
+        if time_unit == "minutes":
+            bins.append(round(row["end"] / 60))
+        else:
+            bins.append(round(row["end"]))
+
+    df["bin"] = bins
+
+    notes_per_minutes = {}
+
+    for index, row in df.iterrows():
+        if row["bin"] in notes_per_minutes:
+            notes_per_minutes[row["bin"]] += 1
+        else:
+            notes_per_minutes[row["bin"]] = 1
+
+    x = list(notes_per_minutes.keys())
+    y = list(notes_per_minutes.values())
+
+    fig, ax = plt.subplots()
+    ax.plot(x, y)
+    # ax.scatter(x, y)
+    ax.set(xlabel="Time (" + time_unit + ")", ylabel="Number of notes", title="Number of notes over time")  # show the plot
+
+    return fig
+
+
+if __name__ == "__main__":
+    dataset = load_dataset("roszcz/internship-midi-data-science", split="train")
+    for record in dataset:
+        df = pd.DataFrame(record["notes"])
+        fig = plot_speed_time(df)
+        plt.show()