Skip to content

Latest commit

 

History

History
113 lines (89 loc) · 3.97 KB

README_EDU.md

File metadata and controls

113 lines (89 loc) · 3.97 KB

Instalación

  1. Inst. Miniconda

    1. wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

    2. chmod +x Miniconda3-latest-Linux-x86_64.sh

    3. bash Miniconda3-latest-Linux-x86_64.sh

      cd ~/eromero/ && chmod +x Miniconda3-latest-Linux-x86_64.sh && bash Miniconda3-latest-Linux-x86_64.sh
      
  2. Crear env. python 3.8.13

    1. Abrir nueva terminal
    2. conda create --name demml python=3.8.13
    3. conda activate demml
    4. pip install kedro kedro-viz
  3. Crear proyecto kedro

    1. kedro new --starter=pyspark
    2. cd iris-pyspark/
  4. Configuración git

    1. git config --global init.defaultBranch main
    2. git branch -m main
    3. git init
    4. Creo el repo en Github con el nombre "iris-pyspark"
    5. git remote add origin https://github.com/eromerobilbomatica/iris-pyspark.git
    6. Para poder hacer push he tenido que poner como colaborador a mi usuario de github personal en el repo que tengo con la cuenta de bilbomática porque no he podido cambiarlo en git, por defecto me está manteniendo el usuario IngTecEduardo y de ahí que haya que darle permisos a este.
    7. git add .
    8. git commit -m "añado instrucción README_EDU.md"
    9. git push -u origin main
  5. Instalalo las dependencias

    1. Incluyo pyspark==3.3.1 en el src/requirements.txt
    2. pip install -r src/requirements.txt
  1. Instalo java

    1. wget https://builds.openlogic.com/downloadJDK/openlogic-openjdk/8u362-b09/openlogic-openjdk-8u362-b09-linux-x64.tar.gz

    2. tar -xvzf openlogic-openjdk-8u362-b09-linux-x64.tar.gz

    3. sudo mv openlogic-openjdk-8u362-b09-linux-x64 /usr/lib/jvm/

    4. sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/bin/java 1

    5. sudo update-alternatives --config java

    6. para comprobar que la versión java coincide con el DEMML java -version

      cd ~/eromero/ && tar -xvzf openlogic-openjdk-8u362-b09-linux-x64.tar.gz && sudo mv openlogic-openjdk-8u362-b09-linux-x64 /usr/lib/jvm/ && sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/bin/java 1 && sudo update-alternatives --config java && java -version
      
    • En el caso de tener que desintalar de esta versión de java por completo
      1. Eliminar el directorio Java: sudo rm -rf /usr/lib/jvm/openlogic-openjdk-8u362-b09-linux-x64
      2. Eliminar los enlaces simbólicos de Java:
        1. sudo rm -f /usr/bin/java
        2. sudo rm -f /usr/lib/jvm/default-java
      3. Eliminar las entradas de Java del menú de actualización de alternativas: sudo update-alternatives --remove-all java

Correcciones

Kedro no me cagar el catalog en el jupyterlab

Dentro del jupyterlab levantado con kedro jupyter lab ejecutar en una celda:

%load_ext kedro.extras.extensions.ipython
%reload_kedro

Añado las variables de entorno de AWS

En el archivo nano ~/.bashrc (para que tenga efecto más allá de esta sesión) agrego al final:

export AWS_REGION="****"
export AWS_ACCESS_KEY_ID="****"
export AWS_SECRET_ACCESS_KEY="****"

cargo los cambios en la sesión actual source ~/.bashrc

Variables de entorno de AWS en kedro

Creo en la raiz del proyecto el archivo .env y le añado:

AWS_REGION="****"
AWS_ACCESS_KEY_ID="****"
AWS_SECRET_ACCESS_KEY="****"

y añado en el archivo settings.py la siguientes lineas al comienzo:

import dotenv
dotenv.load_dotenv()

Mapeo de dns en el archivo etc/hosts

version de linux usada

(demml) coder@coder-eromero-eromero-bcfbb95bd-d4kc5:~/eromero/iris-pyspark$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 20.04.6 LTS
Release:        20.04
Codename:       focal

instalación nano y ping

  • nano: sudo apt update && sudo apt install nano
  • ping: sudo apt install iputils-ping