-
Inst. Miniconda
-
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
-
chmod +x Miniconda3-latest-Linux-x86_64.sh
-
bash Miniconda3-latest-Linux-x86_64.sh
cd ~/eromero/ && chmod +x Miniconda3-latest-Linux-x86_64.sh && bash Miniconda3-latest-Linux-x86_64.sh
-
-
Crear env. python 3.8.13
- Abrir nueva terminal
- conda create --name demml python=3.8.13
- conda activate demml
- pip install kedro kedro-viz
-
Crear proyecto kedro
- kedro new --starter=pyspark
- cd iris-pyspark/
-
Configuración git
- git config --global init.defaultBranch main
- git branch -m main
- git init
- Creo el repo en Github con el nombre "iris-pyspark"
- git remote add origin https://github.com/eromerobilbomatica/iris-pyspark.git
- Para poder hacer push he tenido que poner como colaborador a mi usuario de github personal en el repo que tengo con la cuenta de bilbomática porque no he podido cambiarlo en git, por defecto me está manteniendo el usuario IngTecEduardo y de ahí que haya que darle permisos a este.
- git add .
- git commit -m "añado instrucción README_EDU.md"
- git push -u origin main
-
Instalalo las dependencias
- Incluyo pyspark==3.3.1 en el src/requirements.txt
- pip install -r src/requirements.txt
-
Instalo java
-
tar -xvzf openlogic-openjdk-8u362-b09-linux-x64.tar.gz
-
sudo mv openlogic-openjdk-8u362-b09-linux-x64 /usr/lib/jvm/
-
sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/bin/java 1
-
sudo update-alternatives --config java
-
para comprobar que la versión java coincide con el DEMML
java -version
cd ~/eromero/ && tar -xvzf openlogic-openjdk-8u362-b09-linux-x64.tar.gz && sudo mv openlogic-openjdk-8u362-b09-linux-x64 /usr/lib/jvm/ && sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/bin/java 1 && sudo update-alternatives --config java && java -version
- En el caso de tener que desintalar de esta versión de java por completo
- Eliminar el directorio Java: sudo rm -rf /usr/lib/jvm/openlogic-openjdk-8u362-b09-linux-x64
- Eliminar los enlaces simbólicos de Java:
- sudo rm -f /usr/bin/java
- sudo rm -f /usr/lib/jvm/default-java
- Eliminar las entradas de Java del menú de actualización de alternativas: sudo update-alternatives --remove-all java
Dentro del jupyterlab levantado con kedro jupyter lab
ejecutar en una celda:
%load_ext kedro.extras.extensions.ipython
%reload_kedro
En el archivo nano ~/.bashrc
(para que tenga efecto más allá de esta sesión) agrego al final:
export AWS_REGION="****"
export AWS_ACCESS_KEY_ID="****"
export AWS_SECRET_ACCESS_KEY="****"
cargo los cambios en la sesión actual source ~/.bashrc
Creo en la raiz del proyecto el archivo .env
y le añado:
AWS_REGION="****"
AWS_ACCESS_KEY_ID="****"
AWS_SECRET_ACCESS_KEY="****"
y añado en el archivo settings.py
la siguientes lineas al comienzo:
import dotenv
dotenv.load_dotenv()
(demml) coder@coder-eromero-eromero-bcfbb95bd-d4kc5:~/eromero/iris-pyspark$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 20.04.6 LTS
Release: 20.04
Codename: focal
- nano:
sudo apt update && sudo apt install nano
- ping:
sudo apt install iputils-ping