Kilka przykładowych agregacji korzystających z danych zipcodes oraz imieniny opisano w Aggregation Framework Examples.
Dane należy wpisać według schematu (całość w jednym wierszu):
1. [Nazwisko, Imię](link do repozytorium z rozwiązaniem zadania 1 na GitHub).
[Tytuł](link do repozytorium z rozwiązaniem zadania 2 na GitHub),
- Acewicz-Hepfner, Patryk
- Banecka, Kamila
- Banecki, Daniel
- Bednarczyk, Marek
- Bieliński, Marcin
- Bławat, Adam
- Bonczkowska, Magdalena
- Borkowski, Maciej
- Cimoch, Jarosław
- Czechowicz, Kacper
- Dargacz, Mateusz
- Drozdowski, Adrian
- Ekiert, Łukasz
- Gałka, Łukasz
- Grycko, Marcin
- Horoszko, Marcin
- Janowski, Arkadiusz
- Józwiak, Roman
- Kamiński, Jakub
- Karolczak, Jakub
- Kąkol, Jan
- Kłeczek, Piotr
- Komorowski, Szymon
- Koźmiński, Marcin
- Kożuch, Adam
- Kucharski, Maciej
- Kulas, Piotr
- Kuźnik, Mateusz
- Kwiatkowski, Dominik
- Lamkiewicz, Krzysztof
- Latoszewski, Adam
- Latoszewski, Krzysztof
- Ławicki, Patryk
- Makulec, Krzysztof
- Miotk, Mateusz
- Miś, Maciej
- Nowak, Wojciech
- Nowicki, Jakub
- Ossowski, Marcin
- Piotrkowski, Łukasz
- Rękawek, Szymon
- Sałata, Jakub
- Sarzyńska, Magdalena
- Sienkiewicz, Daniel
- Skałkowski, Michał
- Soliński, Damian
- Synowczyk, Piotr
- Szklarska, Milena
- Szymanek, Tomasz
- Wittbrodt, Łukasz
- Zakrzewski, Patryk
- Zalewski, Marcin
- Zdunek, Kamil
Przykłady z MapReduce lub agregacji w Elasticsearch.
Provide public access to scripts, runs, and results:
- Version control all custom scripts:
- avoid writing code
- write thin scripts and use standard tools and use standard UNIX commands to chain things together.
- Avoid manual data manipulation steps:
- use a build system, for example make, and have all results produced automatically by build targets
- if it’s not automated, it’s not part of the project, i.e. have an idea for a graph or an analysis? automate its generation
- Use a markup, for example Markdown, to create reports for analysis and presentation output products.
And two more rules:
- Record all intermediate results, when possible in standardized formats.
- Connect textual statements to underlying results.
- Do automatycznego wygenerowania spisu treści w zadaniach można użyć narzędzia Table of Contents Preprocessor.
- Jak sobie radzić z nieczystymi committami?
- Stanford Large Network Dataset Collection by Jure Leskovec: Online Reviews (Amazon, Movies, Beer)
- GetGlue and Timestamped Event Data (ok. 11 GB); próbka 100 jsonów getglue101. Dane pochodzą z lat 2007–2012 – tylko filmy i przedstawienia TV. Przykładowe aggregacje: ilu jest różnych użytkowników w danych? jakie jest 10 najpopularniejszych filmów i przedstawień TV? ile jest różnych akcji?