Структуры данных в картинках. ArrayList

26.04.2019
12 сентября 2011 в 18:19

Структуры данных в картинках. ArrayList

  • Java

Приветствую вас, хабралюди!

Взбрело мне в голову написать несколько статей, о том как реализованы некоторые структуры данных в Java. Надеюсь, статьи будут полезны визуалам (картинки наше всё), начинающим java-визуалам а также тем кто уже умеет писать new ArrayList(), но слабо представляет что же происходит внутри.

Сегодня поговорим о ArrayList-ах

ArrayList - реализует интерфейс List. Как известно, в Java массивы имеют фиксированную длину, и после того как массив создан, он не может расти или уменьшаться. ArrayList может менять свой размер во время исполнения программы, при этом не обязательно указывать размерность при создании объекта. Элементы ArrayList могут быть абсолютно любых типов в том числе и null.

Создание объекта

ArrayList list = new ArrayList();
Только что созданный объект list, содержит свойства elementData и size .

Хранилище значений elementData есть ни что иное как массив определенного типа (указанного в generic), в нашем случае String . Если вызывается конструктор без параметров, то по умолчанию будет создан массив из 10-ти элементов типа Object (с приведением к типу, разумеется).

Внутри метода add(value) происходят следующие вещи:

EnsureCapacity(size + 1);
2) добавляется элемент в конец (согласно значению size ) массива.

ElementData = element;
Весь метод ensureCapacity(minCapacity) рассматривать не будем, остановимся только на паре интересных мест. Если места в массиве не достаточно, новая емкость рассчитывается по формуле (oldCapacity * 3) / 2 + 1 . Второй момент это копирование элементов. Оно осуществляется с помощью native метода System.arraycopy() , который написан не на Java.

// newCapacity - новое значение емкости elementData = (E)new Object; // oldData - временное хранилище текущего массива с данными System.arraycopy(oldData, 0, elementData, 0, size);

Ниже продемонстрирован цикл, поочередно добавляющий 15 элементов:
list.add("1");


...

List.add("10");
При добавлении 11-го элемента, проверка показывает что места в массиве нет. Соответственно создается новый массив и вызывается System.arraycopy() .

Добавление в «середину» списка

list.add(5, "100");
Добавление элемента на позицию с определенным индексом происходит в три этапа:

1) проверяется, достаточно ли места в массиве для вставки нового элемента;

EnsureCapacity(size+1);
2) подготавливается место для нового элемента с помощью System.arraycopy() ;

System.arraycopy(elementData, index, elementData, index + 1, size - index);


3) перезаписывается значение у элемента с указанным индексом.

Как можно догадаться, в случаях, когда происходит вставка элемента по индексу и при этом в вашем массиве нет свободных мест, то вызов System.arraycopy() случится дважды: первый в ensureCapacity() , второй в самом методе add(index, value) , что явно скажется на скорости всей операции добавления.

В случаях, когда в исходный список необходимо добавить другую коллекцию, да еще и в «середину», стоит использовать метод addAll(index, Collection) . И хотя, данный метод скорее всего вызовет System.arraycopy() три раза, в итоге это будет гораздо быстрее поэлементного добавления.

Удаление элементов

Удалять элементы можно двумя способами:
- по индексу remove(index)
- по значению remove(value)

С удалением элемента по индексу всё достаточно просто

List.remove(5);
Сначала определяется какое количество элементов надо скопировать

Int numMoved = size - index - 1;
затем копируем элементы используя System.arraycopy()

System.arraycopy(elementData, index + 1, elementData, index, numMoved);
уменьшаем размер массива и забываем про последний элемент

ElementData[--size] = null; // Let gc do its work

При удалении по значению, в цикле просматриваются все элементы списка, до тех пор пока не будет найдено соответствие. Удален будет лишь первый найденный элемент.

Дополнение 1: Как верно заметил

В предыдущей лекции была затронута одна из реализаций массива переменной длины — реализация с помощью списка LinkedList. В этот раз мы рассмотрим альтернативную версию: ArrayList.

Для использования ArrayList в Java нужно импортировать класс ArrayList:

Import Java.util.ArrayList;

ArrayList — это класс, содержащий где-то в своих недрах массив из ссылок на элементы типа Type и поле, содержащее размер самого ArrayList. Операции для работы с ArrayList аналогичны операциям для работы с LinkedList. Отметим, что класс ArrayList не позволяет программисту доступаться непосредственно к массиву. Более того, программист может манипулировать лишь теми элементами массива, которые созданы им самим.

Пример.

ArrayList list = new ArrayList();

Этой строкой мы создали объект класса ArrayList. В нём создался массив из десяти ссылок на Integer (10 — это длина массива внутри ArrayList по умолчанию). Однако ни одно из полей этого массива нам недоступно, и метод "list.isEmpty();" вернёт true. В нашем list пока нет ни одного элемента. На картинке это будет выглядеть примерно так:

После применения "list.add(5);" получим следующую картинку:

В случае, если мы проделаем добавление элемента десять раз подряд и захотим сделать это одиннадцатый раз, то у нас возникнет проблема. Проблема состоит в том, что наш массив в list закончился и нам больше некуда записывать данные. Поэтому нам необходимо расширить массив. Это происходит автоматически. Для этого создаётся новый массив большей длины, и в него копируются значения из прежнего массива. Это довольно дорогостоящая операция, она выполняется примерно O(N) итераций. В классе ArrayList длина нового массива превосходит длину прежнего массива в полтора раза. Итого, если проделать 11 раз подряд операцию "list.add(5);", то получится примерно следующая картинка:

Заметим также, что выполнение операции "list.remove(index);" не уменьшит реальную длину массива в list.

Таблица времени работы в среднем операций для ArrayList.

Рассмотрим теперь асимптотическое время выполнения операций над ArrayList:

Заметим, что для add(value) и add(index, value) время выполнения составляет O(1) и O(size - index) соответственно, хотя в худшем случае эти операции работают O(size). Покажем, почему же среднее время работы для операции add(value) получается O(1).

Оценка времени работы операции add(value).

Давайте, для начала, рассмотрим вариант, в котором увеличение массива происходит всего на один элемент. В таком случае при добавлении нового элемента нам каждый раз пришлось бы создавать новый массив и копировать в него все элементы старого. Таким образом время работы add(value) всегда (в том числе и в среднем) равнялось бы O(N). Даже в случае расширения \ нашего массива каждый раз на k элементов время работы в среднем всё равно составило бы O(N). Действительно. Каждый k-ый раз операция выполняется за O(N), а в остальных случаях за O(1). Если взять среднее арифметическое, то получим C * N, то есть O(N).

Рассмотрим теперь реальный случай, в котором удлиннение массива каждый раз происходит в полтора раза. Пускай мы заполняем объект типа LinkedList size элементами. Предположим также, что для добавления последнего элемента нашему массиву пришлось расширяться. Подсчитаем, сколько времени нам понадобилось на заполнение этого объекта. Последнее добавление элемента заняло порядка size операций. Несколько предыдущих вызовов заняли порядка одной операции каждый. Предпоследнее "долгое" добавление производилось примерно (2/3)*size операций (так как массив расширяется каждый раз в полтора раза). И так далее. Получим, что операций всего было произведено примерно:

size + (2/3) * size + (2/3) 2 * size + (2/3) 3 * size + ... = size / (1 - 2/3) = 3 * size

То есть мы получили, что выполнение операции add(value) size раз происходит C * size времени, а это и означает, что время выполнения add(value) равно O(1).

Дополнительные методы в ArrayList.

В дополнение к уже изученным методам для ArrayList есть ещё пара методов, о которых полезно знать: trimToSize() и ensureCapacity(capacity). Первый метод сокращает массив до длины, которая хранится параметром в ArrayList. То есть при его использовании просто-напросто удаляются незначащие элементы массива. При использовании "list.ensureCapacity(capacity);" длина массива станет по крайней мере capacity. Эти методы стоит иметь в виду, но они не так часто бывают нужны. Обе эти операции позволяют экономить память, а ensureCapacity(capacity) при правильном использовании уменьшает время работы программы.

Также длину массива можно задавать при конструировании объекта класса ArrayList. Для задания массиву изначальной длины capacity достаточно написать:

ArrayList list = new ArrayList(capacity);

Заключение.

Обзор класса ArrayList мы закончим небольшим сравнением его с классом LinkedList.

В ArrayList произвольный доступ к элементам списка происходит за константное время, когда в LinkedList — за линейное. В этом плане лучше пользоваться объектом класса ArrayList. Но, предупреждаем ещё раз, нужно избегать применения таких операций как get(i). Если у Вас есть возможность обойти вызов get(i), то лучше этой возможностью воспользоваться.

В силу того, что Java — объектно-ориентированный язык программирования, значительных перевесов в борьбе за экономию памяти ни тот ни другой класс не получают. Хотя формально в этом плане выигрывает ArrayList (если учесть, что у него есть такие возможности, как trimToSize), этот выигрыш является незначительным.

LinkedList хорош тем, что мы всегда точно знаем, сколько времени займёт добавление нового элемента. В ArrayList мы можем говорить лишь о среднем значении времени добавления нового элемента.

Основной же недостаток ArrayList заключается в том, что возможность вызова спецфункций для этого класса входит в противоречие с идеалогией объектно-ориентированного программирования.