Основи на интелектуалния анализ на данни: технологии, методи и задачи

Използването на данни е проблем при разработването на програми и разработването на информационни системи. Преди да се анализира голямо количество данни и да се вземе решение, което да гарантира надежден и обективен резултат, е необходимо да се определи този голям обем. Задачата е сложна, ако потокът от информация се увеличава бързо и времето за вземане на решение е ограничено.

Данни и тяхната формализация

Съвременните информационни технологии осигуряват безопасен и надежден анализ, представяне и обработка на данни. Синтактично и формално е вярно. По отношение на семантиката на задачата и обективността на очакваното решение - резултатът зависи от опита, знанията и уменията на програмиста. Програмните езици са в състояние на надежден и сигурен инструмент. Знанията и уменията на специалистите да анализират, представят и обработват данните достигат до ниво на относителна универсалност.


Технологията за анализ на интелектуални данни на това ниво е практически безупречна. Видът на данните може да бъде известен преди операцията върху тях, а в случай на несъответствие - автоматично ще бъде доведена до желания тип.
Разработени са хипертекстови инструменти, широко се използва разпределена разпределена обработка на големи обеми данни. На това ниво:
  • информационните задачи подлежат на формализиране;
  • са изпълнени потребностите от интелектуален анализ;
  • Качеството на резултата зависи от качеството на знанията и професионализма на програмиста.
  • Ситуацията в програмирането на информациясистеми на ниво предприятие, характеризиращи се с реална работна продукти, които осигуряват образуването на големи количества данни и на проблема с по-висок порядък.


    на големи количества данни

    През 80-те години, когато базата данни става база данни, системи за управление, подобряване на надеждността и качеството на езика за програмиране хардуер може още много да се желае. В момента, натрупан голям брой бази данни, много компютъризирани информационни източници, разработени усъвършенствани системи за събиране на разнообразна информация (финанси, време, статистика, данъци, недвижими имоти, лични данни, политика за климата). Някои източници на данни, характеризиращи очевидни модели са анализирани и математически методи. Можете да извършвате прогнозен анализ в Excel: ясни данни за изграждане на модел за формиране на хипотеза за определяне на съответствието и т D. Някои източници на данни и модели са трудни за откриване.. Във всички случаи, софтуер и хардуер за обработка на данни се характеризира с надеждност и стабилност. Цел извличане на данни започва в челните редици на много социално-икономически сектори.
    Лидерите на информационната индустрия, включително Oracle, фокусирани върху обхвата на обстоятелства, които характеризират новия тип данни:
  • огромни потоци;
  • Природен информация (дори ако тя е създадена софтуер);
  • разнородни данни;
  • най-високите критерии на съда;
  • на широка гама от файлов формат;
  • съвместимост интеграториданни и техните отговорници.
  • Основната характеристика на данните от нов тип: огромният обем и скорост на растеж на този обем. Класическите алгоритми не са приложими за обработка на нови типове данни, дори като се вземе предвид скоростта на съвременните компютри и прилагането на паралелни технологии.

    От архивиране до миграция и интеграция

    Преди това задачата за безопасно съхранение на информация (архивиране, архивиране) беше спешна. Днес е актуален проблемът с миграцията на множество представяния на данни (различни формати и кодиране) и тяхната интеграция в едно цяло.
    Без технологията на интелигентния анализ на данните, много проблеми не могат да бъдат решени. Тук не става дума за вземане на решения, определяне на зависимости, създаване на алгоритми за извадки от обеми данни за по-нататъшна обработка. Сливането на разнородни данни се превърна в проблем и не е възможно да се въведат източници на информация в единна формализирана основа. Интелигентният анализ на големи количества данни изисква дефинирането на този том и създаването на технология (алгоритъм, евристика, набор от правила), за да се получи възможност да се постави задача и да се реши.

    Data mining: Digging

    Концепцията за анализ на данни в контекста на интелектуалните методи активно се развива от началото на 90-те години на миналия век. Изкуственият интелект все още не е изпълнил очакванията, но необходимостта от информирани решения, базирани на анализ на информацията, непрекъснато нараства. Машинно обучение, интелигентен анализ на данни, разпознаване на изображения, визуализация, теория на базата данни, алгоритмизация, статистика,математическите методи са спектър от задачи на нов, активно развиващ се клон на знанието, който се свързва с англоговорящите данни minig. На практика новата област на знанието е станала интердисциплинарна и е в процес на превръщане. Благодарение на опита на Oracle, Microsoft, IBM и други водещи компании и софтуерни продукти, има ясна представа, че такъв интелигентен анализ на данните, но все още има много въпроси. Достатъчно е да се каже, че софтуерната продуктова линия на Oracle, посветена на изключително големи обеми информация, тяхната интеграция, съвместимост, миграция и обработка, е повече от четиридесет позиции! Какво ви е необходимо да поставите задачата за обработка на големи данни правилно и да получите основателно решение? Учените и практиките се обединяват в общото разбиране на фразата "търсене на скрити закони". Тук има три позиции:
  • неочевидни;
  • обективност;
  • практическа полезност.
  • Първата позиция означава, че обичайните методи не определят какво трябва да се намери и как да се направи. Класическото програмиране тук не е приложимо. Изисква се, ако не и изкуствен интелект, след това поне програми за интелигентен анализ на данни. Терминът "интелектуален" е не по-малко проблем, отколкото задачата за определяне на достатъчно количество първоначални данни за вземане на решения и формулиране на първоначалните правила на работа.
    Обективност - вид гаранция, че избраната технология, разработеният "интелигентен" метод или набор от "интелигентни" правила ще дадат основание да се смята, че резултатите са верни не само на автора,но и всеки друг специалист.

    Oracle в своите софтуерни продукти добавя към понятието за обективност статута на сигурно, лишено от негативни намеси на трети страни. Практическа полезност - най-важният критерий за резултата и алгоритъма за решаване на проблема с извличането на данни в конкретно приложение.

    Data mining: къде да копае

    Business Intelligence (Business Intelligence - BI) е в основата на съвременния, най-скъп и популярен софтуер. Доставчиците на бизнес решения смятат, че са намерили начин за решаване на проблемите при обработката на големи обеми от данни, а техните софтуерни продукти могат да осигурят безопасно и бързо развитие на бизнеса на всяка компания. Както в случая с изкуствения интелект в областта на интелигентния анализ на данните, настоящите постижения не трябва да се надценяват прекалено много. Всичко само стига до краката, но също така отричат ​​реалните резултати, също не може. Обхват на приложение. Разработени са алгоритмите за анализ на интелектуалните данни в икономиката, за производството, в областта на климатичната информация, за курсовете на обменните курсове. Има интелигентни продукти за защита на компанията от отрицателното въздействие на уволнените работници (областта на психологията и социологията е силна тема), от вирусни атаки. Много разработки наистина изпълняват функциите, декларирани от техните производители. Всъщност задачата - какво да се прави и къде да се направи - е придобила смислен и обективен контекст:
  • минимален възможен обхват;
  • най-точната и точна цел;
  • източници на данни и даннисе довеждат до една основа.
  • Само обхватът и очакваната практическа полезност могат да помогнат за формулирането на технологията, методологията, правилата и основите на извличането на данни в определена област за определена цел.
    Информационните технологии подадоха заявление за научна дисциплина и не е необходимо да се предприемат малки стъпки в нова, неизследвана посока. Навлизайки в светия свят - естествената интелигентност, човек не може да изисква от себе си това, което не може да се направи.
    Решението какво да се направи и къде да се направи е изключително трудно днес. В даден бизнес, в определена област на човешката дейност, е възможно да се очертае количеството информация, която трябва да се изследва и да се получи решение, което ще се характеризира с известна степен на вероятност и индикатор за обективност.

    Data mining: как да копаем

    Професионално програмиране и собствен висококвалифициран персонал - единственият инструмент за постигане на желаното. Пример 1. Задачата за извличане на данни няма да бъде решена чрез чисто приложение на Oracle Load Testing Controller. Този продукт е заявен като пълнофункционален инструмент за тестване на натоварването. Това е много тясна задача. Само натоварване! Нищо повече, няма високо-интелектуални задачи. Въпреки това, задачите, върху които се използва този продукт, могат да поставят задънена улица не само на участника в теста, но и на разработчика, с всички регалии на лидера в индустрията. По-специално, тестването е изискване за функционална пълнота. Къде е гаранцията, че контролерът за тестване на Oracle е "актуален" на кои масиви от данниможе да въведе входа на изследваната програма, сървър, софтуер и хардуер.
    Пример 2. Oracle Business Intelligence Suite Foundation Edition за приложения на Oracle - разработчикът декларира този продукт като добра комбинация, използвана с експертни познания за изграждане, развитие и предоставяне на голям бизнес. Безспорно опитът на Oracle е страхотен, но това не е достатъчно за неговата трансформация чрез софтуерно-експертен продукт. В конкретно предприятие, в конкретен регион, бизнес разузнаването от Oracle не може да работи от решението на данъчната служба или от решенията на местната община.

    Интелигентно прилагане на съвременни технологии

    Единственото правилно решение в областта на големите обеми информация, извличане на данни и системи за извличане на данни на компанията, държавната агенция и във всяка социално-икономическа област - екип от специалисти. Знанията и опитът на квалифицираните специалисти са единственото правилно решение, което ще даде изчерпателен отговор на въпросите:
  • извличане на данни: какво да копаем, къде да го направим и как?
  • Закупуването на приоритетни продукти на съответната дестинация няма да бъде излишно, но преди това трябва да се проучи обхватът на приложение, да се формулира първоначално решение и да се постави предварителна цел. Едва след като тематичната област се определя от целта и е сравнително ясна, можете да потърсите решения, които вече са разработени и тествани от практиката. Най-вероятно ще бъде намерен продукт, който ще изясни предмета и целта. Нито една програма днес няма да се справи с истинската задача. Изгубени в областта на изкуствения интелектв началото на 80-те години на миналия век умен човек все още не може да разчита на възможността да напише програма, решаваща интелектуална задача.
    ​​Не трябва да се очаква, че AI ще дойде сам, но този, който е закупен в Oracle, Microsoft и IBM ще каже какво е необходимо да се направи и какъв резултат да се счита за правилен. В съвременния свят на информационните технологии има бърз напредък. Тя може да вземе ефективна роля, да укрепи бизнеса ви или да реши трудна задача. Но трябва да участвате, а не да разчитате на програмата. Програмирането е статична работа, резултатът е твърд алгоритъм. Съвременното интелектуално правило или евристика е строго определено решение, което не работи с най-добър шанс.

    Моделиране и тестване

    Интелигентен анализ на големи данни - наистина важна и уместна задача. Но областта на приложение за откриване на този проблем е лоша, но живее и се развива. Необходимостта от по-нататъшно бизнес развитие поставя нови предизвикателства, които ни позволяват концептуално да очертаем обхвата на обработката на големи данни. Това е естествен процес на научно, техническо и интелектуално развитие на предприятието, фирмата, бизнеса. Това може да се дължи на интернет технологиите, на задачите за разбор на информация в интернет. Има много нови задачи и програми, които се търсят, могат да бъдат повече или по-малко ясно подредени и характеризирани с обективен параметър: тяхното решение е от интерес и има разбиране за вероятната полезност. Симулация -Добре развита зона, оборудвана с множество доказани математически методи. Моделът може да бъде построен винаги, ще има време и желание. Симулацията ви позволява да фокусирате всички налични знания в една система и да я подобрите циклично на набор от тестови данни. Това е класически път на развитие, който също е тестван от практиката. Ако не изграждате въздушни брави, а при стабилни, уверено отидете на поставената цел, можете да определите както пътя, така и желаното решение и крайната цел.

    Програмиране и интелигентни методи

    Програмирането в началото на 80-те години на миналия век подтиква общественото съзнание към раждането на идеи за изкуствен интелект, то е основател на извличането на данни, и от него започват методите за извличане на данни. В тези далечни времена проблемите с големи обеми от данни не съществуват. Днес, не само големи обеми от данни, но и резултат от развитието на системи за управление на бази данни - значителен опит в отношенията отношения, като основа на базата за представяне на данни.
    Релационните отношения са част, но не са интегрални. Все още има представа за система, йерархия и много повече от това, което притежава естествената интелигентност, но не може да реализира изкуствен интелект: в този случай, в програмирането. Програмирането не е интелигентност в никакъв смисъл, но е реален резултат от прилагането на интелигентността на практика. Това е неговото съдържание и точно това може да се използва за постигане на желаните цели.

    Активни знания и умения

    Всяка програма е статична. Тя представлява изграждането на алгоритъм за решение вв синтаксиса на езика за програмиране. Съвременните езици за програмиране са перфектният резултат от 80-те години и това не може да се отрече. Също така трябва да се отбележи, че съвременните езици за програмиране позволяват създаването на свободни алгоритми извън неговия синтаксис. Ако някой някога може да напише програма, която да работи не по волята на автора, а по волята на придобитите от нея знания и умения, проблемът с големите обеми данни и приемането на интелектуални решения ще бъде затворен и ще започне нов етап на развитие на знанието.

    Свързани публикации