بعضی نویسندگان داده کاوی رو به عنوان ابزاری واسه جستجو کردن اطلاعات سودمند در حجم زیادی از داده ها تعریف می کنن. واسنجام مراحل داده کاوی با زمینه های جورواجور تحقیقی روبرو می‌شیم، مثل پایگاه داده، یادگیری ماشین و آمار. پایگاه داده‌ها واسه بررسی کردن حجم زیادی از داده‌ها لازمن. یادگیری ماشین، یک ناحیه هوش مصنوعیه که با ایجاد تکنیک‌هایی امکان یادگیری به وسیله بررسی مجموعه‌های دادی رو به کامپیوترها میدن. تمرکز این روش‌ها روی داده سمبولیکه و با بررسی داده‌های تجربی سر و کار داره. پایه اون تئوری آماریه. در این تئوری نبود قطعیت و شانس به وسیله تئوری احتمال مدل می‌شن. الان خیلی از روش‌های آماری در مورد داده کاوی استفاده می‌شن. میشه گفت که متن کاوی از تکنیک‌های بازیابی اطلاعات، درآورده اطلاعات ضمنا پردازش کردن زبون طبیعی استفاده می‌کنه و اونا رو به الگوریتم‌ها و متدهای داده کاوی، یادگیری ماشین و آماری در ارتباط می‌کنه. با توجه به ناحیه‌های تحقیق جورواجور، بر هر یک از اونا میشه تعاریف مختلفی از متن کاوی در نظر گرفت در ادامه بعضی از این تعاریف بیان می‌شن:
متن کاوی = درآورده اطلاعات: در این تعریف متن کاوی شبیه با درآورده اطلاعات در نظر گرفته می‌شه (درآورده واقعیت‌ها از متن).
متن کاوی = کشف داده متنی: متن کاوی رو میشه به عنوان متدها و الگوریتم‌هایی از فیلدهای یادگیری ماشین و آماری واسه متن‌ها با هدف پیدا کردن الگوهای مفید در نظر گرفت. واسه این هدف پیش پردازش کردن متون ضروریه. در خیلی از روش‌ها، متدهای درآورده اطلاعات، پردازش کردن زبون طبیعی یا بعضی پیش پردازش‌های راحت واسه درآورده داده از متون استفاده می‌شه، بعد میشه الگوریتم‌های داده کاوی رو روی داده‌های درآورده شده اعمال کرد.
متن کاوی = مراحل درآورده علم: که در بخش قبلی به طور کامل توضیح داده شده و اینجا دیگر بیان نمی‌شه. در این تحقیق ما بیشتر متن کاوی رو به عنوان کشف داده متنی در نظر می‌گیریم و بیشتر روی روش‌های درآورده الگوهای مفید از متن واسه دسته‌بندی مجموعه‌ های متنی یا درآورده اطلاعات مفید، تمرکز می‌کنیم.
در دنیای الان مشکل کمبود اطلاعات نیس، بلکه مشکل کمبود دانشیه که از این اطلاعات میشه گرفت. میلیونها صفحه وب، میلیونها کلمه در کتابخونه‌های دیجیتال و هزاران صفحه اطلاعات در هر شرکت، تنها چند دست از این منابع اطلاعاتین. اما نمیشه منبعی از علم رو در این بین معرفی کرد. علم خلاصه‌ی اطلاعاته و هم نتیجه گیری و حاصل فکر و بررسی روی اطلاعات.
داده کاوی، یک روش خیلی کارا واسه کشف اطلاعات از داده‌های ساختیافته‌ای که در جداول نگهداری می‌شن، است. داده کاوی، الگوها رو از تراکنش‌ها، درآورده می‌کنه، داده رو گروه‌بندی می‌کنه و هم اونو دسته‌بندی می‌کنه. بوسیله‌ی داده کاوی می تونیم به روابط بین انواع دادی که پایگاه داده رو پر کرده‌ان، پی ببریم. ضمنا ما با داده کاوی مشکلی داریم و اون نبود وجود عامیت در کاربرد اینه. بیشتر علم ما اگه به شکل غیر دیجیتال نباشن، ً غیر ساختیافتن. کتابخونه‌های دیجیتال، اخبار، کتابهای الکترونیکی، خیلی از مدارک پولی، مقالات علمی و تقریباً هر چیزی که شما می تونین در داخل وب پیدا کنین، ساختیافته نیستن. پس ما نمی‌توانیم درس‌های داده کاوی رو در مورد اونا به طور مستقیم استفاده کنیم. با این حال، سه روش اساسی در روبرو شدن با این حجم وسیع از اطلاعات غیر ساختیافته هست : بازیابی اطلاعات، درآورده اطلاعات و پردازش زبون طبیعی.
بازیابی اطلاعات: ً مرتبطه با بازیابی مستندات و مدارک. کار عادی دربازیابی اطلاعات اینه که با توجه به نیاز مطرح شده از طرف کاربر، در ارتباط ترین متون و مستندات و یا بقچه‌ی کلمه رو ازمیان دیگر مستندات یک مجموعه بیرون بکشه. این یافتن علم نیس بلکه تنها اون بقچه‌ای از کلمات رو که به نظرش در ارتباط‌تر به نیاز اطلاعاتی جستجوگره رو به اون تحویل می ده. این روش به واقع علم و حتی اطلاعاتی رو برایمان به ارمغان نمی‌آورد.
پردازش زبون طبیعی: هدف کلی پردازش زبون طبیعی رسیدن به یک درک بهتر از زبون طبیعی به وسیله کامپیوترهاست. تکنیک‌های محکم و راحت‌ای واسه پردازش کردن سریع متن به کار می‌روند. ضمنا از تکنیک‌های بررسی زبون شناسی هم واسه پردازش کردن متن استفاده می‌شه.
درآورده اطلاعات: هدف روش‌های درآورده اطلاعات، درآورده اطلاعات خاص از سندهای متنیه. درآورده اطلاعات می تونه به عنوان یک فاز پیش پردازش در متن‌کاوی بکار برود. درآورده اطلاعات عبارتند از نگاشت کردن متن‌های زبون طبیعی (مثلا گزارش‌ها، مقالات journal، روزنامه‌ها، ایمیل‌ها، صفحات وب، هر پایگاه داده متنی و…..) به یک نمایش ساختیافته و از پیش تعریف شده یا قالب‌هایی که وقتی پر می‌شن، منتخبی از اطلاعات کلیدی از متن اصلی رو نشون میدن. یه بار اطلاعات درآورده شده و بعد اطلاعات می تونن در پایگاه داده واسه استفاده‌های آینده، ذخیره شن.

1-2- کاربردهای متن کاوی
در این قسمت تعدادی از کاربردهای متن‌کاوری رو میگیم. الان با وجود حجم زیادی از اطلاعات متنی، متن‌کاوی مثل روشای تحقیقی-تجاری هست که از اهمیت ویژه‌ای برخورداره. همه شرکت‌های تجاری، تولید کنندگان جنسا، ارائه کنندگان خدمات و سیاست‌مداران می تونن با بهره‌گیری از مراحل متن‌کاوی علم مفیدی رو به عنوان بازخورد از کالا، خدمات و کارکرد خود دریافت کنن. مثل کاربردهای متن کاوی میشه به موارد زیر اشاره نمود:
1.شناساییspam: بررسی کردن عنوان و محتوای یک ایمیل دریافتی، واسه تشخیص اینکه ایمیل می تونه spam باشه یاخیر.
2 .نظارت :یعنی نظارت کردن رفتار شخص یا گروهی از آدم‌ها به شکل مخفی. پروژه‌ای به نام ENCODA تلفن، اینترنت و دیگر وسایل ارتباطی رو واسه شناسایی تروریسم نظارت می‌کنه.
3. شناسایی نامهای مستعار: نام‌های مستعار در مراقبت‌های پزشکی واسه شناسایی تقلب‌ها بررسی می‌شن. مثلا یک صورت حساب ممکن هست با نام John Smith، J. Smith و Smith, John ارائه شه. از این راه یا با استفاده از روش‌های دیگری مطالبه کنندگان امکان سوءاستفاده رو پیدا می کنن و مطالبات حق بیمه زیادی تحت نام‌های مستعار مختلف دریافت می کنن. استفاده از متن‌کاوی واسه تشخیص این نام‌های مستعار می تونه در یافتن تقلب به شرکت‌های بیمه کمک زیادی کنه.
4.خلاصه سازی: منظور از خلاصه سازی، روند درآورده و ارائه مجموعه‌ای مفاهیم پایه‌ای از متن، تنها در چند خطه. این کار می تونه بررسی محتویات مستندات رو واسه کاربران راحت‌تر کنه و اونا رو در راه رسیدن به چیزی که نیاز دارن، سرعت بخشد.
5. روابط بین مفاهیم: مثل واقعیتهایی که میشه از یک مجموعه متون دریافت، رابطه و وابستگی بعضی مفاهیم با مفاهیم دیگراست. این واقعیات به طور مثال می تونه بگه که ظاهر شدن بعضی کلمات ممکنه که وابسته باشه به ظاهر شدن بعضی دیگر از کلمات. منظور اینه که هروقت مجموعه اول کلمات رو ببینیم، می تونیم توقع داشته باشیم که مجموعه‌ی دوم لغات رو هم در ادامه مشاهده می کنیم. این معنی هم از داده کاوی در دیتابیس به امانت گرفته شده.

دسته بندی : علمی